R/R 프로젝트

[ 이토록 쉬운 통계&R 100일 프로젝트 ] Day 8. 20% 물수능과 불수능

Chipmunks 2018. 4. 9.
728x90


100점이 모두 똑같은 100점은 아닙니다. 100점보다 나은 80점이 있을 수도 있죠.



연도별 수능 수리가형 원점수 등급 기준점수


2011년 수능은 대표적인 불수능이다. 수리가형은 1등급 커트라인이 79점이었다. 7점이 더 깎인 72점을 받아도 2등급이다. 반면 대표적인 물수능이었던 2015년의 1등급 기준은 100점이다. 한 문제라도 틀리면 바로 2등급이고 꽤 높은 점수인 95점을 받아도 3등급으로 떨어지는 무시무시한 결과이다.


똑같이 90점을 받았더라도 2011년의 90점은 1등급 중에서도 꽤 높은 점수에 속하는 반면 2015년의 90점은 3등급 기준 점수에 간신히 걸칠 수 있다.


이렇게 난이도에 따라서 점수 분포가 매번 달라지기 때문에 절대적인 점수를 사용하기 어렵다. 그래서 대안적인 점수 혹은 평가기준이 필요하다.


첫 번째 대안책은 등급이다. 앞서 우리가 배운 백분위를 활용해서 학생들을 점수 순서로 정렬한 다음 적절한 비율로 잘라 등급을 매긴다. 그러나 2011년 수능 수리가형에서 100점을 받아도, 79점을 받아도 1등급이다. 이 어려운 시험에서 100점을 받은 학생에겐 너무나 불공평하다. 또 같은 점수라도 어려운 시험을 치른 학생이 더 높은 점수를 받을 수 있는 새로운 점수 체계가 필요하다. 그래서 평균과 표준편차를 활용해 표준점수라고 하는 상대적인 점수를 만들었다.


표준화

서로 다른 시험에서 얻은 점수를 비교해 어느 쪽이 상대적으로 더 잘한 것인지 확인하는 방법은, 표준화(Standardization)이다.

예를 들어 변수 x, 학생 여섯 명의 시험 점수가 있다. 최솟값은 6이고, 최댓값은 22이다.

6 10 15 18 19 22

계산을 해보면, 평균은 15고 표준편차는 6이다.



16 20 25 28 29 32


모든 학생들에게 10점씩 줘도, 평균만 10점이 오르고 표준편차는 그대로 6이다. 평균과의 거리는 변하지 않기 때문이다. 따라서 절대적인 점수가 아닌 상대적인 점수의 관점에서 두 성적은 전혀 차이가 없다.


-25 : -9 -5 0 3 4 7


그럼 본래 시험 점수와 기본 점수를 추가한 점수 사이에 상대적인 차이가 없다는 것을 어떻게 나타낼까.

각 점수에서 평균을 빼면 된다. 기본 점수에서 10저믈 더한 새로운 점수도, 평균과의 차이는 같다. 두 경우 모두 똑같은 상대적인 점수로 바뀐다. 이렇게 각 관측치에서 평균을 빼는 과정을 중심화(Centering)라고 한다.


이번에는 10점씩을 더한 것이 아니라 2배로 바꿨다. 원래 점수에 * 2를 해서 새로운 변수 y를 만들었다.


x2 : 12 20 30 36 38 44


각자의 점수에서 평균인 30점을 다시 빼보자.


-30 : -18 -10 0 6 8 14


중심화를 하고나 후 평균은 0이 되지만, 관측치들이 평균 0을 기준으로 원래 점수의 중심화 점수보다 2배씩 멀리 벌어졌다. 그렇다면 표준편차는 얼마일까



2배 점수의 표준편차는 12가 나온다. 원래 점수를 2배로 했더니 표준편차도 원래 표준편차 6보다 2배가 되어 12가 되었다. 각 관측치들이 평균으로부터 멀어져 있는 거리가 2배가 되었으니 표준편차도 2배가 되었다.


단위가 바뀌면 바뀐 만큼 변하는 표준편차도 있다. 2배로 늘어난 점수를 2배가 된 표준편차로 나눠보자


-1.5 -0.8 0 0.5 0.7 1.2


제일 왼쪽 점수를 예로 들면, 원래 점수 6점에서 평균 15를 뺀 -9점을 표준편차 6으로 나눠도 -1.5, 평균 점수를 2배로 늘린 -18점을 표준편차 12로 나눠도 똑같이 -1.5의 값을 가진다. 이처럼 각 관측치를 표준편차로 나누는 것을 척도화(Scaling)라고 한다.


척도화는 단위에 따른 차이를 고려해서 값들을 상대적인 척도로 바꾼다. -1.5 값은, 평균에서 표준편차의 1.5배마큼 더 낮은 점수를 갖고 있다는 의미이다. 척도화의 장점은, 변수는 cm, m와 같은 단위가 있지만 값의 전반적인 크기를 보정할 뿐 아니라 단위를 없애준다.



'점' 이라는 단위도 분수에서 약분이 되어 없어진다.


표준화 : 1. 변수를 먼저 중심화 2. 척도화

이렇게 계산된 값들은 평균도, 단위도 상관없이 '표준적인 차이'를 의미한다. 어떤 변수를 가져오든 상관없이 표준화를 거친 변수의 평균은 0이 되고 표준 편차는 1이 된다. 평균도, 표준편차도, 단위도 달랐던 변수들이 똑같은 특징을 가지게 되면, 다른 변수에 있는 관측치들을 비교할 수 있다.


이제  변수 불수능에 있는 80점과 변수 물수능에 있는 100점 중 누가 평균으로부터 더 멀리 떨어져 있는지 살펴보자.


표준화 예제

< 2011년 불수능 >
평균 : 47.8, 표준편차 : 19.7

< 2015년 물수능 >
평균 : 55.4, 표준편차 : 28.5

이를 바탕으로 2011년에 수능을 치른 학생 1,000명과 2015년에 수능을 치른 학생 1,000명의 가상 성적을 히스토그램으로 나란히 살펴보자.

수학을 포기한 수포자는 시험 난이도와 상관없이 비슷한 점수를 받는다. 상위권도 난이도에 상관 없이 높은 점수를 받는다. 가장 큰 차이를 보이는 것은 중위권 학생들이다.


2015년 물수능에서는 중위권 학생들이 높은 성적을 받아 2011년보다 점수대가 오른쪽으로 많이 이동했다.

따라서 2015년의 평균이 2011년의 평균보다 높고, 더 넓에 퍼져 표준 편차도 더 크다.


그럼 2011년에 80점을 받은 학생과 2015년에 100점을 받은 학생 중에 어느 쪽이 상대적으로 잘 한 것일까? 표준화로 계산을 해보자




시험이 어려우면 어려울수록 점수는 하향평준화 된다. 대부분이 낮은 점수대이고 일부의 고득점자가 생긴다. 그래서 평균점수는 47.8점으로 낮고, 표준편차도 19.7점으로 낮다. 80점을 표준화하면 1.63이라는 값이 나온다.


반면 시험이 쉬웠던 2015년에는 평균이 55.4점이고 중위권들이 고득점을 하면서 표준편차는 28.5점으로 높다.

100점을 표준화하면 1.56이라는 값이 나온다.


따라서 2011년의 80점이 2015년의 100점보다 상대적으로 더 낫다.

1,000명의 점수에 표준화를 하고, 두 해를 나란히 히스토그램으로 그린 결과다



실제 수능에서는 이렇게 계산된 값에 20을 곱하고 100을 더해 표준점수를 계산한다. 그럼 평균은 0에서 100으로 바뀌고, 표준편차는 1에서 20배 늘어난 20이 된다. 예를 들어, 2011년 수리가형에서 80점을 받은 학생의 표준 점수는 133점(100+1.63*20 = 132.6)이 된다.


표준화의 개념은 수능뿐만 아니라 사회 전반에 활용된다.IQ 역시 평균이 100인 표준화된 점수를 사용한다.

옷 사이즈도 신체 치수의 평균을 기준으로 잡아 100(혹은 Medium)이라 한다.


표준화의 개념을 적용하면 숫자를 상대적인 크기로 바꿔 비교가 쉬워진다.

댓글