R/R 프로젝트

[ 이토록 쉬운 통계&R 100일 프로젝트 ] 29일차

Chipmunks 2018. 6. 14.
728x90


공부 페이지

194 페이지 ~ 197 페이지


배운 개념

카이제곱분포

자유도가 6인 그래프다. 좌우 대칭이 아닌 확률밀도함수가 나왔다. 카이제곱값의 최솟값은 항상 0이다. 따라서 제곱합의 특징은 0보다 크거나 같다. 평균은 k와 똑같이 6이다. 정규분포나 t-분포는 평균을 중심으로 좌우대칭이었기 때문에 평균이 곧 중앙값이다.


그러나, 중앙값은 5.35다. 5.35가 중앙값이라는 얘기는 0부터 5.35까지 50%의 비중을 차지한다는 의미다. 그런데 평균은 6으로 중앙값보다 크다. 즉, 아주 큰 값들이 나올 수 있다는 것을 의미한다.


이 분포에서 계산한 값 5.78을 넣어보자. p-값은 0.4483 이다. 즉, 두 변수가 아무런 관계가 없더라도 5.78보다 큰 차이가 나올 확률은 무려 44.83% 라는 얘기다. 그다지 크지 않은 평범한 차이가 된다. 즉, 두 변수는 서로 큰 관련이 없다고 말할 수 있다.


대회별로 메달 분포에 차이가 나긴 하지만, 통계적으로 유의미한 차이는 없다고 말할 수 있다. 그럼 유의수준 0.05에서 두 변수가 관련이 없다는 가정을 깨뜨리기 위해서는 얼마나 큰 카이제곱값이어야 할까?


컴퓨터를 활용해 계산해 보면 12.59라는 값이 나온다. 5.78보다 훨씬 큰 값이다.


이처럼 교차표를 활용해 두 범주형 변수가 독립인지 아닌지를 카이제곱값으로 검정하는 과정을 독립성검정

(Test of independence)이라고 한다.


독립성검정 쓰임새

선거출구조사에서 투표자들을 대상으로 지역, 성별, 연령대 그리고 누구에게 투표했는지를 기록한다. 바로 이 특징들을 데이터로 기록하면 범주형 변수가 된다. 각 후보들의 지역별 득표수, 성별 득표수, 연령대별 득표수를 계산할 수 있고 모두 교차표로 나타낼 수 있다. 여기까지는 데이터의 요약이다.

후보별로 지지자들의 특성이 요약만으로는 그 차이가 의미가 있는지 없는지는 알 수 없다.
카이제곱검정을 활용해 교차표의 두 변수에 대한 독립성검정이 따라온다. 각 후보를 지지하는 사람들의 성향이 우연히 조금 다르게 나온 것인지, 우연이라고 하기에는 정말 큰 차이를 보이는지를 판단할 수 있다.


다음 시간에 배울 것

독립성검정도 자주 사용하고 그만큼 중요하지만, 이보다 더 많이 사용하고 더 중요한 검정이 있다.
바로 F-분포와 F-검정이다.



댓글