공부 페이지
194 페이지 ~ 197 페이지
배운 개념
카이제곱분포
자유도가 6인 그래프다. 좌우 대칭이 아닌 확률밀도함수가 나왔다. 카이제곱값의 최솟값은 항상 0이다. 따라서 제곱합의 특징은 0보다 크거나 같다. 평균은 k와 똑같이 6이다. 정규분포나 t-분포는 평균을 중심으로 좌우대칭이었기 때문에 평균이 곧 중앙값이다.
그러나, 중앙값은 5.35다. 5.35가 중앙값이라는 얘기는 0부터 5.35까지 50%의 비중을 차지한다는 의미다. 그런데 평균은 6으로 중앙값보다 크다. 즉, 아주 큰 값들이 나올 수 있다는 것을 의미한다.
이 분포에서 계산한 값 5.78을 넣어보자. p-값은 0.4483 이다. 즉, 두 변수가 아무런 관계가 없더라도 5.78보다 큰 차이가 나올 확률은 무려 44.83% 라는 얘기다. 그다지 크지 않은 평범한 차이가 된다. 즉, 두 변수는 서로 큰 관련이 없다고 말할 수 있다.
대회별로 메달 분포에 차이가 나긴 하지만, 통계적으로 유의미한 차이는 없다고 말할 수 있다. 그럼 유의수준 0.05에서 두 변수가 관련이 없다는 가정을 깨뜨리기 위해서는 얼마나 큰 카이제곱값이어야 할까?
컴퓨터를 활용해 계산해 보면 12.59라는 값이 나온다. 5.78보다 훨씬 큰 값이다.
이처럼 교차표를 활용해 두 범주형 변수가 독립인지 아닌지를 카이제곱값으로 검정하는 과정을 독립성검정
(Test of independence)이라고 한다.
독립성검정 쓰임새
다음 시간에 배울 것
'R > R 프로젝트' 카테고리의 다른 글
[ 이토록 쉬운 통계&R 100일 프로젝트 ] 31일차 (0) | 2018.06.16 |
---|---|
[ 이토록 쉬운 통계&R 100일 프로젝트 ] 30일차 (0) | 2018.06.15 |
[ 이토록 쉬운 통계&R 100일 프로젝트 ] 28일차 (0) | 2018.06.13 |
[ 이토록 쉬운 통계&R 100일 프로젝트 ] 27일차 (0) | 2018.06.12 |
[ 이토록 쉬운 통계&R 100일 프로젝트 ] 26일차 (0) | 2018.06.11 |
댓글