R/R 프로젝트

[ 이토록 쉬운 통계&R 100일 프로젝트 ] 28일차

Chipmunks 2018. 6. 13.
728x90

공부 페이지

192 페이지 ~ 193 페이지


배운 개념

카이제곱분포

무작정 제곱을 더했다고 모두 카이제곱값이 되는 건 아니다. 제곱을 해서 더할 어떤 변수 x가 평균이 0이고 표준편차가 1인 표준정규분포를 따라야 한다.


유의성 검정 과정을 다시 한 번 짚어보자. 차이를 입증하고 싶다. 그 차이의 정도를 통계량이라고 불리는 값을 계산한 다음 분포 속에서 상대적인 위치를 판단한다.


만약 카이제곱값이 0이라면 무엇을 의미할까? 교차표의 실제 값과 교차표의 두 변수가 독립인 경우의 값이 모두 똑같다는 뜻이다. 결국 두 범주형 변수의 수준들끼리 전혀 관계가 없는 독립인 상황이다.


그러나 카이제곱값이 커지면 커질수록 실제 교차표가 독립인 상황과는 많이 다르다는 것을 의미한다. 즉, 두 변수의 수준들끼리 밀접한 관계가 할 수 있다. 그럼, 이 값이 얼마만큼 커야할까?


그 판단 기준을 카이제곱분포(Chi-square distribution)를 활용한다. 표준정규분포의 제곱합으로 계산한 카이제곱값의 패턴을 수식으로 아름답게 표현한 것이 카이제곱분포다. 다음은 확률밀도함수의 수식이다.



이 분포의 모수는 k다. 카이제곱분포 역시 t-분포와 마찬가지로 k는 자유도의 개념이다. 6개의 값으로 계산한 제곱값보다 60개로 계산한 제곱값이 당연히 크지 않은가. 앞서 살펴본 4번의 올림픽에서 획득한 금,은,동메달 총 12개의 값을 활용했다. 그럼 자유도는 얼마가 될까? 4*3 = 12가 아니고, (4-1) * (3-1) = 6이 된다. 왜냐하면 t-분포에서와 마찬가지로 우리는 열 합계, 행 합계를 알고 있기 때문이다!


그림으로 쉽게 표현을 하면, 다음의 교차표에서 6개의 파란색 칸에 있어야 할 값을 알면, 나머지 6칸은 손쉽게 채울 수 있다.



다음 시간에 배울 것

카이제곱분포 확인하기



댓글