R/R 프로젝트

[ 이토록 쉬운 통계&R 100일 프로젝트 ] 23일차

Chipmunks 2018. 6. 8.
728x90

공부 페이지

176 페이지 ~ 181 페이지


배운 개념

t-분포

t-값의 수식은 다음과 같다.


t-분포에는 ν(nu) 라는 모수가 있다. 이는 흔히 자유도(Degree of freedom) 이라고 부른다. 관측치 수에서 1을 빼서 계산한다.


t-분포는 적은 관측치의 차이도 설명할 수 있도록 고안했다.


자유도에 왜 굳이 1을 뺀 것일까?
평균은 모든 사람이 가진 것을 한데 모은 다음, 공정하게 나눴을 때 한 명이 가지게 되는 몫을 의미한다.
예를 들어, 세 사람이 9잔의 맥주를 마셨다. 한 사람은 1잔, 다른 한 사람은 3잔을 마셨다면 자동으로 나머지 한 명은 5잔을 마셨다는 것을 계산할 수 있다.

5개의 관측치의 평균을 계산한 순간, 그 차이는 실질적으로 4개의 값으로 구한 것과 같다는 것이다.
전체 평균을 알고, n-1개의 관측치를 알면, 나머지 하나는 바로 계산할 수 있다.

아무리 큰 차이라도 한 개의 관측치로부터 계산된 차이라면 의미가 없다. t-분포에서의 자유도는 0이다. 즉, 부포가 존재하지 않는다. 하나의 값으로는 분산을 계산하지 못한다.

p-값과 t 테스트

t-분포에서 자유도가 4라고 정해지만, 그 분포가 정해진다. 데이터로부터 t-값을 구해 고정된 t-분포 속에 넣어 확률만 계산하면 된다.

자유도가 4인 t-분포에서, t-값인 0.5가 얼마나 큰 차이를 의미할까?
0.5보다 큰 차이가 날 확률은 32.17%, 즉 p-값은 0.3217 이다.

따라서, 평균적으로 0.1% 포인트 차이가 나는 건 아무렇지 않다. 왜냐하면, 훨씬 더 큰 차이가 날 확률이 32%가 넘기 때문이다.

기준값 0.01% 포인트 높게 나온 예제다. 반대로 평균 도수가 0.01% 더 낮게 나온다면? t-값은 부호만 바뀐다. -0.5 이다.

모든 예제 관측치가 도수가 4.2%의 언저리에 있어 의미 있는 차이가 없다고 가정한다.
5잔씩 표본을 뽑아서 평균 도수를 계산하는 과정을 수 없이 반복한다. 매번 평균 도수는 다를 것이다.
정확히 4.2%가 아니라 조금 높거나 낮을 수 있다.

그런데, 그 차이가 0.01% 포인트, 우리가 앞서 계산한 t-값으로는 0.5나 -0.5보다 클 확률은 64.34%다. 표본 10개 중 예닐곱 표본은 도수가 0.01% 포인트 이상 차이가 날 수 있다는 의미다.

유의수준 5%을 고려할 필요 없이 이 데이터의 평균값 차이는 의미가 없다. 처음 본 5잔의 샘플은 평범한 데이터고 지극히 평범한 데이터다. 따라서 맥주의 도수는 저상이다.

t-검정, t-테스트 : 평균값의 차이를 t-값으로 계산. t-분포를 활용해 p-값을 계산한 뒤 유의성 검정을 하는 것

1. 표본 평균과 표본평균의 표준편차를 계산하고 기준값을 활용해 t-값 계산
2. 계산된 t-값을 자유도가 n-1인 t-분포에 넣어 p-값을 계산하고 유의수준과 비교

다음 시간에 배울 것

t-검정의 활용



댓글