728x90
공부 페이지
176 페이지 ~ 181 페이지
배운 개념
t-분포
t-값의 수식은 다음과 같다.
t-분포에는 ν(nu) 라는 모수가 있다. 이는 흔히 자유도(Degree of freedom) 이라고 부른다. 관측치 수에서 1을 빼서 계산한다.
t-분포는 적은 관측치의 차이도 설명할 수 있도록 고안했다.
자유도에 왜 굳이 1을 뺀 것일까?
평균은 모든 사람이 가진 것을 한데 모은 다음, 공정하게 나눴을 때 한 명이 가지게 되는 몫을 의미한다.
예를 들어, 세 사람이 9잔의 맥주를 마셨다. 한 사람은 1잔, 다른 한 사람은 3잔을 마셨다면 자동으로 나머지 한 명은 5잔을 마셨다는 것을 계산할 수 있다.
5개의 관측치의 평균을 계산한 순간, 그 차이는 실질적으로 4개의 값으로 구한 것과 같다는 것이다.
전체 평균을 알고, n-1개의 관측치를 알면, 나머지 하나는 바로 계산할 수 있다.
아무리 큰 차이라도 한 개의 관측치로부터 계산된 차이라면 의미가 없다. t-분포에서의 자유도는 0이다. 즉, 부포가 존재하지 않는다. 하나의 값으로는 분산을 계산하지 못한다.
p-값과 t 테스트
t-분포에서 자유도가 4라고 정해지만, 그 분포가 정해진다. 데이터로부터 t-값을 구해 고정된 t-분포 속에 넣어 확률만 계산하면 된다.
자유도가 4인 t-분포에서, t-값인 0.5가 얼마나 큰 차이를 의미할까?
0.5보다 큰 차이가 날 확률은 32.17%, 즉 p-값은 0.3217 이다.
따라서, 평균적으로 0.1% 포인트 차이가 나는 건 아무렇지 않다. 왜냐하면, 훨씬 더 큰 차이가 날 확률이 32%가 넘기 때문이다.
기준값 0.01% 포인트 높게 나온 예제다. 반대로 평균 도수가 0.01% 더 낮게 나온다면? t-값은 부호만 바뀐다. -0.5 이다.
모든 예제 관측치가 도수가 4.2%의 언저리에 있어 의미 있는 차이가 없다고 가정한다.
5잔씩 표본을 뽑아서 평균 도수를 계산하는 과정을 수 없이 반복한다. 매번 평균 도수는 다를 것이다.
정확히 4.2%가 아니라 조금 높거나 낮을 수 있다.
그런데, 그 차이가 0.01% 포인트, 우리가 앞서 계산한 t-값으로는 0.5나 -0.5보다 클 확률은 64.34%다. 표본 10개 중 예닐곱 표본은 도수가 0.01% 포인트 이상 차이가 날 수 있다는 의미다.
유의수준 5%을 고려할 필요 없이 이 데이터의 평균값 차이는 의미가 없다. 처음 본 5잔의 샘플은 평범한 데이터고 지극히 평범한 데이터다. 따라서 맥주의 도수는 저상이다.
t-검정, t-테스트 : 평균값의 차이를 t-값으로 계산. t-분포를 활용해 p-값을 계산한 뒤 유의성 검정을 하는 것
1. 표본 평균과 표본평균의 표준편차를 계산하고 기준값을 활용해 t-값 계산
2. 계산된 t-값을 자유도가 n-1인 t-분포에 넣어 p-값을 계산하고 유의수준과 비교
다음 시간에 배울 것
t-검정의 활용
'R > R 프로젝트' 카테고리의 다른 글
[ 이토록 쉬운 통계&R 100일 프로젝트 ] 25일차 (0) | 2018.06.10 |
---|---|
[ 이토록 쉬운 통계&R 100일 프로젝트 ] 24일차 (0) | 2018.06.09 |
[ 이토록 쉬운 통계&R 100일 프로젝트 ] 22일차 (0) | 2018.06.07 |
[ 이토록 쉬운 통계&R 100일 프로젝트 ] 21일차 (0) | 2018.06.06 |
[ 이토록 쉬운 통계&R 100일 프로젝트 ] 20일차 (0) | 2018.06.06 |
댓글