R/R 프로젝트

[ 이토록 쉬운 통계&R 100일 프로젝트 ] 23일차

Chipmunks 2018. 6. 8.

목차

728x90

공부 페이지

176 페이지 ~ 181 페이지

배운 개념

t-분포

t-값의 수식은 다음과 같다.

[ 이토록 쉬운 통계&R 100일 프로젝트 ] 23일차 - 배운 개념 - t-분포

t-분포에는 ν(nu) 라는 모수가 있다. 이는 흔히 자유도(Degree of freedom) 이라고 부른다. 관측치 수에서 1을 빼서 계산한다.

t-분포는 적은 관측치의 차이도 설명할 수 있도록 고안했다.

자유도에 왜 굳이 1을 뺀 것일까?

평균은 모든 사람이 가진 것을 한데 모은 다음, 공정하게 나눴을 때 한 명이 가지게 되는 몫을 의미한다.

예를 들어, 세 사람이 9잔의 맥주를 마셨다. 한 사람은 1잔, 다른 한 사람은 3잔을 마셨다면 자동으로 나머지 한 명은 5잔을 마셨다는 것을 계산할 수 있다.

5개의 관측치의 평균을 계산한 순간, 그 차이는 실질적으로 4개의 값으로 구한 것과 같다는 것이다.

전체 평균을 알고, n-1개의 관측치를 알면, 나머지 하나는 바로 계산할 수 있다.

아무리 큰 차이라도 한 개의 관측치로부터 계산된 차이라면 의미가 없다. t-분포에서의 자유도는 0이다. 즉, 부포가 존재하지 않는다. 하나의 값으로는 분산을 계산하지 못한다.

p-값과 t 테스트

t-분포에서 자유도가 4라고 정해지만, 그 분포가 정해진다. 데이터로부터 t-값을 구해 고정된 t-분포 속에 넣어 확률만 계산하면 된다.

자유도가 4인 t-분포에서, t-값인 0.5가 얼마나 큰 차이를 의미할까?

0.5보다 큰 차이가 날 확률은 32.17%, 즉 p-값은 0.3217 이다.

따라서, 평균적으로 0.1% 포인트 차이가 나는 건 아무렇지 않다. 왜냐하면, 훨씬 더 큰 차이가 날 확률이 32%가 넘기 때문이다.

기준값 0.01% 포인트 높게 나온 예제다. 반대로 평균 도수가 0.01% 더 낮게 나온다면? t-값은 부호만 바뀐다. -0.5 이다.

모든 예제 관측치가 도수가 4.2%의 언저리에 있어 의미 있는 차이가 없다고 가정한다.

5잔씩 표본을 뽑아서 평균 도수를 계산하는 과정을 수 없이 반복한다. 매번 평균 도수는 다를 것이다.

정확히 4.2%가 아니라 조금 높거나 낮을 수 있다.

그런데, 그 차이가 0.01% 포인트, 우리가 앞서 계산한 t-값으로는 0.5나 -0.5보다 클 확률은 64.34%다. 표본 10개 중 예닐곱 표본은 도수가 0.01% 포인트 이상 차이가 날 수 있다는 의미다.

유의수준 5%을 고려할 필요 없이 이 데이터의 평균값 차이는 의미가 없다. 처음 본 5잔의 샘플은 평범한 데이터고 지극히 평범한 데이터다. 따라서 맥주의 도수는 저상이다.

t-검정, t-테스트 : 평균값의 차이를 t-값으로 계산. t-분포를 활용해 p-값을 계산한 뒤 유의성 검정을 하는 것

1. 표본 평균과 표본평균의 표준편차를 계산하고 기준값을 활용해 t-값 계산

2. 계산된 t-값을 자유도가 n-1인 t-분포에 넣어 p-값을 계산하고 유의수준과 비교

다음 시간에 배울 것

t-검정의 활용

도움이
되셨다면
공감 꾹 ~ !
부탁드려요 🌰

저작자표시

'R > R 프로젝트' 카테고리의 다른 글

[ 이토록 쉬운 통계&R 100일 프로젝트 ] 25일차 (0)	2018.06.10
[ 이토록 쉬운 통계&R 100일 프로젝트 ] 24일차 (0)	2018.06.09
[ 이토록 쉬운 통계&R 100일 프로젝트 ] 22일차 (0)	2018.06.07
[ 이토록 쉬운 통계&R 100일 프로젝트 ] 21일차 (0)	2018.06.06
[ 이토록 쉬운 통계&R 100일 프로젝트 ] 20일차 (0)	2018.06.06

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

[ 이토록 쉬운 통계&R 100일 프로젝트 ] 23일차

공부 페이지

배운 개념

t-분포

p-값과 t 테스트

다음 시간에 배울 것

'R > R 프로젝트' 카테고리의 다른 글

댓글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역