R/R 프로젝트

[ 이토록 쉬운 통계&R 100일 프로젝트 ] 25일차

Chipmunks 2018. 6. 10.
728x90

공부 페이지

186 페이지 ~ 188 페이지


배운 개념

데이터가 없는 표본평균의 표본편차 구하기

10명의 표본 말고, 훨씬 더 큰 1,078명의 표본을 구할 수 있다. 이는 계산된 키의 표준편차는 7.1 이다. 평균 키의 표준편차는 다음과 같다.


평균의 표준편차는 원래 변수의 표준편차를 관 측치 수의 절댓값, Sqrt(n)으로 나누면 된다.


이제 목표 t-값에 대한 식은 다음처럼 바뀐다.


이제 양변에 2.25cm을 곱하고 174.9cm을 더해 미지수인 표본평균을 구할 수 있다.


계획대로 남성 10명의 평균 키를 측정해 그 값이 170.8cm보다 작다면, t-값이 -1.83보다 작을 것이고, 그럼 p-값은 유의수준 0.05보다 작은 값을 가진다.  따라서 "한국 남성의 평균 키는 174.9cm 보다 작다고 할 수 있다." 라는 결과를 얻을 수 있다.


이를 통해 테스트를 단지 '통과' 했다고 말할 수 있다. 한 표본으로 결론을 짓는 것이 아니다.


이외에도 t-검정은 다양하게 활용할 수 있다.

이 전에 한 예제는 한 변수가 기준값보다 큰지 작은지를 판단하는 것이다.

그리고, 두 그룹을 비교할 때도 사용한다. 예를 들어 한국 남성과 일본 남성의 키가 의미 있는 차이가 있는지 없는지, 두 그룹의 평균 키 차이를 활용해서 테스트할 수 있다.


차이가 0에 가깝다면, 한국 남성과 일본 남성의 키 차이는 거의 없다고 할 수 있겠다. 그러나 키 차이가 0에서 충분히 멀리 떨어져 있다면, 만약 한국 남성의 평균 키가 월등히 크다면 t-분포에서 계산된 p-값이 거의 0에 가까울 만큼 작게 나올 것이다.


그럼 "한국 남성의 키가 더 크다고 할 수 있다." 라는 결론을 얻을 수 있다.


또 곧 나올 선형 회귀분석에서 변수의 필요성을 판단할 때도 t-검정이 사용된다. t-값으로 계산될 변수의 중요성이 0에 가까우면 그 변수는 쓸모가 없고, 충분히 큰 양수이거나 음수일 때만 필요 있는 변수라고 판단을 하는 것이다.


다음 시간에 배울 것

카이제곱분포를 활용한 독립성 검정

댓글