R/R 프로젝트

[ 이토록 쉬운 통계&R 100일 프로젝트 ] 21일차

Chipmunks 2018. 6. 6.
728x90



공부 페이지

166 페이지 ~ 172 페이지


배운 개념

표본평균의 표준편차

데이터의 관측치가 많으면 많을수록 데이터에서 계산된 평균, 표본평균은 흔들리지 않는다.


실제 평균 값과 표본의 평균 값이 그다지 차이가 없다는 것을 보이는 것을 '표본평균에 대한 유의성 검정' 이라고 한다.


표본평균의 표준편차 계산

표본평균은 손쉽게 계산할 수 있다. 다 더한 다음 관측치의 개수 만큼 나누기만 하면 된다.


표본평균의 표준편차는 어떻게 구할까? 먼저 표본평균의 분산을 계산해보자. 그러나, 분산을 구하려면 여러 개의 값이 있어야 하는데 그렇지가 않다. 따라서 계산이 아니라 추정(Estimation)을 해야 한다.


표본평균의 식을 덧셈으로 풀어 쓰면 다음과 같다.


원래 값을 n으로 나눈 Xi 들을 모두 합했다. Xi 들은 관측치이므로 표본, 데이터가 바뀌면 모두 바뀔 수 있다. 통계에서 바뀔 수 있는 값들은 모두 분산을 갖는다. Xi의 분산 σx^2 은 어떻게 계산할 수 있을까? 역시 계산할 수 없으므로 표본 분산으로 추정한다.


그렇다면 X1/n 의 분산도 추정할 수 있을까? 가능하다. 표본 분산의 계산식에 (Xi-X바) ^ 2 가 있다. Xi 대신 1/n 배 된 Xi/n가 들어가면 제곱이 되어 표본 분산은 1/n^2 배 된다. 그럼 S^2(x/n) 은 다음처럼 표현된다.


X1/n 만 구했다. 표본평균은 이러한 값들이 N개 합한 것이다. 각 N개 값들은 서로 관련이 없다. 따라서 각 변수의 분산의 합이 새로운 변수의 분산이다.


즉, 표본평균의 분산 Sx바은 표본의 분산 Sx^2의 1/n배다. 따라서 표본평균의 표준편차는 다음과 같다.


표본평균의 표준편차는 표본의 표준편차의 1/sqrt(n) 배가 된다. 관측치 수가 100배가 되면 흔들림의 정도가 1/10이 된다. 표준편차를 분석 결과의 정밀도 혹은 신뢰도의 척도로 생각해보자. 이 신뢰도를 2배로 높이려면 그 제곱인 4배 많은 곽측치를 가진 데이터가 필요하다는 의미다.


표분평균의 표준편차는, 평균값의 차이를 입증해야 할 때, 절대적인 평균값 차이를 상대적인 차이로 바꿔주는 중요한 역할을 한다.


다음 시간에 배울 것

t-값과 t-분포

댓글