R/R 프로젝트

[ 이토록 쉬운 통계&R 100일 프로젝트 ] Day 7. 15% 더치페이와 N빵

Chipmunks 2018. 4. 8.
728x90


평균(Mean)

평균 : 어떤 변수의 합계가 고정되어 있을 때 모든 관측치가 똑같이 나눠 가질 수 있는 값

수식은 다음과 같다.



평균 값이 나오자마자, 평균보다 큰 쪽과 작은 쪽으로 나뉘어지게 된다. 작은 쪽은 손해를 본 쪽이고, 큰 쪽은 이득을 본 쪽이다. 한쪽이 손해 보는 양의 합만큼 정확히 다른 한쪽이 이득을 본 셈이다.


분산(Variance)

분산 : 평균에서 떨어져 있는 거리를 숫자로 계산한 것

수식은 다음과 같다.



1 단계 : 각각의 관측치에서 평균을 뺀다. 평균으로부터 얼마나 차이가 나는지를 계산한다. 이를 편차라고 한다. 


2단계 : 1단계에서 계산한 값을 제곱한다. +2 든 -2든 제곱을 하면 모두 +4가 된다.


3단계 : 모든 n개 관측치에 대해 똑같은 계산을 하고 그 결과를 모두 더한다. 분산은 한 변수의 특징을 설명하는 것이 아니라 모든 변수의 특징을 설명하는 것이니 모든 관측치를 다 활용해야한다.


4단계 : 3단계에서 구한 합계를 n-1로 나눈다. 통계학자들이 n 보다는 n-1로 나누는게 더 좋다는 것을 밝혔다.

분산은 결국 [ ]의 평균을 구하는 것과 같다. [ ] 에는 2단계에서 구한 '평균에서 떨어져 있는 정도'가 들어온다.


분산을 계산할 때, 제곱 말고 절댓값을 대신 쓸 수 있다. 제일 간단하지만 이론적으로 '미분이 가능한' 분산을 더 선호한다. 그리고 평균에서 100명이 100원씨 차이를 보이는 것과 2명이 5,000원의 차이를 보이는 것 모두 절댓값으로는 10,000원이라는 같은 차이를 보인다.


100 * 100원 = 2 * 5,000원 = 10,000원


두 번째의 경우가 좀 더 불평등해보인다. 제곱을 사용하면 다음과 같다.


100 * (100원)^2 = 1,000,000원^2 < 2*(5,000원)^2 = 50,000,000원^2


분산을 사용하면 두 번째 경우가 훨씬 더 불평등하다는 것을 50배나 더 큰 차이로 확인할 수 있다.


표준편차 (Standard Deviation)

분산은 치명적인 단점이 있다. 바로 단위(Unit) 이다.
단위에 제곱(^2)이 붙으면서, 직관적으로 보이기 힘들다는 단점이 있다.

그래서 제곱근으로 숫자의 크기도 줄이면서, 단위도 정상적으로 복원한다.
수식은 다음과 같다.


x의 분산을 굳이



라고 표현한 이유가 여기 있다. 대부분의 사람들이 더 편하고 합리적인 표준편차를 사용하기 때문에 분산은 따로 이름을 붙여주지 않고 그냥 표준편차의 제곱으로 표현한 것이다.


625,000(원^2)과 5,875,000(원^2)을 비교하는 것 보다

791(원)과 2,424(원)을 비교하는 것이 더 직관적이다.


표준편차는 다양한 쓰임새가 있다. 다음 시간에 그 중에서도 표준화에 대해 살펴보자.



댓글