평균(Mean)
평균 : 어떤 변수의 합계가 고정되어 있을 때 모든 관측치가 똑같이 나눠 가질 수 있는 값
수식은 다음과 같다.
평균 값이 나오자마자, 평균보다 큰 쪽과 작은 쪽으로 나뉘어지게 된다. 작은 쪽은 손해를 본 쪽이고, 큰 쪽은 이득을 본 쪽이다. 한쪽이 손해 보는 양의 합만큼 정확히 다른 한쪽이 이득을 본 셈이다.
분산(Variance)
분산 : 평균에서 떨어져 있는 거리를 숫자로 계산한 것
수식은 다음과 같다.
1 단계 : 각각의 관측치에서 평균을 뺀다. 평균으로부터 얼마나 차이가 나는지를 계산한다. 이를 편차라고 한다.
2단계 : 1단계에서 계산한 값을 제곱한다. +2 든 -2든 제곱을 하면 모두 +4가 된다.
3단계 : 모든 n개 관측치에 대해 똑같은 계산을 하고 그 결과를 모두 더한다. 분산은 한 변수의 특징을 설명하는 것이 아니라 모든 변수의 특징을 설명하는 것이니 모든 관측치를 다 활용해야한다.
4단계 : 3단계에서 구한 합계를 n-1로 나눈다. 통계학자들이 n 보다는 n-1로 나누는게 더 좋다는 것을 밝혔다.
분산은 결국 [ ]의 평균을 구하는 것과 같다. [ ] 에는 2단계에서 구한 '평균에서 떨어져 있는 정도'가 들어온다.
분산을 계산할 때, 제곱 말고 절댓값을 대신 쓸 수 있다. 제일 간단하지만 이론적으로 '미분이 가능한' 분산을 더 선호한다. 그리고 평균에서 100명이 100원씨 차이를 보이는 것과 2명이 5,000원의 차이를 보이는 것 모두 절댓값으로는 10,000원이라는 같은 차이를 보인다.
100 * 100원 = 2 * 5,000원 = 10,000원
두 번째의 경우가 좀 더 불평등해보인다. 제곱을 사용하면 다음과 같다.
100 * (100원)^2 = 1,000,000원^2 < 2*(5,000원)^2 = 50,000,000원^2
분산을 사용하면 두 번째 경우가 훨씬 더 불평등하다는 것을 50배나 더 큰 차이로 확인할 수 있다.
표준편차 (Standard Deviation)
x의 분산을 굳이
라고 표현한 이유가 여기 있다. 대부분의 사람들이 더 편하고 합리적인 표준편차를 사용하기 때문에 분산은 따로 이름을 붙여주지 않고 그냥 표준편차의 제곱으로 표현한 것이다.
625,000(원^2)과 5,875,000(원^2)을 비교하는 것 보다
791(원)과 2,424(원)을 비교하는 것이 더 직관적이다.
표준편차는 다양한 쓰임새가 있다. 다음 시간에 그 중에서도 표준화에 대해 살펴보자.
'R > R 프로젝트' 카테고리의 다른 글
[ 이토록 쉬운 통계&R 100일 프로젝트 ] Day 9. 25% 먹고 싶은 거 먹어, 난 짜장 (0) | 2018.04.11 |
---|---|
[ 이토록 쉬운 통계&R 100일 프로젝트 ] Day 8. 20% 물수능과 불수능 (0) | 2018.04.09 |
[ 이토록 쉬운 통계&R 100일 프로젝트 ] Day 6. 10% 순서대로 한줄서기 (2) (0) | 2018.04.06 |
[ 이토록 쉬운 통계&R 100일 프로젝트 ] Day 5. 10% 순서대로 한줄서기 (0) | 2018.03.26 |
[ 이토록 쉬운 통계&R 100일 프로젝트 ] Day 4. 5% 날줄과 씨줄 (0) | 2018.03.23 |
댓글