R/R 프로젝트

[ 이토록 쉬운 통계&R 100일 프로젝트 ] 32일차

Chipmunks 2018. 6. 17.

728x90

공부 페이지

207 페이지 ~ 209 페이지

F-값을 구하는 과정은 상당히 복잡하다. 제곱합의 특성상 관측치가 많으면 많을수록 값이 커지므로 관측치의 개수를 고려해야 한다. 그리고 범주형 변수의 수준의 개수, 그룹의 개수도 고려해야 한다. 표로 정리하면 다음과 같다.

구분	제곱합	자유도	분산
점수	70	5	14

제곱합을 자유도로 나오면 분산이 나온다. 그러나 이 제곱합이 두 개로 쪼개졌다. 첫 번째는 공부 방법이라는 변수로 나뉘어진 세 그룹 간의 차이를 설명하는 제곱합이다. 두 번째는 각 그룹에 있는 관측치들의 이유를 알 수 없는 개인차다.

공부 방법에 따라 학생들이 3개의 그룹 A, B, C로 나뉘었다. 실제 수준의 개수는 3이고 자유도는 1을 뺀 2가 된다. 개인차의 자유도는 전체 자유도에서 그룹 간 자유도를 뺀 3이다.

그룹 간과 개인 차의 분산은 제곱합을 자유도에서 뺀다. 이 때의 분산을 평균제곱합이라고 한다.

이 때, F-값은 공부 방법의 평균제곱합 32를 개인차의 평균제곱합 2로 나눈 16이다.

이 수식에서 알 수 있듯이 큰 F-값은, 설명할 수 있는 부분의 평균 제곱합, 즉 그룹별로 평균 차이가 크다는 뜻이다. 과거의 방법과 새로운 방법을 비교한 실험결과를 분석해 충분히 큰 F-ㄱ밧을 얻으면 기존보다 개선된 방법이 훨씬 더 낫다는 것을 의미한다.

그럼 어떤 F-갑시 충분히 큰 것일까? 역시 F-분포를 살펴보자.

F-분포