R/R 프로젝트

[ 이토록 쉬운 통계&R 100일 프로젝트 ] 16일차

Chipmunks 2018. 6. 1.

728x90

공부 페이지

122 페이지 ~ 133 페이지

여러 개를 만들고 사람들의 반응을 살피는 것.

분산은 설명 변수로 설명할 수 있는 부분과 도저히 설명할 수 없는 부분으로 나눔. 설명 변수가 관측치들의 차이를 얼마나 자세히 설명할 수 있는가에 따라 설명 변수의 유용성을 판단할 수 있음.

설명할 수 있는 부분과 도저히 설명할 수 없는 부분이 어느 비율로 있는지 확인할 필요가 있음. 분산 분석이 필요

첫번째. 모든 그룹의 모든 숫자의 평균을 구함. 이를 통해서 각 실제값과 평균의 차이의 제곱합을 구함.

두번째. 자신이 속한 그룹의 평균값을 구함. 각 그룹의 값을 그것의 평균값으로 모두 대체. 모든 숫자 평균과 실제값과의 차이의 제곱합을 구함

세번째. 실제값과 그룹 평균의 차이의 제곱함

세 제곱합 사이에 관계가 있다.

수식으로 나타내면 다음과 같다.

첫 번째 제곱합 : 우리의 관심 변수의 분산, 정보량. 이는 정확히 두 개로 나뉘어진다.

두 번째 제곱합 : 전체 평균에 비해서 각 그룹의 평균이 얼만큼 차이가 큰지를 계산함. 관심 변수의 정보 중에서 그룹에 따른 차이로 설명할 수 있는 부분

세 번째 제곱합 : 실제 값에서 그룹의 평균의 차를 구함. 그룹 차이로는 알 수 없는 나머지 부분을 의미함

분산분석 : 정보를 의미하는 관심 변수의 분산이 어떻게 분해되는지 살펴봄.

분산분석의 목적 : 그룹에 따라서, 콘텐츠에 따라서 결과에 충분히 큰 차이가 있는지 없는지를 판단하는 것

아직 '충분히 큰 차이'에 대한 개념을 학습하지 못함. 관심 변수의 분산 중, 그룹을 나누는 역할은 한 설명 변수로 설명할 수 있는 부분이 크면 클수록 그룹에 따른 차이가 크다고 말할 수 있다. 그런데 얼마나 커야할까?

Part 3. 차이를 예측하는 통계모형