728x90
공부 페이지
122 페이지 ~ 133 페이지
배운 개념
AB 테스트
여러 개를 만들고 사람들의 반응을 살피는 것.
분산
분산은 설명 변수로 설명할 수 있는 부분과 도저히 설명할 수 없는 부분으로 나눔. 설명 변수가 관측치들의 차이를 얼마나 자세히 설명할 수 있는가에 따라 설명 변수의 유용성을 판단할 수 있음.
설명할 수 있는 부분과 도저히 설명할 수 없는 부분이 어느 비율로 있는지 확인할 필요가 있음. 분산 분석이 필요
분산분석
첫번째. 모든 그룹의 모든 숫자의 평균을 구함. 이를 통해서 각 실제값과 평균의 차이의 제곱합을 구함.
두번째. 자신이 속한 그룹의 평균값을 구함. 각 그룹의 값을 그것의 평균값으로 모두 대체. 모든 숫자 평균과 실제값과의 차이의 제곱합을 구함
세번째. 실제값과 그룹 평균의 차이의 제곱함
세 제곱합 사이에 관계가 있다.
수식으로 나타내면 다음과 같다.
첫 번째 제곱합 : 우리의 관심 변수의 분산, 정보량. 이는 정확히 두 개로 나뉘어진다.
두 번째 제곱합 : 전체 평균에 비해서 각 그룹의 평균이 얼만큼 차이가 큰지를 계산함. 관심 변수의 정보 중에서 그룹에 따른 차이로 설명할 수 있는 부분
세 번째 제곱합 : 실제 값에서 그룹의 평균의 차를 구함. 그룹 차이로는 알 수 없는 나머지 부분을 의미함
분산분석 : 정보를 의미하는 관심 변수의 분산이 어떻게 분해되는지 살펴봄.
분산분석의 목적 : 그룹에 따라서, 콘텐츠에 따라서 결과에 충분히 큰 차이가 있는지 없는지를 판단하는 것
아직 '충분히 큰 차이'에 대한 개념을 학습하지 못함. 관심 변수의 분산 중, 그룹을 나누는 역할은 한 설명 변수로 설명할 수 있는 부분이 크면 클수록 그룹에 따른 차이가 크다고 말할 수 있다. 그런데 얼마나 커야할까?
다음 시간에 배울 것
Part 3. 차이를 예측하는 통계모형
'R > R 프로젝트' 카테고리의 다른 글
[ 이토록 쉬운 통계&R 100일 프로젝트 ] 18일차 (0) | 2018.06.03 |
---|---|
[ 이토록 쉬운 통계&R 100일 프로젝트 ] 17일차 (0) | 2018.06.02 |
[ 이토록 쉬운 통계&R 100일 프로젝트 ] 15일차 (0) | 2018.05.31 |
[ 이토록 쉬운 통계&R 100일 프로젝트 ] 14일차 (0) | 2018.05.30 |
[ 이토록 쉬운 통계&R 100일 프로젝트 ] 13일차 (0) | 2018.05.29 |
댓글