728x90
공부 페이지
334 페이지 ~ 335 페이지
배운 개념
다른차이들의 분산분석 결과 살펴보기
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 | > summary(aov(통화건수~연령대, data=call_chicken)) Df Sum Sq Mean Sq F value Pr(>F) 연령대 5 8228983 1645797 1027 <2e-16 *** Residuals 8384 13432951 1602 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 > summary(aov(통화건수~성별, data=call_chicken)) Df Sum Sq Mean Sq F value Pr(>F) 성별 1 138583 138583 54.01 2.18e-13 *** Residuals 8388 21523351 2566 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 > summary(aov(통화건수~요일, data=call_chicken)) Df Sum Sq Mean Sq F value Pr(>F) 요일 6 946229 157705 63.82 <2e-16 *** Residuals 8383 20715704 2471 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 | cs |
모든 변수의 p-값이 조금씩 다르긴 하지만, 유의수준 0.05보다 훨씬 작기 때문에 모든 변수들이 차이를 설명해준다. 즉, 연령대와 성별, 요일에 따라 치킨주문 통화량에 차이가 있다고 결론을 낼 수 있다.
따라서 치킨주문 통화량은 연령대, 성별, 요일, 그리고 시군구마다 다르다, 라는 결론인데 어떻게 보면 당연하다. 조금만 관점을 바꿔보자.
차이를 잘 설명하는 변수 중 가장 통화량의 차이를 크게 설명하는 변수는 무엇일까?
지금까지 살펴본 분석마느로 판단할 수가 없다. p-값이 더 작으면 중요한 변쉴 것 같지만, p-값은 유의성 검정에만 활용될 뿐, 서로 조건이 다른 변수들의 p-값을 비교하는 것은 의미가 없다.
이런 상황에서 통계 모형을 활용한다. 회귀모형을 비롯한 다양한 통계 모형 중 이번에는 의사결정나무, 줄여서 트리 모형을 살펴보자
다음 시간에 배울 것
의사결정나무
'R > R 프로젝트' 카테고리의 다른 글
[ 이토록 쉬운 통계&R 100일 프로젝트 ] 92일차 (0) | 2018.08.16 |
---|---|
[ 이토록 쉬운 통계&R 100일 프로젝트 ] 91일차 (0) | 2018.08.15 |
[ 이토록 쉬운 통계&R 100일 프로젝트 ] 89일차 (0) | 2018.08.13 |
[ 이토록 쉬운 통계&R 100일 프로젝트 ] 88일차 (0) | 2018.08.12 |
[ 이토록 쉬운 통계&R 100일 프로젝트 ] 87일차 (0) | 2018.08.11 |
댓글