R/R 프로젝트

[ 이토록 쉬운 통계&R 100일 프로젝트 ] 90일차

Chipmunks 2018. 8. 14.
728x90



공부 페이지

334 페이지 ~ 335 페이지


배운 개념

다른차이들의 분산분석 결과 살펴보기

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
> summary(aov(통화건수~연령대, data=call_chicken))
              Df   Sum Sq Mean Sq F value Pr(>F)    
연령대         5  8228983 1645797    1027 <2e-16 ***
Residuals   8384 13432951    1602                   
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
 
> summary(aov(통화건수~성별, data=call_chicken))
              Df   Sum Sq Mean Sq F value   Pr(>F)    
성별           1   138583  138583   54.01 2.18e-13 ***
Residuals   8388 21523351    2566                     
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
 
> summary(aov(통화건수~요일, data=call_chicken))
              Df   Sum Sq Mean Sq F value Pr(>F)    
요일           6   946229  157705   63.82 <2e-16 ***
Residuals   8383 20715704    2471                   
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
cs



모든 변수의 p-값이 조금씩 다르긴 하지만, 유의수준 0.05보다 훨씬 작기 때문에 모든 변수들이 차이를 설명해준다. 즉, 연령대와 성별, 요일에 따라 치킨주문 통화량에 차이가 있다고 결론을 낼 수 있다.


따라서 치킨주문 통화량은 연령대, 성별, 요일, 그리고 시군구마다 다르다, 라는 결론인데 어떻게 보면 당연하다. 조금만 관점을 바꿔보자.


차이를 잘 설명하는 변수 중 가장 통화량의 차이를 크게 설명하는 변수는 무엇일까?

지금까지 살펴본 분석마느로 판단할 수가 없다. p-값이 더 작으면 중요한 변쉴 것 같지만, p-값은 유의성 검정에만 활용될 뿐, 서로 조건이 다른 변수들의 p-값을 비교하는 것은 의미가 없다.


이런 상황에서 통계 모형을 활용한다. 회귀모형을 비롯한 다양한 통계 모형 중 이번에는 의사결정나무, 줄여서 트리 모형을 살펴보자


다음 시간에 배울 것

의사결정나무



댓글