R/R 프로젝트

[ 이토록 쉬운 통계&R 100일 프로젝트 ] 85일차

Chipmunks 2018. 8. 9.
728x90



공부 페이지

330 페이지


배운 개념

그룹별 평균 상자그림 해석

살추제 A, B, F가 확실히 전반적으로 성능이 좋아보인다. 이 상자그림만으로 살충제에 성능 차이가 있다고 판단할 순 없다. 분산분석을 통해 spray라는 변수가 count의 차이를 충분히 잘 설명하고 있는지 확인해야 한다.


분산분석 (Analysis Of Variance) 하기

aov() 함수를 사용한다.

1
2
3
4
5
6
7
8
> aov_spray = aov(count ~ spray, data = InsectSprays)
 
> summary(aov_spray)
            Df Sum Sq Mean Sq F value Pr(>F)    
spray        5   2669   533.8    34.7 <2e-16 ***
Residuals   66   1015    15.4                   
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
cs


결과에서 그룹의 역할을 한 범주형 변수 spray가 있고, 제일 오른쪽에 p-값이 있다. 이번에도 p-값은 거의 0이 나왔다. spray에 따른 count에 차이가 없다고 보기엔 너무 큰 차이를 가지고 있다는 의미이다.

다음 시간에 배울 것

SK텔레콤 빅데이터허브(bigdatahub.co.kr)에서 제공하는 치킨 주문 통화량 데이터 살펴보기



댓글