R/R 프로젝트

[ 이토록 쉬운 통계&R 100일 프로젝트 ] 82일차

Chipmunks 2018. 8. 6.
728x90



공부 페이지

327 페이지


배운 개념

회귀모형, 결정계수 살펴보기

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
> summary(lm_heights)
 
Call:
lm(formula = son ~ father, data = heights)
 
Residuals:
     Min       1Q   Median       3Q      Max 
-22.5957  -3.8614   0.0091   4.1230  22.7570 
 
Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) 86.10257    4.65558   18.49   <2e-16 ***
father       0.51391    0.02706   18.99   <2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
 
Residual standard error: 6.191 on 1076 degrees of freedom
Multiple R-squared:  0.2511,    Adjusted R-squared:  0.2504 
F-statistic: 360.8 on 1 and 1076 DF,  p-value: < 2.2e-16
cs


아래쪽에 있는 "R-Squared" 값은 결정계수로, 이 식을 통해 아들 키를 얼마나 설명할 수 있는지를 말해준다. 약 25% 정도이다. 나머지 75% 정도는 우리가 가진 데이터로는 알 수 없는 엄마의 키나 환경의 영향 혹은 자연의 신비라고 할 수 있다. 그럼 아들 키의 25%밖에 설명할 수 없는 이 식이 과연 의미가 있을까?

F-분포를 활용하면 모든 아들 키를 전체 평균으로 예측하는 것보다 아빠 키를 활용해서 예측하는 것이 얼마나 의미 있는지를 판단할 수 있다. 결과 중 제일 아래의 "F-Squared"의 p-값이 역시 거의 0에 가까우므로 충분히 의미 있는 모형이라고 판단할 수 있다.


다음 시간에 배울 것

차이를 설명하는 간단한 통계 모형 살펴보기



댓글