R/R 프로젝트

[ 이토록 쉬운 통계&R 100일 프로젝트 ] 81일차

Chipmunks 2018. 8. 5.
728x90



공부 페이지

326 페이지


배운 개념

summary() 함수로 모형 요약하기

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
> summary(lm_heights)
 
Call:
lm(formula = son ~ father, data = heights)
 
Residuals:
     Min       1Q   Median       3Q      Max 
-22.5957  -3.8614   0.0091   4.1230  22.7570 
 
Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) 86.10257    4.65558   18.49   <2e-16 ***
father       0.51391    0.02706   18.99   <2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
 
Residual standard error: 6.191 on 1076 degrees of freedom
Multiple R-squared:  0.2511,    Adjusted R-squared:  0.2504 
F-statistic: 360.8 on 1 and 1076 DF,  p-value: < 2.2e-16
cs


많은 값 중 관심을 가져야 할 숫자는 바로 변수 father의 p-값 이다. 결과에서 father라는 변수 이름이 나오고, 그 줄 제일 끝에 "Pr( > |t|)" 에 해당하는 값이 바로 변수 father의 p-값이다.


이 p-값은 먼저 계산된 t-값을 적절한 t-분포에 넣어 계산한다. 그리고 '의미 없는 수많은 변수들에 비해서 이 변수가 얼마나 특이할 만큼 관심 변수를 잘 설명하는지'를 의미한다. 바로 이 p-값으로 아빠 키가 아들 키에 의미 있는 영향을 미치는지 아닌지를 확인할 수 있다.


p-값에 해당하는 "2e-16" 은 2/10^16 을 의미한다. 즉, 계산된 p-값이 2/10^16보다 작고, "아빠 키는 아들의 키에 전혀 영향력이 없다"고 판단하기에는 실제 아빠 키의 영향력이 매우 큰 것이다.


아들 키는 "(Intercept)"의 "Estimate"에 해당하는 86.10257은 모두 기본적으로 갖고, 아빠 키에 0.51391를 곱한 만큼을 더한다. 즉, 다음 식이 아들 키에 대한 선형회귀모형식이 된다.




다음 시간에 배울 것

회귀 모형의 또다른 정보, 결정 계수 살펴보기



댓글