R/R 프로젝트

[ 이토록 쉬운 통계&R 100일 프로젝트 ] 35일차

Chipmunks 2018. 6. 20.
728x90



공부 페이지

214 페이지 ~ 222 페이지


배운 개념

선형회귀모형

전에 살펴 본 아빠 키와 아들 키의 표준화된 산점도에서 상관 계수는 0.5 였습니다. 이를 가지고 두 변수의 관계 식을 만들어 봅시다.


1. 상관계수로 표준화된 두 변수 관계를 표현합니다.


2. 양변에 아들 키의 표준 편차를 곱합니다.



식을 다듬어 표준편차를 변수로 묶어주자


3. 양변에 아들 키의 평균을 더합니다.


아빠 키의 평균과 표준편차는 각각 171.93cm, 6.97cm 이고, 아들 키의 평균과 표준편차는 각각 174.46cm, 7.15cm 이다. 이 숫자들을 3단계 식에 대입해보자.


숫자들의 곱하기와 더하기를 계산해보면 다음과 같다.



아빠 키와 아들 키의 관계는 숫자 두 개를 활용한 곱하기와 더하기로 표현할 수 있다. 표준화된 두 변수의 상관계수로 시작해서 두 변수의 관계를 설명하는 식을 만들었다.


기울기는 0.5에서 0.514로 조금 바뀌었고, y절편인 x에 상관없이 더해지는 기본값 86.07cm 이 추가됐다.

방금 계산한 관계식은 2차원 공간에서는 직선을 의미한다. 따라서 선형(linear)이라는 표현을 쓴다.


아빠 키에 임의의 값을 대입해 다음과 같은 아들 키를 예상할 수 있다


아빠 키 

150cm 

160cm 

172cm 

180cm 

190cm 

아들 키 예측 

163.2cm 

168.3cm 

174.5cm 

178.6cm 

183.7cm 


평균에 가까운 172cm인 아빠의 아들 키 예측 값은 174.5cm로, 아들 키의 평균에 가깝다.

회귀(Regression)라는 표현은, 평균에서 많이 벗어나지 못하고 평균 쪽으로 끌어 당겨지는 효과를 의미한다.

다음 시간에 배울 것

선형회귀모형

댓글