R/R 프로젝트

[ 이토록 쉬운 통계&R 100일 프로젝트 ] 79일차

Chipmunks 2018. 8. 3.
728x90



공부 페이지

324 페이지


배운 개념

사분면 해석


제1사분면은 아빠와 아들 모두 평균보다 키가 큰 가족이다. 그와 대각선 반대에 위치한 제3사분면은 아빠와 아들 모두 평균보다 키가 작은 가족이다. 이 두 집단은 완전히 달라 보이지만, '아들의 키는 아빠의 키에 영향을 받는다' 는 의미를 가지고 있다.

반면 제2, 4사분면의 점들은 아빠와 아들 중 한쪽은 평균보다 크지만 나머지 한쪽은 평균보다 작아서 제1, 3사분면과는 반대로 '아들의 키는 아빠의 키에 영향을 받지 않는다' 는 의미를 지니다.

눈으로 보기에도 제1, 3사분면에 관측치가 많아 보인다. 정말 그런지 상관계수를 계산해보자. 

cor() 함수로 상관계수 구하기

1
2
3
4
> cor(heights)
          father       son
father 1.0000000 0.5010942
son    0.5010942 1.0000000
cs


변수의 조합에 따라 상관계수 행렬이 만들어진다. 어떤 변수와 변수 자신의 상관계수는 당연히 1이 나온다. 아빠 키와 아들 키의 상관계수는 약 0.5로 계산이 된다.

상관계수 자체로는 두 변수의 관계를 명확하게 설명하기는 어렵다. 상관계수의 부호가 +냐 -냐에 따라서 같은 방향으로 움직이는지, 반대로 움직이는지는 정도만 알 수 있기 때문이다.

그래서 선형회귀를 사용한다.

다음 시간에 배울 것

선형회귀 사용해 회귀모형 만들기

댓글