R/R 프로젝트

[ 이토록 쉬운 통계&R 100일 프로젝트 ] 12일차

Chipmunks 2018. 5. 28.
728x90


공부 페이지

76 페이지 ~ 87 페이지


배운 개념

산점도(Scatter plot)

두 연속형 변수를 2차원 공간으로 표현하는 방법


공분산(Covariance)

산점도에서 각 사분면에 있는 관측치들의 사각형 면적의 평균을 구한 것.

x평균과 y평균이 공간을 4등분하고 제1, 3 사분면과 제2, 4 사분면 중 어느 쪽에 얼마나 영향력이 큰 관측치들이 있는지에 따라 {q}_{xy}가 달라진다.

공분산의 값이 양수 : 양의 상관관계가 있다. 두 변수가 함께 크거나 함께 작은 일정한 패턴이 있는 것.
경제학에서의 '보완재'의 개념과 비슷하다.

공분산의 값이 음수 : 음의 상관관계가 있다. 변수 하나가 커지면 나머지 하나가 작아진다.
경제학에서의 '대체제'의 개념과 비슷하다.

예시에서의 공분산을 구해보면 25 cm^2 이다.

공분산을 구하면 단위 문제가 있다. 공분산을 계산하기 전 두 변수를 각각 표준화해서 계산한다.

상관관계(Correlation Coefficient)

표준화된 두 변수의 공분산

표준화 : 각 변수의 평균과 표준편차를 활용한다. 공분산의 계산 과정에서 평균을 빼주는 중심화를 진행했다. 표준편차로 나눠주기만 하면 된다.

표준화를 할 시, 산점도의 패턴은 일정하다. 다만, 두 변수의 값이 표준화된 값을 가진다. 그리고 더이상 '단위'가 없다.


표준화를 한 다음 공분산을 구하면, 0.5 라는 값이 나온다.


상관관계는 -1 에서 1 사이의 값을 가진다.


상관 관계가 가장 클 때는 1로, 가장 닮았을 때다. 가장 닮았을 경우는 똑같은 경우다.

가장 다를 때는 어떤 변수와 그 변수에 -1을 곱한 새로운 변수와의 상관관계다.

두 변수로 구성된 2차원 산점도에서 관측치가 원형으로 흩어져 있으면 상관계수가 0에 가깝다.


산점도 패턴으로 유추할 순 있지만, 그래도 숫자로 나온 상관관계를 사용하는 것이 좋다.


상관관계를 이용하면, 한 변수에 기준으로 나머지 변수를 예측하는 것이 가능하다. 그리고 한 변수의 영향력이 얼마나 되는지도 볼 수 있다.


다음 시간에 배울 것

이번에는 연속형 변수 간의 관계를 설명하는 도구를 살펴봤다.
다음 시간에는 범주형 변수로 넘어간다.


댓글