R/R 프로젝트

[ 이토록 쉬운 통계&R 100일 프로젝트 ] 13일차

Chipmunks 2018. 5. 29.
728x90

공부 페이지

88 페이지 ~ 102 페이지


배운 개념

교차표 (Contingency Table)

범주형 변수를 표현하는 2차원 표


행 백분율과 열 백분율

행 백분율 : 행 합계를 1로 봤을 때 각 열의 비중이 얼마인지 계산한 것
열 백분율 : 열 합계를 1로 봤을 때 각 행의 비중이 얼마인지 계산한 것

열지도 (Heatmap)

숫자만으로는 한 눈에 비교가 힘들다. 특히 범주형 변수에 수준이 많을 때는 더더욱.
그래서 그림으로 한 눈에 보기 편하게 만든다.

예를 들어 가장 작은 숫자를 0, 가장 큰 숫자를 1로 보고 색의 진하기를 활용해, 교차표를 타일 그림으로 바꾼다.

행 또는 열 백분율로 계산한 교차표를 열지도로 만들면 효과적으로 정보를 확인할 수 있다.



독립 (Independence)

종속(Dependence) : 두 변수가 함께 엮일 때
독립 (Independence) : 종속적인 관계가 아닌, 서로 얽매이지 않고 완전히 남남인 관계

우리나라가 최근 4번의 올림픽에서 딴 메달 수는 11개다.  그리고 각 대회별로 혹은 각 메달별로 몇 개의 메달을 땄는지만 알고 있다고 가정한다. 아테네에서 몇 개의 금메달을 땄는지는 모른다. 그러나 총 금메달 수는 44개고 아테네에서 딴 전체 메달 수는 30개다.

전체 111개 메달 중 금메달의 비중은 44/111, 즉 40%이다. 그럼 아테네에서 딴 전체 메달 30개 중에서 40%는 금메달이지 않을까? 싶다. 111개의 메달 중에서 30개의 메달이 아테네에서 나온다. 30/111, 즉 27%다.
그럼 전체 금메달 44개 중 27%는 아테네에서 얻지 않았을까? 두 방법 모두 11.9개로 유추할 수 있다. 반올림 해서 12개.

이렇게 구해진 방법으로 칸들을 채울 수 있다. 앞서 고정된 합계에서 공평하게 나눠가지는 개념은 '평균' 이었다.
위 방법은 추가로 행 비중, 열 비중에 따라 가중치를 준 것이다. 이렇게 될 때, 은메달은 더 이상 아테네와는 관련이 없게 된다.

그러나 실제 데이터는 다르다. 실제 값과 이렇게 구한 값의 차이를 구할 수 있다. 이와 비슷한 개념은 '분산' 이었다. 각 관측치가 평균으로부터 얼마만큼 떨어져 있는지 차이를 계산하고 그 값을 제곱해서 더한 값이다.

교차표에서는 관측치 대신 수준 조합별 관측치 개수가 있고, 평균 대신 열 백분율과 행 백분율을 고려한 예상값이 있다. 예상값과 실제값의 차이를 계산한다. 분산과 비슷한 방법으로 교차표 속 두 범주는 서로 독립인지 판단할 수 있다.

두 변수가 독립이 아니라면 수준들끼리 서로 다른 특징을 가지지 않는다.

다음 시간에 배울 것

조건이 붙는 변수들의 관계.



댓글