R/R 프로젝트

[ 이토록 쉬운 통계&R 100일 프로젝트 ] Day 9. 25% 먹고 싶은 거 먹어, 난 짜장

Chipmunks 2018. 4. 11.
728x90


수준 : 범주형 변수가 가질 수 있는 한정적인 값들. 동전 던지기를 예를 들면, '앞'과 '뒤'가 그것이다.


연속형 변수는 줄을 세워 다섯 숫자를 찾고 평균이나 표준편차를 계산해서 설명했지만, 범주형 변수는 수준별로 몇 개의 관측치가 있는지만 세면 된다.


동전을 10개 던져서 그 결과가 앞면이 6개가 있고, 뒷면이 4개가 있다.


이를 그림으로 쉽게 표현할 수 있다. 파이 차트와 막대그래프로 표현한다.


아래 그림이 파이 차트이다. 수준들이 원 모양의 파이 하나를 두고 각각의 비중에 따라 조각을 나눠 갖는다. 중심각의 크기로 전체 중에서 각 수준의 비중이 얼마만큼인지 표현한다.


다음은 막대그래프(Bar plot)이다. 막대그래프는 수준별로 관측치의 수만큼 막대를 높이 쌓아 표현한다. 막대가 높을수록 많은 관측치가 있다.


보통 히스토그램과 헷갈리곤 한다. 히스토그램은 가로축에 연속형 변수가 들어와 적절한 구간으로 나누는 중간 과정이 있다. 구간 간격을 어떻게 나누느냐에 따라 모양이 달라진다.


반면, 막대그래프는 가로축에 범주형 변수가 들어오기 때문에 구간을 나눌 필요가 없다.


다음은 동전 던지기보다 수준의 수가 많은 '연령대별 회원 수'라는 데이터이다.




파이차트가 깔끔하긴 하지만, 수준끼리 비교하기가 어렵다. 그의 눈금을 세세히 비교하기가 힘들다. 반면 막대 그래프는 크기가 높이로 표현되어 있어, 누가 더 크고 작은지 그 차이를 한눈에 비교할 수 있어 훨씬 좋다.


이렇게 하나의 범주형 변수는 계수(Counting)를 통해 간단히 요약하고, 그 결과를 단순하지만 효과적인 막대그래프로 손쉽게 표현할 수 있다.

댓글