R/R 프로젝트

[ 이토록 쉬운 통계&R 100일 프로젝트 ] Day 6. 10% 순서대로 한줄서기 (2)

Chipmunks 2018. 4. 6.
728x90


상자그림

50점부터 100점까지의 수직선 위에 101명의 점수를 하나씩 세로 막대(|)로 표시하면 다음과 같다.


막대가 몰려 있는 구간과 널찍이 떨어져 있는 곳도 있다. 여전히 복잡하다.

다섯 숫자 요약을 사용한 그림은 다음과 같다.



다섯 숫자 요약은 데이터를 같은 비율로 4등분하여 4개의 구간을 만듦.

따라서 각 구간에는 관측치들이 25%씩 들어가 있다.즉, 25명의 연습생 점수가 들어가 있는 셈이다.


구간의 길이가 모두 똑같지 않다. 길이가 긴 구간과 상대적으로 짧은 구간이 있다.

길이가 긴 구간 : 관측치가 드문드문 퍼져 있다.

길이가 상대적으로 짧은 구간 : 관측치가 빽빽하게 들어가 있다.


조금 더 보기 쉽게 표현을 해보자. Q1부터 Q3사이를 네모난 상자로 표현한다.

최솟값, 최댓값까지 직선으로 잇는다.

상자 가운데 있는 중앙값은 선을 그어 표현을 한다.

➡️ 상자 그림 ( Box Plot )




상자 속 구간이 양쪽 구간들보다 길이가 좁고 특히 50~75% 점수대는 빽빽하다

➡️중상위권 경쟁이 치열하다.

마지막 75~100% 구간의 길이가 가장 길다.

➡️중상위권가 고득점자의 차이가 확연이 크다


이렇게 다섯 숫자 요약을 상자그림으로 표현하면 모든 값을 살펴보지 않아도 관측치들이 만들어 낸 패턴을 손쉽게 확인할 수 있다.


히스토그램

빽빽한 데이터의 패턴을 한눈에 파악하는 방법으로 상자그림도 유용하다.
이에 맞서는 히스토그램도 있다.


히스토그램은 상자그림과 달리 먼저 구간을 적절히 나눈다.

그리고 각 구간에 포함되는 관측치가 몇 개나 있는지 개수를 세어, 도수분포표(Frequency distribution table)를 만든다. 이 표를 그림으로 표현한다.


101명의 점수를 히스토그램으로 표현하기 위해서 50점부터 100점까지 점수를 10저 간격으로 나눈 다음, 다음과 같이 도수분포표를 만든다.



히스토그램은 각 구간에 포함되는 관측치의 숫자를 세어 위로 쌓아 높이로 표현한다.

더 자세히 살펴보기 위해 5점 간격으로 히스토그램을 다시 만들어보면 다음과 같다.



10점 간격으로 살펴보는 것보다 훨씬 의미있는 패턴이 보인다. 75~85점의 중상위권에 연습생들이 많이 몰려 있고 85점 이상의 고득점 연습생 수는 적다는걸 알 수 있다.


히스토그램과 상자그림은 서로 반대의 기준으로 관측치들의 패턴을 살핀다.

➡️히스토그램 : 변수를 같은 길이로 여러 구간을 나눠, 각 구간에 몇 개의 관측치가 있는지 관측치의 비율로 살핌

➡️상자그림 : 관측치를 같은 비율로 나누는 지점을 계산하여, 각 구간을 살핌.


두 그래프의 장점과 단점

➡️히스토그램

장점 : 구간을 잘 나누면 패턴은 얼마든지 자세히 확인할 수 있다.

단점 : 5개보다 훨씬 많은 값을 확인해야 할 수 있다.

➡️상자그림

장점 : 어떤 연속형 변수든 5개의 값으로 표현할 수 있다.

단점 : 세부적인 패턴은 놓친다.


➡️상자그림 이용 : 간단하고 빠른 분석을 하거나 그룹에 따른 차이를 확인할 때

➡️히스토그램 : 하나의 변수에 대해 좀 더 자세히 살펴볼 때

댓글