상자그림
막대가 몰려 있는 구간과 널찍이 떨어져 있는 곳도 있다. 여전히 복잡하다.
다섯 숫자 요약을 사용한 그림은 다음과 같다.
다섯 숫자 요약은 데이터를 같은 비율로 4등분하여 4개의 구간을 만듦.
따라서 각 구간에는 관측치들이 25%씩 들어가 있다.즉, 25명의 연습생 점수가 들어가 있는 셈이다.
구간의 길이가 모두 똑같지 않다. 길이가 긴 구간과 상대적으로 짧은 구간이 있다.
길이가 긴 구간 : 관측치가 드문드문 퍼져 있다.
길이가 상대적으로 짧은 구간 : 관측치가 빽빽하게 들어가 있다.
조금 더 보기 쉽게 표현을 해보자. Q1부터 Q3사이를 네모난 상자로 표현한다.
최솟값, 최댓값까지 직선으로 잇는다.
상자 가운데 있는 중앙값은 선을 그어 표현을 한다.
➡️ 상자 그림 ( Box Plot )
상자 속 구간이 양쪽 구간들보다 길이가 좁고 특히 50~75% 점수대는 빽빽하다
➡️중상위권 경쟁이 치열하다.
마지막 75~100% 구간의 길이가 가장 길다.
➡️중상위권가 고득점자의 차이가 확연이 크다
이렇게 다섯 숫자 요약을 상자그림으로 표현하면 모든 값을 살펴보지 않아도 관측치들이 만들어 낸 패턴을 손쉽게 확인할 수 있다.
히스토그램
히스토그램은 상자그림과 달리 먼저 구간을 적절히 나눈다.
그리고 각 구간에 포함되는 관측치가 몇 개나 있는지 개수를 세어, 도수분포표(Frequency distribution table)를 만든다. 이 표를 그림으로 표현한다.
101명의 점수를 히스토그램으로 표현하기 위해서 50점부터 100점까지 점수를 10저 간격으로 나눈 다음, 다음과 같이 도수분포표를 만든다.
히스토그램은 각 구간에 포함되는 관측치의 숫자를 세어 위로 쌓아 높이로 표현한다.
더 자세히 살펴보기 위해 5점 간격으로 히스토그램을 다시 만들어보면 다음과 같다.
10점 간격으로 살펴보는 것보다 훨씬 의미있는 패턴이 보인다. 75~85점의 중상위권에 연습생들이 많이 몰려 있고 85점 이상의 고득점 연습생 수는 적다는걸 알 수 있다.
히스토그램과 상자그림은 서로 반대의 기준으로 관측치들의 패턴을 살핀다.
➡️히스토그램 : 변수를 같은 길이로 여러 구간을 나눠, 각 구간에 몇 개의 관측치가 있는지 관측치의 비율로 살핌
➡️상자그림 : 관측치를 같은 비율로 나누는 지점을 계산하여, 각 구간을 살핌.
두 그래프의 장점과 단점
➡️히스토그램
장점 : 구간을 잘 나누면 패턴은 얼마든지 자세히 확인할 수 있다.
단점 : 5개보다 훨씬 많은 값을 확인해야 할 수 있다.
➡️상자그림
장점 : 어떤 연속형 변수든 5개의 값으로 표현할 수 있다.
단점 : 세부적인 패턴은 놓친다.
➡️상자그림 이용 : 간단하고 빠른 분석을 하거나 그룹에 따른 차이를 확인할 때
➡️히스토그램 : 하나의 변수에 대해 좀 더 자세히 살펴볼 때
'R > R 프로젝트' 카테고리의 다른 글
[ 이토록 쉬운 통계&R 100일 프로젝트 ] Day 8. 20% 물수능과 불수능 (0) | 2018.04.09 |
---|---|
[ 이토록 쉬운 통계&R 100일 프로젝트 ] Day 7. 15% 더치페이와 N빵 (0) | 2018.04.08 |
[ 이토록 쉬운 통계&R 100일 프로젝트 ] Day 5. 10% 순서대로 한줄서기 (0) | 2018.03.26 |
[ 이토록 쉬운 통계&R 100일 프로젝트 ] Day 4. 5% 날줄과 씨줄 (0) | 2018.03.23 |
[ 이토록 쉬운 통계&R 100일 프로젝트 ] Day 3. 1% 줌아웃 (0) | 2018.03.23 |
댓글