목차

R/R 프로젝트

[ 이토록 쉬운 통계&R 100일 프로젝트 ] Day 6. 10% 순서대로 한줄서기 (2)

Chipmunks 2018. 4. 6.

목차

728x90

[ 이토록 쉬운 통계&R 100일 프로젝트 ] Day 6. 10% 순서대로 한줄서기 (2)


상자그림

50점부터 100점까지의 수직선 위에 101명의 점수를 하나씩 세로 막대(|)로 표시하면 다음과 같다.

[ 이토록 쉬운 통계&R 100일 프로젝트 ] Day 6. 10% 순서대로 한줄서기 (2)


막대가 몰려 있는 구간과 널찍이 떨어져 있는 곳도 있다. 여전히 복잡하다.

다섯 숫자 요약을 사용한 그림은 다음과 같다.


[ 이토록 쉬운 통계&R 100일 프로젝트 ] Day 6. 10% 순서대로 한줄서기 (2)


다섯 숫자 요약은 데이터를 같은 비율로 4등분하여 4개의 구간을 만듦.

따라서 각 구간에는 관측치들이 25%씩 들어가 있다.즉, 25명의 연습생 점수가 들어가 있는 셈이다.


구간의 길이가 모두 똑같지 않다. 길이가 긴 구간과 상대적으로 짧은 구간이 있다.

길이가 긴 구간 : 관측치가 드문드문 퍼져 있다.

길이가 상대적으로 짧은 구간 : 관측치가 빽빽하게 들어가 있다.


조금 더 보기 쉽게 표현을 해보자. Q1부터 Q3사이를 네모난 상자로 표현한다.

최솟값, 최댓값까지 직선으로 잇는다.

상자 가운데 있는 중앙값은 선을 그어 표현을 한다.

➡️ 상자 그림 ( Box Plot )


[ 이토록 쉬운 통계&R 100일 프로젝트 ] Day 6. 10% 순서대로 한줄서기 (2)



상자 속 구간이 양쪽 구간들보다 길이가 좁고 특히 50~75% 점수대는 빽빽하다

➡️중상위권 경쟁이 치열하다.

마지막 75~100% 구간의 길이가 가장 길다.

➡️중상위권가 고득점자의 차이가 확연이 크다


이렇게 다섯 숫자 요약을 상자그림으로 표현하면 모든 값을 살펴보지 않아도 관측치들이 만들어 낸 패턴을 손쉽게 확인할 수 있다.


히스토그램

빽빽한 데이터의 패턴을 한눈에 파악하는 방법으로 상자그림도 유용하다.
이에 맞서는 히스토그램도 있다.

[ 이토록 쉬운 통계&R 100일 프로젝트 ] Day 6. 10% 순서대로 한줄서기 (2)


히스토그램은 상자그림과 달리 먼저 구간을 적절히 나눈다.

그리고 각 구간에 포함되는 관측치가 몇 개나 있는지 개수를 세어, 도수분포표(Frequency distribution table)를 만든다. 이 표를 그림으로 표현한다.


101명의 점수를 히스토그램으로 표현하기 위해서 50점부터 100점까지 점수를 10저 간격으로 나눈 다음, 다음과 같이 도수분포표를 만든다.


[ 이토록 쉬운 통계&R 100일 프로젝트 ] Day 6. 10% 순서대로 한줄서기 (2)


히스토그램은 각 구간에 포함되는 관측치의 숫자를 세어 위로 쌓아 높이로 표현한다.

더 자세히 살펴보기 위해 5점 간격으로 히스토그램을 다시 만들어보면 다음과 같다.


[ 이토록 쉬운 통계&R 100일 프로젝트 ] Day 6. 10% 순서대로 한줄서기 (2)


10점 간격으로 살펴보는 것보다 훨씬 의미있는 패턴이 보인다. 75~85점의 중상위권에 연습생들이 많이 몰려 있고 85점 이상의 고득점 연습생 수는 적다는걸 알 수 있다.


히스토그램과 상자그림은 서로 반대의 기준으로 관측치들의 패턴을 살핀다.

➡️히스토그램 : 변수를 같은 길이로 여러 구간을 나눠, 각 구간에 몇 개의 관측치가 있는지 관측치의 비율로 살핌

➡️상자그림 : 관측치를 같은 비율로 나누는 지점을 계산하여, 각 구간을 살핌.


두 그래프의 장점과 단점

➡️히스토그램

장점 : 구간을 잘 나누면 패턴은 얼마든지 자세히 확인할 수 있다.

단점 : 5개보다 훨씬 많은 값을 확인해야 할 수 있다.

➡️상자그림

장점 : 어떤 연속형 변수든 5개의 값으로 표현할 수 있다.

단점 : 세부적인 패턴은 놓친다.


➡️상자그림 이용 : 간단하고 빠른 분석을 하거나 그룹에 따른 차이를 확인할 때

➡️히스토그램 : 하나의 변수에 대해 좀 더 자세히 살펴볼 때

댓글