R/R 프로젝트

[ 이토록 쉬운 통계&R 100일 프로젝트 ] Day 5. 10% 순서대로 한줄서기

Chipmunks 2018. 3. 26.
728x90


정렬과 순서 통계량

다음의 10개의 숫자가 있다.

4  5  3  8  9  7  0  1  2  6

제일 작은 숫자인 0을 제일 앞으로 옮긴다. 그 다음으로 작은 숫자인 1을 두 번째로 옮긴다. 그 다음 작은 숫자인 2를 세 번째로 옮긴다. 가장 작은 숫자부터 순서대로 찾아 배치하는 과정을 반복하면 숫자들의 순서는 다음과 같아진다.

0  1  2  3  4  5  6  7  8  9


이런 방법으로 값들을 크기에 따라 순서대로 줄 세우는 과정을 정렬이라고 한다.

정렬을 하고 나면 순위가 결정된다. 0은 1등이 되고 9는 꼴등이 된다. 비교도 쉽다.

6보다 작은 값은 6개가 있고, 8보다 큰 값은 1개가 있다. 이처럼 오름차순으로 정렬된 10개의 값을 통계학에서는 순서 통계량(Order statistics)라고 부른다.


그 중 가장 먼저 나오는 값, 즉 가장 작은 값을 최솟값(Minumum), 가장 나중에 나오는 값, 즉 가장 큰 값을 최댓값(Maximum)이라고 특별한 이름을 지었다.


분위수

큰 이슈가 되었던 아이돌 서바이벌 프로그램 <프로듀스 101>을 기억하는가. 그 101명의 연습생 중 누가 상위 11명 안에 드는지 확인하기 위해서 점수라는 기준이 필요했다.  그래서 임의로 101명의 연습생에게 점수를 매기고 정렬해봤다.



50.8점이 꼴등이고 99.7점이 1등이다. 만약 이 중 하위 30명이 1차 탈락이라면, 적어도 몇 점을 받아야 1차에서 살아남을 수 있을까?

31번째 값 67.6이 합격과 탈락을 구분하는 커트라인이 된다. 경쟁에서 점수가 중요한 것이 아니라 위치가 중요하다. 내 점수를 기준으로 나보다 점수가 낮은 사람들과 높은 사람들로 나뉜다. 이렇게 기준이 되는 특정한 점수들을 분위수(Quantile)라고 한다. 가장 대표적인 분위수가 100등분의 기준, 기호 %를 사용하는 백분위수(Percentile)이다.


예를 들어, 101명의 연습생들은 31번째 값 67.6점을 기준으로 67.6점보다 점수가 낮은 30명과 67.6점보다 점수가 높은 70명으로 나뉜다. 다시 말해서 67.6점보다 점수가 낮은 연습생은 30%이다. 따라서 67.6점을 '30번째 백분위수'라고 한다. 흔히 쓰는 표현으로 '하위 30% 지점'이다.


통계에서는 기본적으로 오름차순이 기준이기 때문에 '하위'라는 표현을 생략하고 보통 30% 지점이라고 한다. 최솟값은 0% 지점이 되고, 최댓값은 100% 지점이 된다.


사분위수와 다섯 숫자 요약

분위수를 데이터 분석에 어떻게 활용해야 할까? 101명의 연습생들은 백분위수를 사용해 내가 몇 번째 위치인지를 확인할 수 있지만, 프로그램을 운영하는 PD의 입장에서는 전체적인 점수 패턴이 궁금하다. 예를 들어, 중위권에 얼마나 몰려 있는가, 하위권의 평균은 어느 정도인가 패턴을 한눈에 보고 싶어한다. 그렇다고 0% 지점부터 100% 지점까지 101개의 통계량을 확인하기엔 너무 번거롭다. 조금 더 큰 단위를 가지고 살펴보는 게 좋을 것 같다.

일단 최솟값과 최댓값은 당연히 필요하다. 그러나 최솟값 1과 최댓값 101 사이의 거리가 너무 멀어 그 중간인 50% 지점 값을 사용하는 것이 패턴을 파악하기에 편리하다. 50% 지점에 있는 값을 기준으로 관측치들이 정확히 반반으로 나뉘기 때문에 중앙값(Median)이라는 이름을 붙여준다. 101명 중 51번째 값이 중앙값이 된다.

1. 최솟값(0%)

(관측치의 50%)

2. 중앙값(50%)

(나머지의 50%)

3. 최댓값(100%)


그러나 0%, 50%, 100%라는 세 값으로만 데이터를 살펴보기에는 아직도 부족해보인다. 그래서 0%와 50%의 중간인 25%와, 50%와 100%의 중간인 75% 지점을 추가해준다. 그럼


0%, 25%, 50%, 75%, 100%


로 총 5개 지점이 만들어진다. 이 5개 지점은 데이터를 정확히 4등분 합니다. 그래서 사분위수(Quartile)라는 특별한 이름을 지어줬다. 25%, 75% 지점은 첫 번째, 세 번째 사분위수(1st, 3rd Quartile)라는 의미로 각각 Q1, Q3라고 부른다.


1. 최솟값(0%)

(관측치의 25%)

2. Q1(25%)

(다음 25%)

3. 중앙값(50%)

(다음 25%)

4. Q3(75%)

(마지막 25%)

5. 최댓값(100%)


이처럼 하나의 연속형 변수로 최솟값, Q1, 중앙값, Q3, 최댓값이라는 숫자 다섯 개를 계산하고 의미를 찾는 과정을 다섯 숫자 요약(Five number summary)이라고 한다.


댓글