정렬과 순서 통계량
다음의 10개의 숫자가 있다.
4 5 3 8 9 7 0 1 2 6
제일 작은 숫자인 0을 제일 앞으로 옮긴다. 그 다음으로 작은 숫자인 1을 두 번째로 옮긴다. 그 다음 작은 숫자인 2를 세 번째로 옮긴다. 가장 작은 숫자부터 순서대로 찾아 배치하는 과정을 반복하면 숫자들의 순서는 다음과 같아진다.
0 1 2 3 4 5 6 7 8 9
이런 방법으로 값들을 크기에 따라 순서대로 줄 세우는 과정을 정렬이라고 한다.
정렬을 하고 나면 순위가 결정된다. 0은 1등이 되고 9는 꼴등이 된다. 비교도 쉽다.
6보다 작은 값은 6개가 있고, 8보다 큰 값은 1개가 있다. 이처럼 오름차순으로 정렬된 10개의 값을 통계학에서는 순서 통계량(Order statistics)라고 부른다.
그 중 가장 먼저 나오는 값, 즉 가장 작은 값을 최솟값(Minumum), 가장 나중에 나오는 값, 즉 가장 큰 값을 최댓값(Maximum)이라고 특별한 이름을 지었다.
분위수
50.8점이 꼴등이고 99.7점이 1등이다. 만약 이 중 하위 30명이 1차 탈락이라면, 적어도 몇 점을 받아야 1차에서 살아남을 수 있을까?
31번째 값 67.6이 합격과 탈락을 구분하는 커트라인이 된다. 경쟁에서 점수가 중요한 것이 아니라 위치가 중요하다. 내 점수를 기준으로 나보다 점수가 낮은 사람들과 높은 사람들로 나뉜다. 이렇게 기준이 되는 특정한 점수들을 분위수(Quantile)라고 한다. 가장 대표적인 분위수가 100등분의 기준, 기호 %를 사용하는 백분위수(Percentile)이다.
예를 들어, 101명의 연습생들은 31번째 값 67.6점을 기준으로 67.6점보다 점수가 낮은 30명과 67.6점보다 점수가 높은 70명으로 나뉜다. 다시 말해서 67.6점보다 점수가 낮은 연습생은 30%이다. 따라서 67.6점을 '30번째 백분위수'라고 한다. 흔히 쓰는 표현으로 '하위 30% 지점'이다.
통계에서는 기본적으로 오름차순이 기준이기 때문에 '하위'라는 표현을 생략하고 보통 30% 지점이라고 한다. 최솟값은 0% 지점이 되고, 최댓값은 100% 지점이 된다.
사분위수와 다섯 숫자 요약
(관측치의 50%)
2. 중앙값(50%)
(나머지의 50%)
3. 최댓값(100%)
그러나 0%, 50%, 100%라는 세 값으로만 데이터를 살펴보기에는 아직도 부족해보인다. 그래서 0%와 50%의 중간인 25%와, 50%와 100%의 중간인 75% 지점을 추가해준다. 그럼
0%, 25%, 50%, 75%, 100%
로 총 5개 지점이 만들어진다. 이 5개 지점은 데이터를 정확히 4등분 합니다. 그래서 사분위수(Quartile)라는 특별한 이름을 지어줬다. 25%, 75% 지점은 첫 번째, 세 번째 사분위수(1st, 3rd Quartile)라는 의미로 각각 Q1, Q3라고 부른다.
(관측치의 25%)
2. Q1(25%)
(다음 25%)
3. 중앙값(50%)
(다음 25%)
4. Q3(75%)
(마지막 25%)
5. 최댓값(100%)
이처럼 하나의 연속형 변수로 최솟값, Q1, 중앙값, Q3, 최댓값이라는 숫자 다섯 개를 계산하고 의미를 찾는 과정을 다섯 숫자 요약(Five number summary)이라고 한다.
'R > R 프로젝트' 카테고리의 다른 글
[ 이토록 쉬운 통계&R 100일 프로젝트 ] Day 7. 15% 더치페이와 N빵 (0) | 2018.04.08 |
---|---|
[ 이토록 쉬운 통계&R 100일 프로젝트 ] Day 6. 10% 순서대로 한줄서기 (2) (0) | 2018.04.06 |
[ 이토록 쉬운 통계&R 100일 프로젝트 ] Day 4. 5% 날줄과 씨줄 (0) | 2018.03.23 |
[ 이토록 쉬운 통계&R 100일 프로젝트 ] Day 3. 1% 줌아웃 (0) | 2018.03.23 |
[ 이토록 쉬운 통계&R 100일 프로젝트 ] Day 2. 문법보다 회화 (0) | 2018.03.15 |
댓글