728x90
공부 페이지
289 페이지 ~ 292 페이지
배운 개념
하나의 연속형 변수를 요약하기
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 | > Sys.setlocale('LC_ALL' , 'ko_KR.UTF-8') [1] "ko_KR.UTF-8/ko_KR.UTF-8/ko_KR.UTF-8/C/ko_KR.UTF-8/C" > setwd("~/Documents/Workspace/R/Practice/data") > data = read.csv('salary_data.csv') > head(data) salary 1 2930 2 6122 3 3301 4 979 5 4926 6 2328 > nrow(data) [1] 10000 | cs |
데이터 예제는 dataartproject.xyz 에서 다운로드 받을 수 있다. 한국납세자연맹(koreatax.org) 연말정산 데이터를 기반으로 연봉 탐색 서비스를 제공한다. 전체 근로소득자 중 상위 몇 %에 해당하는지를 알려준다.
이 데이터는 연봉 탐색기를 바탕으로 가상의 기업을 만들어 이 회사의 근무하는 10,000 명의 연봉 데이터다.
데이터 속에 10,000개의 관측치가 있다.
1 2 3 4 5 6 | > salary = data$salary > salary [1] 2930 6122 3301 979 4926 2328 82 6879 672 350 1812 158 5105 4945 170 3914 2042 1966 1020 4899 [21] 1575 2714 1451 686 1403 3429 7034 3485 3721 3215 5755 2087 160 276 3208 2855 1055 2648 4901 1377 ( 이하 생략 ) | cs |
오름차순 정렬
값들이 무작위로 섞여 있어 패턴을 찾기가 힘들다. 오름차순으로 정렬을 해보자.
1 2 3 4 5 | > sort(salary) [1] 0 0 1 1 1 2 2 3 3 3 4 4 4 4 5 6 6 7 7 7 7 8 8 8 9 9 9 10 10 10 ( 이하 생략 ) [991] 387 387 388 388 388 389 389 390 390 391 [ reached getOption("max.print") -- omitted 9000 entries ] | cs |
최소, 최대, 중간값 구하기
관측치의 개수가 너무 많아 다 출력이 되지 않는다. 최소, 최대, 중간값을 알아보려면 다음의 함수를 쓰자.
1 2 3 4 5 6 7 8 | > min(salary) [1] 0 > max(salary) [1] 86669 > median(salary) [1] 2276 | cs |
다음 시간에 배울 것
다섯숫자 요약
'R > R 프로젝트' 카테고리의 다른 글
[ 이토록 쉬운 통계&R 100일 프로젝트 ] 53일차 (0) | 2018.07.08 |
---|---|
[ 이토록 쉬운 통계&R 100일 프로젝트 ] 52일차 (0) | 2018.07.07 |
[ 이토록 쉬운 통계&R 100일 프로젝트 ] 50일차 (0) | 2018.07.05 |
[ 이토록 쉬운 통계&R 100일 프로젝트 ] 49일차 (0) | 2018.07.04 |
[ 이토록 쉬운 통계&R 100일 프로젝트 ] 48일차 (0) | 2018.07.03 |
댓글