R/R 프로젝트

[ 이토록 쉬운 통계&R 100일 프로젝트 ] 51일차

Chipmunks 2018. 7. 6.
728x90


공부 페이지

289 페이지 ~ 292 페이지


배운 개념

하나의 연속형 변수를 요약하기

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
> Sys.setlocale('LC_ALL' , 'ko_KR.UTF-8')
[1"ko_KR.UTF-8/ko_KR.UTF-8/ko_KR.UTF-8/C/ko_KR.UTF-8/C"
 
> setwd("~/Documents/Workspace/R/Practice/data")
 
> data = read.csv('salary_data.csv')
 
> head(data)
  salary
1   2930
2   6122
3   3301
4    979
5   4926
6   2328
 
> nrow(data)
[110000
cs


데이터 예제는 dataartproject.xyz 에서 다운로드 받을 수 있다. 한국납세자연맹(koreatax.org) 연말정산 데이터를 기반으로 연봉 탐색 서비스를 제공한다. 전체 근로소득자 중 상위 몇 %에 해당하는지를 알려준다.

이 데이터는 연봉 탐색기를 바탕으로 가상의 기업을 만들어 이 회사의 근무하는 10,000 명의 연봉 데이터다.

데이터 속에 10,000개의 관측치가 있다.

1
2
3
4
5
6
> salary = data$salary
 
> salary
   [1]  2930  6122  3301   979  4926  2328    82  6879   672   350  1812   158  5105  4945   170  3914  2042  1966  1020  4899
  [21]  1575  2714  1451   686  1403  3429  7034  3485  3721  3215  5755  2087   160   276  3208  2855  1055  2648  4901  1377
( 이하 생략 )
cs


오름차순 정렬

값들이 무작위로 섞여 있어 패턴을 찾기가 힘들다. 오름차순으로 정렬을 해보자.

1
2
3
4
5
> sort(salary)
   [1]   0   0   1   1   1   2   2   3   3   3   4   4   4   4   5   6   6   7   7   7   7   8   8   8   9   9   9  10  10  10
( 이하 생략 )
 [991387 387 388 388 388 389 389 390 390 391
[ reached getOption("max.print"-- omitted 9000 entries ]
cs


최소, 최대, 중간값 구하기

관측치의 개수가 너무 많아 다 출력이 되지 않는다. 최소, 최대, 중간값을 알아보려면 다음의 함수를 쓰자.

1
2
3
4
5
6
7
8
> min(salary)
[10
 
> max(salary)
[186669
 
> median(salary)
[12276
cs



다음 시간에 배울 것

다섯숫자 요약



댓글