R/R 프로젝트

[ 이토록 쉬운 통계&R 100일 프로젝트 ] 51일차

Chipmunks 2018. 7. 6.

728x90

공부 페이지

289 페이지 ~ 292 페이지

배운 개념

하나의 연속형 변수를 요약하기

> Sys.setlocale('LC_ALL' , 'ko_KR.UTF-8')
[1] "ko_KR.UTF-8/ko_KR.UTF-8/ko_KR.UTF-8/C/ko_KR.UTF-8/C"
 
> setwd("~/Documents/Workspace/R/Practice/data")
 
> data = read.csv('salary_data.csv')
 
> head(data)
  salary
1   2930
2   6122
3   3301
4    979
5   4926
6   2328
 
> nrow(data)
[1] 10000

Colored by Color Scripter

데이터 예제는 dataartproject.xyz 에서 다운로드 받을 수 있다. 한국납세자연맹(koreatax.org) 연말정산 데이터를 기반으로 연봉 탐색 서비스를 제공한다. 전체 근로소득자 중 상위 몇 %에 해당하는지를 알려준다.

이 데이터는 연봉 탐색기를 바탕으로 가상의 기업을 만들어 이 회사의 근무하는 10,000 명의 연봉 데이터다.

데이터 속에 10,000개의 관측치가 있다.

1
2
3
4
5
6
> salary = data$salary
 
> salary
   [1]  2930  6122  3301   979  4926  2328    82  6879   672   350  1812   158  5105  4945   170  3914  2042  1966  1020  4899
  [21]  1575  2714  1451   686  1403  3429  7034  3485  3721  3215  5755  2087   160   276  3208  2855  1055  2648  4901  1377
( 이하 생략 )
Colored by Color Scripter
cs

오름차순 정렬

값들이 무작위로 섞여 있어 패턴을 찾기가 힘들다. 오름차순으로 정렬을 해보자.

1
2
3
4
5
> sort(salary)
   [1]   0   0   1   1   1   2   2   3   3   3   4   4   4   4   5   6   6   7   7   7   7   8   8   8   9   9   9  10  10  10
( 이하 생략 )
 [991] 387 387 388 388 388 389 389 390 390 391
[ reached getOption("max.print") -- omitted 9000 entries ]
Colored by Color Scripter
cs

최소, 최대, 중간값 구하기

관측치의 개수가 너무 많아 다 출력이 되지 않는다. 최소, 최대, 중간값을 알아보려면 다음의 함수를 쓰자.

> min(salary)
[1] 0
 
> max(salary)
[1] 86669
 
> median(salary)
[1] 2276

다음 시간에 배울 것

다섯숫자 요약

저작자표시 (새창열림)

'R > R 프로젝트' 카테고리의 다른 글

[ 이토록 쉬운 통계&R 100일 프로젝트 ] 53일차 (0)	2018.07.08
[ 이토록 쉬운 통계&R 100일 프로젝트 ] 52일차 (0)	2018.07.07
[ 이토록 쉬운 통계&R 100일 프로젝트 ] 50일차 (0)	2018.07.05
[ 이토록 쉬운 통계&R 100일 프로젝트 ] 49일차 (0)	2018.07.04
[ 이토록 쉬운 통계&R 100일 프로젝트 ] 48일차 (0)	2018.07.03