R/R 프로젝트

[ 이토록 쉬운 통계&R 100일 프로젝트 ] 52일차

Chipmunks 2018. 7. 7.
728x90

공부 페이지

292 페이지 ~ 293 페이지


배운 개념

연봉 데이터 분위수 찾기

다섯 숫자 요악 중, 최솟값, 최댓값, 중앙값 3개의 값은 확인했다. 25%와 75%에 해당하는 Q1과 Q3값을 계산해보자


1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
> Sys.setlocale('LC_ALL' , 'ko_KR.UTF-8')
[1"ko_KR.UTF-8/ko_KR.UTF-8/ko_KR.UTF-8/C/ko_KR.UTF-8/C"
 
> setwd("~/Documents/Workspace/R/Practice/data")
 
> data = read.csv('salary_data.csv')
 
> salary = data$salary
 
> quantile(salary, 0.9)
 90
6637 
 
> quantile(salary, 0.25)
    25
1194.75 
 
> quantile(salary, 0.75)
    75
4221.25 
cs


summary() 함수로 요약하기

일일이 계산할 필요 없이 summary() 함수 안에 변수를 넣어 주기만 하면 자동으로 다섯 숫자가 계산이 된다.

1
2
3
> summary(salary)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
      0    1195    2276    3140    4221   86669 
cs


합계, 평균, 분산, 표준편차 계산하기

개념은 복잡하지만 계산 자체는 R로 쉽게할 수 있다.

1
2
3
4
5
6
7
8
9
10
11
> sum(salary)
[131404486
 
> mean(salary)
[13140.449
 
> var(salary)
[110782551
 
> sd(salary)
[13283.68
cs


다음 시간에 배울 것

조건, 상자그림 출력하기



댓글