R/R 프로젝트

[ 이토록 쉬운 통계&R 100일 프로젝트 ] 45일차

Chipmunks 2018. 6. 30.
728x90



공부 페이지

269 페이지 ~ 272 페이지


배운 개념

데이터파일 다운로드

링크 에서 다운로드


names() 함수 실습

names() 함수를 쓰면 데이터에서 변수 이름만 떼어서 살펴볼 수 있다.

1
2
3
4
5
6
7
8
9
10
11
> Sys.setlocale('LC_ALL' , 'ko_KR.UTF-8')
[1"ko_KR.UTF-8/ko_KR.UTF-8/ko_KR.UTF-8/C/ko_KR.UTF-8/C"
 
> setwd("~/Documents/Workspace/R/Practice/data")
 
> subway = read.csv("subway.csv", fileEncoding = "euc-kr")
 
> names(subway)
 [1"역명"     "날짜"     "구분"     "X05.06시" "X06.07시" "X07.08시" "X08.09시" "X09.10시" "X10.11시" "X11.12시" "X12.13시"
[12"X13.14시" "X14.15시" "X15.16시" "X16.17시" "X17.18시" "X18.19시" "X19.20시" "X20.21시" "X21.22시" "X22.23시" "X23.24시"
[23"X00.01시" "X01.02시"
cs


names() 함수와 = 대입 연산자를 활용해서 변수 이름을 바꿀 수도 있다.

1
2
3
4
5
> names(subway) = c("Station""Date""InOut", paste0("H"5:25))
 
> names(subway)
 [1"Station" "Date"    "InOut"   "H5"      "H6"      "H7"      "H8"      "H9"      "H10"     "H11"     "H12"     "H13"    
[13"H14"     "H15"     "H16"     "H17"     "H18"     "H19"     "H20"     "H21"     "H22"     "H23"     "H24"     "H25"    
cs


str() 함수로 데이터 구조 확인하기

이 데이터에 몇 개에 관측치가 있는지, "Date" 라는 변수 속에서 어떤 값들이 있는지 살펴봐야 한다. str() 함수를 실행하면 데이터의 구조를 손쉽게 확인할 수 있다.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
> str(subway)
'data.frame':    7378 obs. of  24 variables:
 $ Station: Factor w/ 119 levels "가락시장(340)",..: 52 52 52 52 52 52 52 52 52 52 ...
 $ Date   : Factor w/ 31 levels "2016-12-01","2016-12-02",..: 1 1 2 2 3 3 4 4 5 5 ...
 $ InOut  : Factor w/ 2 levels "승차","하차"1 2 1 2 1 2 1 2 1 2 ...
 $ H5     : num  411 280 434 255 543 260 372 179 499 465 ...
 $ H6     : num  552 1680 520 1609 467 ...
 $ H7     : num  1792 4629 1695 4504 982 ...
 $ H8     : num  3429 10313 3456 10225 2080 ...
 $ H9     : num  2737 5586 2848 5322 3000 ...
 $ H10    : num  2430 2920 2568 3050 3077 ...
 $ H11    : num  3161 2673 3398 2435 4340 ...
 $ H12    : num  3433 2506 3926 3037 5121 ...
 $ H13    : num  3364 2393 3405 3103 4781 ...
 $ H14    : num  2767 2648 2876 2888 4335 ...
 $ H15    : num  3822 2535 5175 3391 6565 ...
 $ H16    : num  4145 2905 5180 3692 8023 ...
 $ H17    : num  4984 3084 6141 3545 6418 ...
 $ H18    : num  9595 3715 10682 5575 6575 ...
 $ H19    : num  5217 2723 6169 3389 4904 ...
 $ H20    : num  3492 1794 4169 2141 4742 ...
 $ H21    : num  3978 1657 4479 2076 4683 ...
 $ H22    : num  2742 1533 4554 1928 4654 ...
 $ H23    : num  1380 761 1794 1074 1697 ...
 $ H24    : num  198 373 443 547 228 837 46 188 182 274 ...
 $ H25    : num  0 32 0 64 0 131 0 0 0 22 ...
cs


첫 줄을 보면 이 데이터는 data.frame 이라는 형식으로 저장되어 있다. 이어서 관측치 개수를 나타내는 obs 와 변수 개수를 나타내는 variables 를 볼 수 있다. 총 7,378개의 관측치가 있고, 24개의 변수가 있다.


그 아래로 각 변수의 특징이 나온다. subway 데이터 하위에 변수가 있다는 의미로 변수이름 앞에 $가 붙어있다.

Station , Date , InOut 옆에 범주형 변수를 의미하는 Factor 라는 글자를 볼 수 있다.


범주형 변수 속 관측치들이 가질 수 있는 값은 몇 가지 수준으로 정해져 있다. Station 의 경우 119개의 역 중 하나의 값을 가질 수 있다. Date 는 12월 1일부터 31일까지 31개의 값을 가질 수 있다. InOut은 승차와 하차 둘 중 하나의 값을 가질 수 있다. 그래서 Factor 뒤에는 이 변수가 몇 개의 수준을 가지는지를 알려준다. w/ 는 with 를 의미한다. 즉, "InOut"의 "Factor w/ 2 levels" 는 2개의 수준을 가지는 범주형 변수라는 의미다.


앞의 세 변수를 제외한 나머지 변수들은 지하철 이용 승객 수를 의미하므로 숫자라는 뜻에서 num 이 붙어있다.


다음 시간에 배울 것

View() 함수



댓글