728x90
공부 페이지
269 페이지 ~ 272 페이지
배운 개념
데이터파일 다운로드
링크 에서 다운로드
names() 함수 실습
names() 함수를 쓰면 데이터에서 변수 이름만 떼어서 살펴볼 수 있다.
1 2 3 4 5 6 7 8 9 10 11 | > Sys.setlocale('LC_ALL' , 'ko_KR.UTF-8') [1] "ko_KR.UTF-8/ko_KR.UTF-8/ko_KR.UTF-8/C/ko_KR.UTF-8/C" > setwd("~/Documents/Workspace/R/Practice/data") > subway = read.csv("subway.csv", fileEncoding = "euc-kr") > names(subway) [1] "역명" "날짜" "구분" "X05.06시" "X06.07시" "X07.08시" "X08.09시" "X09.10시" "X10.11시" "X11.12시" "X12.13시" [12] "X13.14시" "X14.15시" "X15.16시" "X16.17시" "X17.18시" "X18.19시" "X19.20시" "X20.21시" "X21.22시" "X22.23시" "X23.24시" [23] "X00.01시" "X01.02시" | cs |
names() 함수와 = 대입 연산자를 활용해서 변수 이름을 바꿀 수도 있다.
1 2 3 4 5 | > names(subway) = c("Station", "Date", "InOut", paste0("H", 5:25)) > names(subway) [1] "Station" "Date" "InOut" "H5" "H6" "H7" "H8" "H9" "H10" "H11" "H12" "H13" [13] "H14" "H15" "H16" "H17" "H18" "H19" "H20" "H21" "H22" "H23" "H24" "H25" | cs |
str() 함수로 데이터 구조 확인하기
이 데이터에 몇 개에 관측치가 있는지, "Date" 라는 변수 속에서 어떤 값들이 있는지 살펴봐야 한다. str() 함수를 실행하면 데이터의 구조를 손쉽게 확인할 수 있다.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 | > str(subway) 'data.frame': 7378 obs. of 24 variables: $ Station: Factor w/ 119 levels "가락시장(340)",..: 52 52 52 52 52 52 52 52 52 52 ... $ Date : Factor w/ 31 levels "2016-12-01","2016-12-02",..: 1 1 2 2 3 3 4 4 5 5 ... $ InOut : Factor w/ 2 levels "승차","하차": 1 2 1 2 1 2 1 2 1 2 ... $ H5 : num 411 280 434 255 543 260 372 179 499 465 ... $ H6 : num 552 1680 520 1609 467 ... $ H7 : num 1792 4629 1695 4504 982 ... $ H8 : num 3429 10313 3456 10225 2080 ... $ H9 : num 2737 5586 2848 5322 3000 ... $ H10 : num 2430 2920 2568 3050 3077 ... $ H11 : num 3161 2673 3398 2435 4340 ... $ H12 : num 3433 2506 3926 3037 5121 ... $ H13 : num 3364 2393 3405 3103 4781 ... $ H14 : num 2767 2648 2876 2888 4335 ... $ H15 : num 3822 2535 5175 3391 6565 ... $ H16 : num 4145 2905 5180 3692 8023 ... $ H17 : num 4984 3084 6141 3545 6418 ... $ H18 : num 9595 3715 10682 5575 6575 ... $ H19 : num 5217 2723 6169 3389 4904 ... $ H20 : num 3492 1794 4169 2141 4742 ... $ H21 : num 3978 1657 4479 2076 4683 ... $ H22 : num 2742 1533 4554 1928 4654 ... $ H23 : num 1380 761 1794 1074 1697 ... $ H24 : num 198 373 443 547 228 837 46 188 182 274 ... $ H25 : num 0 32 0 64 0 131 0 0 0 22 ... | cs |
첫 줄을 보면 이 데이터는 data.frame 이라는 형식으로 저장되어 있다. 이어서 관측치 개수를 나타내는 obs 와 변수 개수를 나타내는 variables 를 볼 수 있다. 총 7,378개의 관측치가 있고, 24개의 변수가 있다.
그 아래로 각 변수의 특징이 나온다. subway 데이터 하위에 변수가 있다는 의미로 변수이름 앞에 $가 붙어있다.
Station , Date , InOut 옆에 범주형 변수를 의미하는 Factor 라는 글자를 볼 수 있다.
범주형 변수 속 관측치들이 가질 수 있는 값은 몇 가지 수준으로 정해져 있다. Station 의 경우 119개의 역 중 하나의 값을 가질 수 있다. Date 는 12월 1일부터 31일까지 31개의 값을 가질 수 있다. InOut은 승차와 하차 둘 중 하나의 값을 가질 수 있다. 그래서 Factor 뒤에는 이 변수가 몇 개의 수준을 가지는지를 알려준다. w/ 는 with 를 의미한다. 즉, "InOut"의 "Factor w/ 2 levels" 는 2개의 수준을 가지는 범주형 변수라는 의미다.
앞의 세 변수를 제외한 나머지 변수들은 지하철 이용 승객 수를 의미하므로 숫자라는 뜻에서 num 이 붙어있다.
다음 시간에 배울 것
View() 함수
'R > R 프로젝트' 카테고리의 다른 글
[ 이토록 쉬운 통계&R 100일 프로젝트 ] 47일차 (0) | 2018.07.02 |
---|---|
[ 이토록 쉬운 통계&R 100일 프로젝트 ] 46일차 (0) | 2018.07.01 |
[ 이토록 쉬운 통계&R 100일 프로젝트 ] 44일차 (0) | 2018.06.29 |
[ 이토록 쉬운 통계&R 100일 프로젝트 ] 43일차 (0) | 2018.06.28 |
[ 이토록 쉬운 통계&R 100일 프로젝트 ] 42일차 (0) | 2018.06.27 |
댓글