728x90
공부 페이지
300 페이지 ~ 301 페이지
배운 개념
하나의 범주형 변수를 요약하기 : 병원을 가장 자주 찾는 사람은 누굴까?
공공데이타포털에서 각 정부부처에서 공개한 데이터들을 열람할 수 있다.
그 중 건강보험공단에서 공개한 100만 건의 진료내역 정보를 살펴보자.
원본 데이터는 2015년에 있었던 약 100만 건의 진료 내역을 담고 있다.
여기서 사용할 데이터는 서울의 외래 진료내역인 약 200만 건의 데이터다.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 | > Sys.setlocale('LC_ALL' , 'ko_KR.UTF-8') [1] "ko_KR.UTF-8/ko_KR.UTF-8/ko_KR.UTF-8/C/ko_KR.UTF-8/C" > setwd("~/Documents/Workspace/R/Practice/data") > treat = read.csv('treat.csv', fileEncoding = "euc-kr") > str(treat) 'data.frame': 2016783 obs. of 5 variables: $ MONTH : int 12 12 12 12 12 12 12 12 12 12 ... $ AGE : Factor w/ 18 levels "01_0-4세","02_5-9세",..: 13 16 11 11 11 7 4 1 17 12 ... $ SEX : int 2 1 2 2 2 2 2 2 2 2 ... $ DSBJT : Factor w/ 20 levels "가정의학과","내과",..: 11 11 11 11 11 11 11 19 19 19 ... $ MAIN_SICK: Factor w/ 1407 levels "A02","A03","A04",..: 460 446 446 449 449 68 449 724 71 724 ... | cs |
원본 데이터에서 5개의 변수를 선택하고 적절히 변환했다.
숫자로 코딩되어 있던 AGE(연령대)와 DSBJT(진료과목)을 건강보험공단의 코딩 표를 참고하여 보기 쉽게 수정했다.
MAIN_SICK(주상병)은 환자가 병원에서 진료를 받을 때 질병의 종류를 구분한 코드다.
str() 함수를 실행한 결과를 살펴볼 때, 수정이 필요한 부분이 있다.
MONTH(수진월)와 SEX(성별)이다. 범주형 변수지만 편의상 int 정수 형식으로 저장되어 있다.
이 변수들을 factor() 함수를 사용해 범주형 변수로 바꾸고 levels() 함수를 사용해 수준 이름도 바꿔보자.
다음 시간에 배울 것
수준 이름 바꾸기
'R > R 프로젝트' 카테고리의 다른 글
[ 이토록 쉬운 통계&R 100일 프로젝트 ] 57일차 (0) | 2018.07.12 |
---|---|
[ 이토록 쉬운 통계&R 100일 프로젝트 ] 56일차 (0) | 2018.07.11 |
[ 이토록 쉬운 통계&R 100일 프로젝트 ] 54일차 (0) | 2018.07.09 |
[ 이토록 쉬운 통계&R 100일 프로젝트 ] 53일차 (0) | 2018.07.08 |
[ 이토록 쉬운 통계&R 100일 프로젝트 ] 52일차 (0) | 2018.07.07 |
댓글