R/R 프로젝트

[ 이토록 쉬운 통계&R 100일 프로젝트 ] 55일차

Chipmunks 2018. 7. 10.
728x90



공부 페이지

300 페이지 ~ 301 페이지


배운 개념

하나의 범주형 변수를 요약하기 : 병원을 가장 자주 찾는 사람은 누굴까?

공공데이타포털에서 각 정부부처에서 공개한 데이터들을 열람할 수 있다.


그 중 건강보험공단에서 공개한 100만 건의 진료내역 정보를 살펴보자.


원본 데이터는 2015년에 있었던 약 100만 건의 진료 내역을 담고 있다.


여기서 사용할 데이터는 서울의 외래 진료내역인 약 200만 건의 데이터다.


1
2
3
4
5
6
7
8
9
10
11
12
13
14
> Sys.setlocale('LC_ALL' , 'ko_KR.UTF-8')
[1"ko_KR.UTF-8/ko_KR.UTF-8/ko_KR.UTF-8/C/ko_KR.UTF-8/C"
 
> setwd("~/Documents/Workspace/R/Practice/data")
 
> treat = read.csv('treat.csv', fileEncoding = "euc-kr")
 
> str(treat)
'data.frame':    2016783 obs. of  5 variables:
 $ MONTH    : int  12 12 12 12 12 12 12 12 12 12 ...
 $ AGE      : Factor w/ 18 levels "01_0-4세","02_5-9세",..: 13 16 11 11 11 7 4 1 17 12 ...
 $ SEX      : int  2 1 2 2 2 2 2 2 2 2 ...
 $ DSBJT    : Factor w/ 20 levels "가정의학과","내과",..: 11 11 11 11 11 11 11 19 19 19 ...
 $ MAIN_SICK: Factor w/ 1407 levels "A02","A03","A04",..: 460 446 446 449 449 68 449 724 71 724 ...
cs


원본 데이터에서 5개의 변수를 선택하고 적절히 변환했다.

숫자로 코딩되어 있던 AGE(연령대)와  DSBJT(진료과목)을 건강보험공단의 코딩 표를 참고하여 보기 쉽게 수정했다.

MAIN_SICK(주상병)은 환자가 병원에서 진료를 받을 때 질병의 종류를 구분한 코드다.

str() 함수를 실행한 결과를 살펴볼 때, 수정이 필요한 부분이 있다.

MONTH(수진월)와 SEX(성별)이다. 범주형 변수지만 편의상 int 정수 형식으로 저장되어 있다.

이 변수들을 factor() 함수를 사용해 범주형 변수로 바꾸고 levels() 함수를 사용해 수준 이름도 바꿔보자.

다음 시간에 배울 것

수준 이름 바꾸기



댓글