R/R 프로젝트101 [ 이토록 쉬운 통계&R 100일 프로젝트 ] 76일차 공부 페이지321 페이지 배운 개념상자그림 해석 전체적으로 아들키의 상자그림이 아빠 키의 상자그림보다 조금 더 높이 걸려 있다. 즉, 세대가 지나면서 전반적으로 키가 커진 것을 알 수 있다. 따라서 중앙값도 커지고, 평균도 높아졌다. 최댓값도 더 커졌지만, 그러나 최솟값은 더 작아졌다. 두 상자그림에서 키 분포의 특징을 살펴볼 수 있다. 연봉 데이터와는 달리 중간 50% 구간의 간격은 좁고, 위아래 구간의 간격이 넓은 것이 보인다. 키가 많이 작거나 많이 큰 일부를 제외하면 대부분 중앙값 근처의 무난하 키를 가지고 있는 좌우 대칭 분포 형태를 보인다. 다음 시간에 배울 것아들의 키 히스토그램으로 살펴보기 R/R 프로젝트 2018. 7. 31. [ 이토록 쉬운 통계&R 100일 프로젝트 ] 75일차 공부 페이지320 페이지 배운 개념아빠 키와 아들 키 Summary() 함수로 출력하기12345678> summary(heights) father son Min. :149.9 Min. :148.6 1st Qu.:167.1 1st Qu.:170.0 Median :172.1 Median :174.3 Mean :171.9 Mean :174.5 3rd Qu.:176.8 3rd Qu.:179.0 Max. :191.6 Max. :199.0 cs 상자 그림으로 아버지 키 표현하기상자 그림으로는 하나의 변수밖에 그릴 수 없다. 아버지 키와 아들 키, 두 변수 각각 상자그림으로 그려야 한다.그러나, R의 plot() 함수는 두 상자 그림을 나란하게 그려준다. 1> boxplot(heights)cs 다음 시간에 배울 것상.. R/R 프로젝트 2018. 7. 30. [ 이토록 쉬운 통계&R 100일 프로젝트 ] 74일차 공부 페이지318 페이지 ~ 319 페이지 배운 개념두 개의 연속형 변수의 관계 찾기과연 아빠의 키는 아들 키에 얼마나 큰 영향을 줄까? 이전에 살펴본, 피어슨의 데이터를 불러와보자 123456789101112131415161718> Sys.setlocale('LC_ALL' , 'ko_KR.UTF-8')[1] "ko_KR.UTF-8/ko_KR.UTF-8/ko_KR.UTF-8/C/ko_KR.UTF-8/C" > setwd("~/Documents/Workspace/R/Practice/data") > heights = read.csv('heights.csv', fileEncoding = "euc-kr") > head(heights) father son1 165.2 151.82 160.7 160.63 165.0 .. R/R 프로젝트 2018. 7. 29. [ 이토록 쉬운 통계&R 100일 프로젝트 ] 73일차 공부 페이지317 페이지 배운 개념대응분석 그림 해석 50세 이상의 연령대도 함께 모여있다. 이 연령대에서의 주상병 분포 패턴이 비슷하다는 의미이다. 50세 이상의 연령대와 N18, I10, E11 상병이 가까운 것은 다른 상병이나 연령대보다 상대적으로 더 밀접한 관계가 있다는 것을 의미한다. J20의 경우 낮은 연령대와 관련이 깊고, K21과 K29가 위쪽에 있는 것은 함께 위쪽에 있는 중간 연령대와 비교적 관련이 깊다는 것을 의미한다. 즉, 대응분석은 같은 변수 속에 있는 서로 비슷한 패턴을 보이는 수준들을 묶어주고, 또 다른 변수에 있는 서로 비중이 높아 관련이 깊은 수준을 묶어준다. 다음 시간에 배울 것두 개의 연속형 변수의 관계 찾기 R/R 프로젝트 2018. 7. 28. [ 이토록 쉬운 통계&R 100일 프로젝트 ] 72일차 공부 페이지317 페이지 배운 개념대응분석 그림 해석 첫 번째 축에 적힌 82.7%는 진료과목과 연령대로 엉켜 있는 모든 차이의 82.7%를 설명한다는 것을 의미한다. 어떤 정보들이 있을까? 파란색 점들은 MAIN_SICK 수준들이고, 빨간 점들은 연령대이다. 왼쪽에 따라 N18, I10, E11이 모여 있는데, 이 3개의 주상병은 연령대 구성이 비슷하다는 의미이다. 다음 시간에 배울 것대응 분석 그림 해석 (3) R/R 프로젝트 2018. 7. 27. [ 이토록 쉬운 통계&R 100일 프로젝트 ] 71일차 공부 페이지317 페이지 배운 개념대응분석 그림 해석 첫 번째(가로) 축에는 82.7%, 두 번째(세로) 축에는 12.9% 라는 숫자가 적혀 있다. 직접 행 백분율과 열 백분율을 살펴보면, 연령대별로 상대적으로 비중이 높은 주상병, 혹은 특정 주상병에서 상대적으로 비중이 높은 연령대를 확인할 수 있다. 어린이는 급성기관지염(J20), 중년은 고혈압(I20)이나 당뇨(11), 노년은 신장병(N18)과 관련이 깊다. 반대로 관련이 없거나, 크진 않지만 조금 관련이 있거나 역시 크진 않지만 조금 덜 관련이 있을 수도 있다. 다음 시간에 배울 것대응분석 그림 해석 (2) R/R 프로젝트 2018. 7. 26. [ 이토록 쉬운 통계&R 100일 프로젝트 ] 70일차 공부 페이지316 페이지 배운 개념대응분석 R 실습12345> installed.packages("ca") > library(ca) > plot(ca(t_MS_AGE2))cs Install.packages() 함수로 ca 패키지를 설치하고 library() 함수로 불러옵니다. 그리고 만든 교차표를 ca() 함수에 넣고 plot() 함수로 그림을 그린다. 다음 시간에 배울 것대응분석 그림 해석 R/R 프로젝트 2018. 7. 25. [ 이토록 쉬운 통계&R 100일 프로젝트 ] 69일차 공부 페이지315 페이지 배운 개념대응분석 (Correspondence analysis)교차표의 행 백분율과 열 백분율을 고려해 서로 비슷하거나 관련이 깊은 수준들을 재표현하는 방법 다음 시간에 배울 것대응분석 실행 R/R 프로젝트 2018. 7. 24. [ 이토록 쉬운 통계&R 100일 프로젝트 ] 68일차 공부 페이지315 페이지 배운 개념주상병별 진료건수 열지도 해석 MAIN_SICK 상병 한글명 N18 만성 신장병 K29 위염 및 십이지장염 K21 위-식도역류병 J20 급성 기관지염 I10 본태성 고혈압 E11 2형 당뇨병 젊은 사람들은 다른 곳은 비교적 괜찮지만 스트레스 요인인지 위염 병이 많다. 어린 아이들은 급성 기관지염(감기) 때문에 내과를 찾는다. 어른들은 각종 성인병과 만성질환으로 내과를 찾는다. 중년에 접어들수록 고혈압과 당뇨로 병원을 찾고, 노년에는 신장병으로 진료를 받는 사람이 많아 보인다. 다음 시간에 배울 것교차표 속에 숨어 있는 수주 간의 연관성을 살펴볼 수 있는 방법, 대응분석 R/R 프로젝트 2018. 7. 23. [ 이토록 쉬운 통계&R 100일 프로젝트 ] 67일차 공부 페이지314 페이지 배운 개념rowSums() 함수로 주상병별 진료건수 확인하기12345678> rowSums(t_MS_AGE) A02 A03 A04 A05 A06 A07 A08 A09 A15 A16 A17 A18 A19 A26 A31 A35 A37 A38 A39 A40 4 2 2520 164 13 3 1650 11988 535 456 0 156 11 1 244 0 2 18 0 3(이하 생략) > t_MS_AGE2 = t_MS_AGE[rowSums(t_MS_AGE)>20000, ] > heatmap(t_MS_AGE2, col=colorRampPalette(c('white', 'dodgerblue'))(100), scale='none', Rowv=NA, Colv=NA, cexRow=1.5, cexCo.. R/R 프로젝트 2018. 7. 22. [ 이토록 쉬운 통계&R 100일 프로젝트 ] 66일차 공부 페이지313 페이지 배운 개념내과 진료과목 자세히 보기123456> internal = subset(treat, DSBJT=='내과') > t_MS_AGE=table(internal$MAIN_SICK, internal$AGE) > dim(t_MS_AGE)[1] 1407 18Colored by Color Scriptercs 내과 진료건수에서 MAIN_SICK 와 AGE 의 관계에서 연령에 따라 어떤 병에 많이 걸리는지를 확인할 수 있다. MAIN_SICK 주상병의 종류가 1,407 개로 너무 많아 그림으로 표현하기 힘들다. 진료건수가 많은 주상병은 다음과 같이 rowSums() 함수로 알 수 있다. 다음 시간에 배울 것rowSums() 함수 R/R 프로젝트 2018. 7. 21. [ 이토록 쉬운 통계&R 100일 프로젝트 ] 65일차 공부 페이지312 페이지 배운 개념행백분율로 열지도 그리기1> heatmap(prop.table(t_DSBJT_SEX, 1), col=colorRampPalette(c('white', 'dodgerblue'))(100), scale='none', Rowv=NA, Colv=NA, cexRow=1, cexCol=2)cs 행 백분율로 진료과목별 성비를 열지도를 나타내, 더 정확한 정보를 알 수 있다. 여성의 색깔이 전반적으로 남성의 색깔보다 짙은 것을 보면 여성 환자의 비율이 많다고 볼 수 있다. 당연히 산부인과는 여성 환자의 비율이 거의 100%에 가까우므로 아주 짙은 색을 보인다. 반면 남성의 비율이 높은 진료과목은 비뇨기과, 성형외과, 흉부외과가 있다. 다음 시간에 배울 것진료과목 중 내과만 자세히 보기 R/R 프로젝트 2018. 7. 20. 이전 1 2 3 4 5 6 ··· 9 다음