R/R 프로젝트101 [ 이토록 쉬운 통계&R 100일 프로젝트 ] 88일차 공부 페이지333 페이지 배운 개념구별 상자그림 그려보기123> par(family="AppleGothic") > boxplot(통화건수~시군구, data=call_chicken, las=2)cs 구별 통화건수의 차이가 클 뿐 아니라, 매우 다양한 분포를 보여준다. 그룹의 역할을 하는 자치구별로 치킨업종 통화건수가 다르다고 볼 수 있다. 분산분석 결과는 어떨까? 다음 시간에 배울 것분산분석 결과 살펴보기 R/R 프로젝트 2018. 8. 12. [ 이토록 쉬운 통계&R 100일 프로젝트 ] 87일차 공부 페이지332 페이지 배운 개념시군구에 따라 치킨 주문 통화건수에 차이가 있는지 살펴보기123456789101112131415161718192021222324252627> aggregate(통화건수 ~ 시군구, data=call_chicken, sum) 시군구 통화건수1 강남구 356552 강동구 236563 강북구 195824 강서구 474815 관악구 311516 광진구 84427 구로구 175718 금천구 113279 노원구 2626710 도봉구 827611 동대문구 1301312 동작구 1180713 마포구 1838214 서대문구 2277215 서초구 2542216 성동구 1623517 성북구 1932118 송파구 3033819 양천구 1035420 영등포구 3015221 용산구 1812922.. R/R 프로젝트 2018. 8. 11. [ 이토록 쉬운 통계&R 100일 프로젝트 ] 86일차 공부 페이지331 페이지 배운 개념SK텔레콤의 통화량을 바탕으로 한 달간 서울시의 25개 자치구/일일/연령대/성별에 따른 치킨 업종 통화건수 데이터 불러오기123456789101112131415> Sys.setlocale('LC_ALL' , 'ko_KR.UTF-8')[1] "ko_KR.UTF-8/ko_KR.UTF-8/ko_KR.UTF-8/C/ko_KR.UTF-8/C" > setwd("~/Documents/Workspace/R/Practice/data") > call_chicken = read.csv('call_chicken.csv', fileEncoding = "euc-kr") > head(call_chicken) 기준일 요일 시군구 연령대 성별 통화건수1 20170201 수 강남구 10대 남 552 2.. R/R 프로젝트 2018. 8. 10. [ 이토록 쉬운 통계&R 100일 프로젝트 ] 85일차 공부 페이지330 페이지 배운 개념그룹별 평균 상자그림 해석살추제 A, B, F가 확실히 전반적으로 성능이 좋아보인다. 이 상자그림만으로 살충제에 성능 차이가 있다고 판단할 순 없다. 분산분석을 통해 spray라는 변수가 count의 차이를 충분히 잘 설명하고 있는지 확인해야 한다. 분산분석 (Analysis Of Variance) 하기aov() 함수를 사용한다. 12345678> aov_spray = aov(count ~ spray, data = InsectSprays) > summary(aov_spray) Df Sum Sq Mean Sq F value Pr(>F) spray 5 2669 533.8 34.7 R/R 프로젝트 2018. 8. 9. [ 이토록 쉬운 통계&R 100일 프로젝트 ] 84일차 공부 페이지328 페이지 ~ 329 페이지 배운 개념살충제별 성능 차이 데이터, 그룹에 따라 데이터를 요약해보기12345678> aggregate(count ~ spray, data=InsectSprays, mean) spray count1 A 14.5000002 B 15.3333333 C 2.0833334 D 4.9166675 E 3.5000006 F 16.666667Colored by Color Scriptercs "data=" 옵션에 데이터 이름을 넣고 앞쪽에는 모형식을 적는다.궁금한 것은 살충제라는 그룹마다 죽은 벌레 수이기 때문에, 벌레 수 count가 먼저 나온다. ~ 다음으로 살충제 spray가 붙는다. 제일 마지막에는 그룹별로 계산할 함수를 적는다. 그룹별 평균을 계산하기 위해 "mean".. R/R 프로젝트 2018. 8. 8. [ 이토록 쉬운 통계&R 100일 프로젝트 ] 83일차 공부 페이지327 페이지 ~ 328 페이지 배운 개념차이를 설며하는 간단한 통계 모형 살펴보기주변에서 가장 흔한 변수의 관계는 하나의 연속형 변수와 하나의 범주형 변수다. 바로 그룹별 평균을 비교하는 일이다. "InsectSprays"를 R 콘솔창에 입력하면, 앞서 살펴본 6개의 살충제별 성능 차이를 정리한 데이터를 확인할 수 있다. 123456> InsectSprays count spray1 10 A2 7 A3 20 A4 14 Acs 다음 시간에 배울 것그룹에 따라 데이터를 요약해보기 R/R 프로젝트 2018. 8. 7. [ 이토록 쉬운 통계&R 100일 프로젝트 ] 82일차 공부 페이지327 페이지 배운 개념회귀모형, 결정계수 살펴보기12345678910111213141516171819> summary(lm_heights) Call:lm(formula = son ~ father, data = heights) Residuals: Min 1Q Median 3Q Max -22.5957 -3.8614 0.0091 4.1230 22.7570 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 86.10257 4.65558 18.49 R/R 프로젝트 2018. 8. 6. [ 이토록 쉬운 통계&R 100일 프로젝트 ] 81일차 공부 페이지326 페이지 배운 개념summary() 함수로 모형 요약하기12345678910111213141516171819> summary(lm_heights) Call:lm(formula = son ~ father, data = heights) Residuals: Min 1Q Median 3Q Max -22.5957 -3.8614 0.0091 4.1230 22.7570 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 86.10257 4.65558 18.49 R/R 프로젝트 2018. 8. 5. [ 이토록 쉬운 통계&R 100일 프로젝트 ] 80일차 공부 페이지325 페이지 배운 개념간단한 회귀모형 만들기lm() 함수로 간단히 회귀모형을 만들어보자 1> lm_heights = lm(son ~ father, data=heights)cs data= 옵션에 우리가 사용할 데이터 이름을 적는다. 그 앞에 모형식(Formula)을 만든다. 유전적인 영향으로 아빠 키가 아들 키에 영향을 주었을 것이라고 생각한다. 그래서 son, 아들 키가 관심 변수가 된다. 그리고 아빠 키로 그 관심 변수를 설명하고자 한다. 이 관계를 son ~ father 으로 표현한다. 다음 시간에 배울 것summary() 함수로 모형 요약하기 R/R 프로젝트 2018. 8. 4. [ 이토록 쉬운 통계&R 100일 프로젝트 ] 79일차 공부 페이지324 페이지 배운 개념사분면 해석 제1사분면은 아빠와 아들 모두 평균보다 키가 큰 가족이다. 그와 대각선 반대에 위치한 제3사분면은 아빠와 아들 모두 평균보다 키가 작은 가족이다. 이 두 집단은 완전히 달라 보이지만, '아들의 키는 아빠의 키에 영향을 받는다' 는 의미를 가지고 있다. 반면 제2, 4사분면의 점들은 아빠와 아들 중 한쪽은 평균보다 크지만 나머지 한쪽은 평균보다 작아서 제1, 3사분면과는 반대로 '아들의 키는 아빠의 키에 영향을 받지 않는다' 는 의미를 지니다. 눈으로 보기에도 제1, 3사분면에 관측치가 많아 보인다. 정말 그런지 상관계수를 계산해보자. cor() 함수로 상관계수 구하기1234> cor(heights) father sonfather 1.0000000 0.5010.. R/R 프로젝트 2018. 8. 3. [ 이토록 쉬운 통계&R 100일 프로젝트 ] 78일차 공부 페이지322 페이지 ~ 323 페이지 배운 개념산점도 그리기1> plot(heights, pch=16, col=rgb(0.2, 0.2, 0.2, 0.5))cs 두 개의 상자그림으로는 두 변수의 관계를 알아낼 수 있다. 관계를 알아내기 위해서는 요약하기 전의 값을 살펴봐야 한다. 두 변수의 값을 그대로 좌표로 활용한 산점도를 그려보자. 첫 번째 변수 father를 가로축(x축) 좌표로, 두 번째 변수 son을 세로축(y축) 좌표로 활용해서 2차원 공간에 점을 찍는다. 관측치의 개수인 1,078개의 점이 찍히고, 이 점이 만들어내는 패턴으로 두 변수의 관계를 찾아보자. pch= 옵션으로 점 모양을 바꾸고, col= 옵션과 rgb() 함수를 활요해 불투명한 회색으로 표현했다. 보조선 추가하기 좀 더 효과.. R/R 프로젝트 2018. 8. 2. [ 이토록 쉬운 통계&R 100일 프로젝트 ] 77일차 공부 페이지321 페이지 배운 개념아들의 키 히스토그램으로 살펴보기1> hist(heights$son)cs 다음 시간에 배울 것산점도 그리기 R/R 프로젝트 2018. 8. 1. 이전 1 2 3 4 5 ··· 9 다음