R101 [ 이토록 쉬운 통계&R 100일 프로젝트 ] 100일차 - 끝 공부 페이지340 페이지 ~ 341 페이지 배운 개념다음 지향점데이터 분석을 위해서는 통계 개념을 이해하는 것이 중요하다. 수많은 데이터 분석 도구들이 나왔고 누구든 몇 줄의 명령어가 몇 번의 클릭으로 분석을 해낼 수가 있다. 그러나 내가 확인하고 싶은 차이가 무엇인지, 그 차이를 확인하고 검증하는데 어떤 방법을 써야 하는지 모른다면, 그리고 요약값들과 검정 결과들이 무엇을 의미하는지 모른다면 아무리 꼼꼼하게 잘 정리된 결과라도, 아무리 좋은 도구라도 무용지물이다. 분석가의 생각이나 가치가 담겨 있지 않다면 무의미하다. 분석 결과를 올바르게 해석하려면 통계 개념이 꼭 필요하다. 그렇다고 해서 분석 도구가 필요하진 않다. 요즘 시대에는 분석 도구는 필수다. 손으로 계산하는 시대는 오래 전에 끝이 났다. 데.. R/R 프로젝트 2018. 8. 24. [ 이토록 쉬운 통계&R 100일 프로젝트 ] 99일차 공부 페이지339 페이지 배운 개념Plot 크기 조정하기rpart.plot 함수를 사용할 때, 글자 크기가 잘 보이지 않아 애를 먹었다. 전체적인 plot 크기를 키우기 위해 cex 옵션을 사용했다. 123> par(family="AppleGothic") > rpart.plot(rpart_call, cex=0.4)cs cex 옵션을 조정해서 도형 크기와 글자 크기가 알맞을 때 까지 조정했다. 그 결과 0.4가 적당했다. 그 이하는 글자 크기가 보이지 않았고, 그 이상에서는 도형과 글자 크기가 너무 컸다. 다음 시간에 배울 것다음 지향점 R/R 프로젝트 2018. 8. 23. [ 이토록 쉬운 통계&R 100일 프로젝트 ] 98일차 공부 페이지338 페이지 배운 개념전체 그림 살펴보기 관심 있는 하위 그룹을 선택해서, 결국 치킨을 언제 어디서 가장 많이 시키는지는, 평균 304건으로 가장 평균값이 높은 맨 아래 오른쪽 그룹을 역으로 추적해보면 된다. 주말에 강서구에서 치킨을 주문하는 30대/40대 고객이라는 것을 확인할 수 있다. 다음 시간에 배울 것plot 크기 조정하기 R/R 프로젝트 2018. 8. 22. [ 이토록 쉬운 통계&R 100일 프로젝트 ] 97일차 공부 페이지338 페이지 배운 개념전체 그림 살펴보기 월, 화, 수, 목과 같은 주중에 비해 금, 토, 일 주말에는 약 50% 정도 통화량이 더 많다는 것을 알 수 있다. 마지막 단계에서는 연령대가 다시 등장한다. 확실히 20대에 비해 경제적 상황이 안정적이고 자녀가 있을 확률이 높은 30대, 40대의 주문량이 많다는 것을 확인할 수 있다. 한 번 사용된 변수라고 해서 제외하지 않고 필요하다면 또 사용한다. 트리 모형의 결과를 살펴볼 때, 꼭 위에서부터 그룹을 나누는 과정을 살펴볼 필요는 없다. 관심 있는 하위 그룹을 선택하고 어떤 조건을 가지고 있는지 볼 수도 있다. 다음 시간에 배울 것전체 그림 살펴보기 R/R 프로젝트 2018. 8. 21. [ 이토록 쉬운 통계&R 100일 프로젝트 ] 96일차 공부 페이지338 페이지 배운 개념전체 그림 살펴보기 연령대를 기준으로 나눈 2개의 그룹 각각에서 다시 차이를 크게 만드는 기준을 정해 쪼개진다. 위 예에서는 두 그룹 모두 시군구 변수가 선택됐다. 이후로 나눠진 부분에 대해 4개의 설명 변수 중 차이를 가장 크게 만드는 기준을 정하고 데이터를 나누는 작업을 반복한다. 다음 시간에 배울 것전체 그림 살펴보기 R/R 프로젝트 2018. 8. 20. [ 이토록 쉬운 통계&R 100일 프로젝트 ] 95일차 공부 페이지337 페이지 배운 개념트리 가장 윗 부분 살펴보기 물론, 항상 3개씩 묶는 것은 아니다. 2개-4개, 1개-5개로 묶일 수도 있다. 많은 조합 중 , 두 그룹의 평균 차이를 가장 크게 만들기 때문에 3개-3개가 선택된 것이다. 연령대 외에도 다른 변수들을 사용할 수도 있다. 시군구, 요일, 성별 조합으로도 나눌 수 있지만, 연령대로 나누었을 때가 가장 차이가 크게 나타나기 때문에 선택됐다. 차이를 설명하는 과정에서 변수들 사이에 우선순위가 매겨진다. 다음 시간에 배울 것전체 그림 살펴보기 R/R 프로젝트 2018. 8. 19. [ 이토록 쉬운 통계&R 100일 프로젝트 ] 94일차 공부 페이지337 페이지 배운 개념트리 가장 윗 부분 살펴보기 트리 모형이 가장 먼저 선택한 변수는 연령대이다. 전체 평균 통화 건수 61건 중 연령대가 10대, 50대, 60대 이상인 사람들의 평균 통화건수는 그 절반인 31건이다. 그러나 20대, 30대, 40대의 평균 통화건수는 91건으로 1.5배 늘어났다. 두 그룹을 비교하면, 3배가 차이가 난다. 트리모형은 한 변수를 기준으로 두 개의 그룹으로 나눈다. 위 예에서는 연령대를 3개씩 묶어 두 그룹을 만들었다. 다음 시간에 배울 것트리 가장 윗 부분 살펴보기 - 2 R/R 프로젝트 2018. 8. 18. [ 이토록 쉬운 통계&R 100일 프로젝트 ] 93일차 공부 페이지336 페이지 배운 개념트리모형 시각화하기1> rpart.plot(rpart_call)cs 결과가 상당히 복잡하다. 가장 윗부분부터 살펴보자 다음 시간에 배울 것트리 모형 결과 분석하기 R/R 프로젝트 2018. 8. 17. [ 이토록 쉬운 통계&R 100일 프로젝트 ] 92일차 공부 페이지336 페이지 배운 개념트리 모형 적합하기123456789101112> rpart_call = rpart(통화건수~시군구+연령대+성별+요일, data=call_chicken) > rpart_calln= 8390 node), split, n, deviance, yval * denotes terminal node 1) root 8390 21661930.00 61.12431 2) 연령대=10대,50대,60대이상 4190 1370614.00 31.41575 4) 시군구=강북구,관악구,광진구,구로구,금천구,도봉구,동대문구,동작구,마포구,서대문구,서초구,성동구,성북구,양천구,용산구,은평구,종로구,중구,중랑구 3182 516057.20 25.93652 *(이하 생략)Colored by Color Scrip.. R/R 프로젝트 2018. 8. 16. [ 이토록 쉬운 통계&R 100일 프로젝트 ] 91일차 공부 페이지335 페이지 배운 개념트리 모형 패키지 불러오기모형 적합에 사용되는 rpart 패키지는 자주 사용되기 때문에 R을 설치할 때 자동으로 설치되어 있다. 시각화가 필요한데, 시각화에 필요한 rpart.plot 패키지를 따로 설치해야 한다. 두 패키지를 모두 library() 함수로 불러온다. 123> install.packages("rpart.plot")> library(rpart)> library(rpart.plot)cs 다음 시간에 배울 것트리 모형 적합시키기 R/R 프로젝트 2018. 8. 15. [ 이토록 쉬운 통계&R 100일 프로젝트 ] 90일차 공부 페이지334 페이지 ~ 335 페이지 배운 개념다른차이들의 분산분석 결과 살펴보기1234567891011121314151617181920> summary(aov(통화건수~연령대, data=call_chicken)) Df Sum Sq Mean Sq F value Pr(>F) 연령대 5 8228983 1645797 1027 summary(aov(통화건수~성별, data=call_chicken)) Df Sum Sq Mean Sq F value Pr(>F) 성별 1 138583 138583 54.01 2.18e-13 ***Residuals 8388 21523351 2566 ---Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 > summary(.. R/R 프로젝트 2018. 8. 14. [ 이토록 쉬운 통계&R 100일 프로젝트 ] 89일차 공부 페이지333 페이지 ~ 334 페이지 배운 개념분산분석 결과 살펴보기123456> summary(aov(통화건수~시군구, data=call_chicken)) Df Sum Sq Mean Sq F value Pr(>F) 시군구 24 6265645 261069 141.8 R/R 프로젝트 2018. 8. 13. 이전 1 2 3 4 ··· 9 다음