다람쥐 개발 일상 블로그

R/R 프로젝트101

[ 이토록 쉬운 통계&R 100일 프로젝트 ] 16일차 공부 페이지122 페이지 ~ 133 페이지 배운 개념AB 테스트여러 개를 만들고 사람들의 반응을 살피는 것. 분산분산은 설명 변수로 설명할 수 있는 부분과 도저히 설명할 수 없는 부분으로 나눔. 설명 변수가 관측치들의 차이를 얼마나 자세히 설명할 수 있는가에 따라 설명 변수의 유용성을 판단할 수 있음. 설명할 수 있는 부분과 도저히 설명할 수 없는 부분이 어느 비율로 있는지 확인할 필요가 있음. 분산 분석이 필요 분산분석첫번째. 모든 그룹의 모든 숫자의 평균을 구함. 이를 통해서 각 실제값과 평균의 차이의 제곱합을 구함. 두번째. 자신이 속한 그룹의 평균값을 구함. 각 그룹의 값을 그것의 평균값으로 모두 대체. 모든 숫자 평균과 실제값과의 차이의 제곱합을 구함 세번째. 실제값과 그룹 평균의 차이의 제곱함.. R/R 프로젝트 2018. 6. 1.

[ 이토록 쉬운 통계&R 100일 프로젝트 ] 15일차 공부 페이지110 페이지 ~ 121 페이지 배운 개념분할 정복(Divide and conquer)데이터를 여러 개의 작은 부분을 쪼개고, 나뉜 부분별로 분석 하는 방법 의사결정나무 모형모든 설명 변수가 아니라 중요한 변수들만 선택해서 차이를 설명함. 그 방법을 의사결정나무로 표현함.가장 중요한 단 하나의 변수만 선택해서 조건을 만들어 가지를 뻗는다. 그 다음 중요한 변수를 선택해 또 가지를 뻗는다. 그리고 적절한 순간이 오면 가지치기를 해서 의미 없는 잔가지를 덜어낸다. 타이타닉 예시로 의사결정나무 모형 과정을 살펴봤다. 큰 차이를 만들어내는 설명 변수로 조건을 만들어 가지를 뻗어갔다. 의사결정나무 모형을 구현하는 알고리즘은 복잡하지만, 결과는 직관적이고 이해하기가 쉽다. 비교적 최근 이론이다. 다음 시.. R/R 프로젝트 2018. 5. 31.

[ 이토록 쉬운 통계&R 100일 프로젝트 ] 14일차 공부 페이지103 페이지 ~ 109 페이지 배운 개념조건부 확률과 조건부 평균'설명 변수'를 활용해서 조건을 설정하고 계산한 확률이나 평균 심슨의 역설책 예제에선 남자와 여자의 전체 합격률 중, 여자의 합격률이 현저히 낮다. 그러나 '학과'라는 변수가 하나 추가되어 좀 더 세분화된 합격률을 보여준다. 학과 변수가 추가되고 보니 A학과와 B학과 모두 여자의 합격률이 더 높다. 두 학과 모두 100명의 학생이 지원했는데 A학과는 82명이 합격을, B학과는 28명만 합격을 했다. 그런데 여학생들의 80%가 B학과의 지원을 했다. 즉, 대학의 차별이 아니라 여학생들의 선택이 만들어 낸 착시 효과다. 결론데이터 분석은 차이를 확인하고 설명하는 과정. 평균이나 교차표를 계산하면 관심 변수의 특징을 잘 설명할 수 있.. R/R 프로젝트 2018. 5. 30.

[ 이토록 쉬운 통계&R 100일 프로젝트 ] 13일차 공부 페이지88 페이지 ~ 102 페이지 배운 개념교차표 (Contingency Table)범주형 변수를 표현하는 2차원 표 행 백분율과 열 백분율행 백분율 : 행 합계를 1로 봤을 때 각 열의 비중이 얼마인지 계산한 것열 백분율 : 열 합계를 1로 봤을 때 각 행의 비중이 얼마인지 계산한 것 열지도 (Heatmap)숫자만으로는 한 눈에 비교가 힘들다. 특히 범주형 변수에 수준이 많을 때는 더더욱.그래서 그림으로 한 눈에 보기 편하게 만든다. 예를 들어 가장 작은 숫자를 0, 가장 큰 숫자를 1로 보고 색의 진하기를 활용해, 교차표를 타일 그림으로 바꾼다. 행 또는 열 백분율로 계산한 교차표를 열지도로 만들면 효과적으로 정보를 확인할 수 있다. 독립 (Independence)종속(Dependence) :.. R/R 프로젝트 2018. 5. 29.

[ 이토록 쉬운 통계&R 100일 프로젝트 ] 12일차 공부 페이지76 페이지 ~ 87 페이지 배운 개념산점도(Scatter plot)두 연속형 변수를 2차원 공간으로 표현하는 방법 공분산(Covariance)산점도에서 각 사분면에 있는 관측치들의 사각형 면적의 평균을 구한 것.x평균과 y평균이 공간을 4등분하고 제1, 3 사분면과 제2, 4 사분면 중 어느 쪽에 얼마나 영향력이 큰 관측치들이 있는지에 따라 {q}_{xy}가 달라진다. 공분산의 값이 양수 : 양의 상관관계가 있다. 두 변수가 함께 크거나 함께 작은 일정한 패턴이 있는 것.경제학에서의 '보완재'의 개념과 비슷하다. 공분산의 값이 음수 : 음의 상관관계가 있다. 변수 하나가 커지면 나머지 하나가 작아진다.경제학에서의 '대체제'의 개념과 비슷하다. 예시에서의 공분산을 구해보면 25 cm^2 이다... R/R 프로젝트 2018. 5. 28.

[ 이토록 쉬운 통계&R 100일 프로젝트 ] Day 11. 범인은 이 안에 있다 차이는 아무 이유 없이 그냥 벌어지는 게 아니다. 반드시 원인이 있다. 그 원인은 바로 데이터 안에 있다. 동전을 10번 던졌을 때 왜 앞면이 6번 나왔는지, 대선 후보마다 득표율이 왜 차이가 있는지 의문을 가진다. 통계 사건은 이미 지나가 과거 속에 있다. 그 순간을 기록한 데이터들을 가지고 있다. 데이터 속에 변수들이 있다. 데이터 분석은 변수들을 활용해 논리적으로 차이를 설명하는 과정이다. 첫 단계는 변수 간의 관계 탐색이다. 하나의 변수만 아니라, 두 개 이상의 변수들이 서로 어떤 관계를 가지는지 살펴봐야 한다.데이터 속에 있는 여러 변수 중 차이를 확인하고 설명하려 하는 변수를 관심 변수라고 한다.관심 변수는 개수가 몇 개든, 아예 없더라도 문제는 없다. 나머지 변수들을 이 관심 변수의 차이를 .. R/R 프로젝트 2018. 4. 15.

[ 이토록 쉬운 통계&R 100일 프로젝트 ] Day 10. 0.000012%의 꿈, 로또 45개의 숫자 중 6개를 뽑는 방법의 가짓수는 중고등학교 때 배운 조합을 쓰면 다음과 같다. 8,145,060 개의 번호 중 꼭, 반드시 하나는 당첨 번호가 나오므로 내가 선택한 번호가 당첨될 가능성은 1/8,145,060, 약 0.000012%가 된다. 당첨 번호 5개와 보너스 번호를 맞혀야 하는 2등은 6가지, 당첨 번호 5개를 맞혀야 하는 3등은 228가지, 4개를 맞혀야 하는 4등은 11,115가지, 3개를 맞혀야 하는 5등은 182,780 가지 숫자 조합이 가능하다. 확률을 계산해보면 5등이 당첨될 확률은 2.2%고 등수에 상관없이 당첨될 확률은 2.4%이다. 확률이 데이터 분석에 어떻게 활용될까? 확률 100% 확신할 수 있는 일은 과거 뿐이다. 항상 100%이므로 확률을 계산하는 의미가 없다.. R/R 프로젝트 2018. 4. 14.

[ 이토록 쉬운 통계&R 100일 프로젝트 ] Day 9. 25% 먹고 싶은 거 먹어, 난 짜장 수준 : 범주형 변수가 가질 수 있는 한정적인 값들. 동전 던지기를 예를 들면, '앞'과 '뒤'가 그것이다. 연속형 변수는 줄을 세워 다섯 숫자를 찾고 평균이나 표준편차를 계산해서 설명했지만, 범주형 변수는 수준별로 몇 개의 관측치가 있는지만 세면 된다. 동전을 10개 던져서 그 결과가 앞면이 6개가 있고, 뒷면이 4개가 있다. 이를 그림으로 쉽게 표현할 수 있다. 파이 차트와 막대그래프로 표현한다. 아래 그림이 파이 차트이다. 수준들이 원 모양의 파이 하나를 두고 각각의 비중에 따라 조각을 나눠 갖는다. 중심각의 크기로 전체 중에서 각 수준의 비중이 얼마만큼인지 표현한다. 다음은 막대그래프(Bar plot)이다. 막대그래프는 수준별로 관측치의 수만큼 막대를 높이 쌓아 표현한다. 막대가 높을수록 많은 관.. R/R 프로젝트 2018. 4. 11.

[ 이토록 쉬운 통계&R 100일 프로젝트 ] Day 8. 20% 물수능과 불수능 100점이 모두 똑같은 100점은 아닙니다. 100점보다 나은 80점이 있을 수도 있죠. 연도별 수능 수리가형 원점수 등급 기준점수 2011년 수능은 대표적인 불수능이다. 수리가형은 1등급 커트라인이 79점이었다. 7점이 더 깎인 72점을 받아도 2등급이다. 반면 대표적인 물수능이었던 2015년의 1등급 기준은 100점이다. 한 문제라도 틀리면 바로 2등급이고 꽤 높은 점수인 95점을 받아도 3등급으로 떨어지는 무시무시한 결과이다. 똑같이 90점을 받았더라도 2011년의 90점은 1등급 중에서도 꽤 높은 점수에 속하는 반면 2015년의 90점은 3등급 기준 점수에 간신히 걸칠 수 있다. 이렇게 난이도에 따라서 점수 분포가 매번 달라지기 때문에 절대적인 점수를 사용하기 어렵다. 그래서 대안적인 점수 혹은 .. R/R 프로젝트 2018. 4. 9.

[ 이토록 쉬운 통계&R 100일 프로젝트 ] Day 7. 15% 더치페이와 N빵 평균(Mean)평균 : 어떤 변수의 합계가 고정되어 있을 때 모든 관측치가 똑같이 나눠 가질 수 있는 값 수식은 다음과 같다. 평균 값이 나오자마자, 평균보다 큰 쪽과 작은 쪽으로 나뉘어지게 된다. 작은 쪽은 손해를 본 쪽이고, 큰 쪽은 이득을 본 쪽이다. 한쪽이 손해 보는 양의 합만큼 정확히 다른 한쪽이 이득을 본 셈이다. 분산(Variance)분산 : 평균에서 떨어져 있는 거리를 숫자로 계산한 것수식은 다음과 같다. 1 단계 : 각각의 관측치에서 평균을 뺀다. 평균으로부터 얼마나 차이가 나는지를 계산한다. 이를 편차라고 한다. 2단계 : 1단계에서 계산한 값을 제곱한다. +2 든 -2든 제곱을 하면 모두 +4가 된다. 3단계 : 모든 n개 관측치에 대해 똑같은 계산을 하고 그 결과를 모두 더한다. 분.. R/R 프로젝트 2018. 4. 8.

[ 이토록 쉬운 통계&R 100일 프로젝트 ] Day 6. 10% 순서대로 한줄서기 (2) 상자그림50점부터 100점까지의 수직선 위에 101명의 점수를 하나씩 세로 막대(|)로 표시하면 다음과 같다. 막대가 몰려 있는 구간과 널찍이 떨어져 있는 곳도 있다. 여전히 복잡하다.다섯 숫자 요약을 사용한 그림은 다음과 같다. 다섯 숫자 요약은 데이터를 같은 비율로 4등분하여 4개의 구간을 만듦.따라서 각 구간에는 관측치들이 25%씩 들어가 있다.즉, 25명의 연습생 점수가 들어가 있는 셈이다. 구간의 길이가 모두 똑같지 않다. 길이가 긴 구간과 상대적으로 짧은 구간이 있다. 길이가 긴 구간 : 관측치가 드문드문 퍼져 있다.길이가 상대적으로 짧은 구간 : 관측치가 빽빽하게 들어가 있다. 조금 더 보기 쉽게 표현을 해보자. Q1부터 Q3사이를 네모난 상자로 표현한다.최솟값, 최댓값까지 직선으로 잇는다... R/R 프로젝트 2018. 4. 6.

[ 이토록 쉬운 통계&R 100일 프로젝트 ] Day 5. 10% 순서대로 한줄서기 정렬과 순서 통계량다음의 10개의 숫자가 있다.4 5 3 8 9 7 0 1 2 6제일 작은 숫자인 0을 제일 앞으로 옮긴다. 그 다음으로 작은 숫자인 1을 두 번째로 옮긴다. 그 다음 작은 숫자인 2를 세 번째로 옮긴다. 가장 작은 숫자부터 순서대로 찾아 배치하는 과정을 반복하면 숫자들의 순서는 다음과 같아진다.0 1 2 3 4 5 6 7 8 9 이런 방법으로 값들을 크기에 따라 순서대로 줄 세우는 과정을 정렬이라고 한다.정렬을 하고 나면 순위가 결정된다. 0은 1등이 되고 9는 꼴등이 된다. 비교도 쉽다.6보다 작은 값은 6개가 있고, 8보다 큰 값은 1개가 있다. 이처럼 오름차순으로 정렬된 10개의 값을 통계학에서는 순서 통계량(Order statistics)라고 부른다. 그 중 가장 먼저 나오는 값.. R/R 프로젝트 2018. 3. 26.

이전 1 ··· 5 6 7 8 9 다음

티스토리툴바