R/R 프로젝트101 [ 이토록 쉬운 통계&R 100일 프로젝트 ] 28일차 공부 페이지192 페이지 ~ 193 페이지 배운 개념카이제곱분포무작정 제곱을 더했다고 모두 카이제곱값이 되는 건 아니다. 제곱을 해서 더할 어떤 변수 x가 평균이 0이고 표준편차가 1인 표준정규분포를 따라야 한다. 유의성 검정 과정을 다시 한 번 짚어보자. 차이를 입증하고 싶다. 그 차이의 정도를 통계량이라고 불리는 값을 계산한 다음 분포 속에서 상대적인 위치를 판단한다. 만약 카이제곱값이 0이라면 무엇을 의미할까? 교차표의 실제 값과 교차표의 두 변수가 독립인 경우의 값이 모두 똑같다는 뜻이다. 결국 두 범주형 변수의 수준들끼리 전혀 관계가 없는 독립인 상황이다. 그러나 카이제곱값이 커지면 커질수록 실제 교차표가 독립인 상황과는 많이 다르다는 것을 의미한다. 즉, 두 변수의 수준들끼리 밀접한 관계가 할.. R/R 프로젝트 2018. 6. 13. [ 이토록 쉬운 통계&R 100일 프로젝트 ] 27일차 공부 페이지190 페이지 ~ 191 페이지 배운 개념카이제곱통계량앞서 t-분포를 활용한 유의성 검정을 하기 위해서 데이터에서 무엇을 계산했는가? 바로 t-값이라는 통계량이다. 교차표의 차이에 대한 유의성 검정을 위해서도 특별한 통계량을 계산해야 한다. 즉, 교차표에 있는 12개 숫자를 활용해 차이를 의미하는 하나의 숫자를 만들어내야 한다. 일단 부호의 문제도 없앨 겸 분산을 구할 때처럼 이 차이들을 제곱을 한다. 그 다음 분산처럼 제곱된 값을 바로 합하는 것이 아니라 중간 과정이 필요하다. 제곱의 결과를 독립 상황을 가정했을 때의 예상값으로 나눠준다. 아테네 금메달의 경우 실제 메달 수는 9개, 예상 매달수는 12개이므로 차이는 -3이고 제곱하면 9이다. 다시 예상 매달 수 12로 나눠 0.75가 계산된.. R/R 프로젝트 2018. 6. 12. [ 이토록 쉬운 통계&R 100일 프로젝트 ] 26일차 공부 페이지189 페이지 ~ 190 페이지 배운 개념카이제곱 금메달 은메달 동메달 28회 아테네 9-12 = -3 12 - 9 = 3 9 - 9 = 0 29회 베이징 13 - 13 = 0 10 - 10 = 0 9 - 10 = -1 30회 런던 13 - 11 = 2 8 - 8 = 0 7 - 9 = -2 31회 리우 9 - 8 = 1 3 - 6 = 3 9 - 6 = 3 위 교차표는 두 변수가 서로 전혀 관련이 없는 독립을 가정한 상황이다. 각 칸은 (실제값 - 독립을 가정했을 때의 예상값)이다. 4번의 대회와 3개의 메달 종류가 실제로 서로 전혀 관련이 없다면, 실제값과 예상값이 차이가 없을 것이다. 12개의 차이들은 대부분 0의 값을 가질 것이다. 반대로 부호와 관계없이 0에서 멀리 떨어진 값이 많다면, .. R/R 프로젝트 2018. 6. 11. [ 이토록 쉬운 통계&R 100일 프로젝트 ] 25일차 공부 페이지186 페이지 ~ 188 페이지 배운 개념데이터가 없는 표본평균의 표본편차 구하기10명의 표본 말고, 훨씬 더 큰 1,078명의 표본을 구할 수 있다. 이는 계산된 키의 표준편차는 7.1 이다. 평균 키의 표준편차는 다음과 같다. 평균의 표준편차는 원래 변수의 표준편차를 관 측치 수의 절댓값, Sqrt(n)으로 나누면 된다. 이제 목표 t-값에 대한 식은 다음처럼 바뀐다. 이제 양변에 2.25cm을 곱하고 174.9cm을 더해 미지수인 표본평균을 구할 수 있다. 계획대로 남성 10명의 평균 키를 측정해 그 값이 170.8cm보다 작다면, t-값이 -1.83보다 작을 것이고, 그럼 p-값은 유의수준 0.05보다 작은 값을 가진다. 따라서 "한국 남성의 평균 키는 174.9cm 보다 작다고 할 수.. R/R 프로젝트 2018. 6. 10. [ 이토록 쉬운 통계&R 100일 프로젝트 ] 24일차 공부 페이지182 페이지 ~ 185 페이지 배운 개념t-검정의 활용일반적인 t-검정은 다음과 같은 순서로 실행한다.가지고 있는 데이터로부터 t-값과 자유도 n-1을 계산한다.자유도 n-1의 t-분포로부터 t-값의 위치를 찾아 p-값을 계산한다.p-값이 유의수준 0.05보다 더 작으면 차이가 의미가 있다고 판단한다. 만약, 데이터가 없는 상태에서 t-값이 어느 정도 나와야 할까? 역으로 가보자.p-값은 적어도 유의수준과 동일한 0.05가 나와야 의미가 있다고 판단할 수 있다.10명의 데이터가 필요하다면, 자유도가 9인 t-분포에서 p-값이 0.05가 되는 t-값이 필요하다.t-값을 만들어 낼 적절한 기준값과 표본평균과 표본평균과 표준편차가 필요하다.예제에서 이미 조사한 연구팀의 가설로부터, 자기의 주장이 .. R/R 프로젝트 2018. 6. 9. [ 이토록 쉬운 통계&R 100일 프로젝트 ] 23일차 공부 페이지176 페이지 ~ 181 페이지 배운 개념t-분포t-값의 수식은 다음과 같다. t-분포에는 ν(nu) 라는 모수가 있다. 이는 흔히 자유도(Degree of freedom) 이라고 부른다. 관측치 수에서 1을 빼서 계산한다. t-분포는 적은 관측치의 차이도 설명할 수 있도록 고안했다. 자유도에 왜 굳이 1을 뺀 것일까?평균은 모든 사람이 가진 것을 한데 모은 다음, 공정하게 나눴을 때 한 명이 가지게 되는 몫을 의미한다.예를 들어, 세 사람이 9잔의 맥주를 마셨다. 한 사람은 1잔, 다른 한 사람은 3잔을 마셨다면 자동으로 나머지 한 명은 5잔을 마셨다는 것을 계산할 수 있다. 5개의 관측치의 평균을 계산한 순간, 그 차이는 실질적으로 4개의 값으로 구한 것과 같다는 것이다.전체 평균을 알고,.. R/R 프로젝트 2018. 6. 8. [ 이토록 쉬운 통계&R 100일 프로젝트 ] 22일차 공부 페이지172 페이지 ~ 175 페이지 배운 개념t-값과 t-분포t-분포는 표본평균이 0인지 아닌지 판단할 때 사용한다. ( 0뿐만 아니라 특정 숫자도 가능 ) t-분포를 활용하기 위한 1단계 : 관측치에서 기준값을 빼는 것t-분포를 활용하기 위한 2단계 : 관측치들의 평균과 분산을 구하는 것t-분포를 활용하기 위한 3단계 : 관측치에서 기준값을 뺀 것의 평균을 2단계에서 구한 표본평균의 표준편차로 나누는 것 이렇게 계산된 값을 t-통계량(t-statistic) 혹은 t-값(t-value)이라고 한다. 앞에서 본 표본화 과정과 비슷하다. t-값은 우리가 가진 데이터가 기준값으로부터 상대적으로 얼마나 떨어져 있는지 알려준다. 어떤 단위를 가지든 상관없이 상대적인 차이를 계산해준다. t-분포에서 t-값의.. R/R 프로젝트 2018. 6. 7. [ 이토록 쉬운 통계&R 100일 프로젝트 ] 21일차 공부 페이지166 페이지 ~ 172 페이지 배운 개념표본평균의 표준편차데이터의 관측치가 많으면 많을수록 데이터에서 계산된 평균, 표본평균은 흔들리지 않는다. 실제 평균 값과 표본의 평균 값이 그다지 차이가 없다는 것을 보이는 것을 '표본평균에 대한 유의성 검정' 이라고 한다. 표본평균의 표준편차 계산표본평균은 손쉽게 계산할 수 있다. 다 더한 다음 관측치의 개수 만큼 나누기만 하면 된다. 표본평균의 표준편차는 어떻게 구할까? 먼저 표본평균의 분산을 계산해보자. 그러나, 분산을 구하려면 여러 개의 값이 있어야 하는데 그렇지가 않다. 따라서 계산이 아니라 추정(Estimation)을 해야 한다. 표본평균의 식을 덧셈으로 풀어 쓰면 다음과 같다. 원래 값을 n으로 나눈 Xi 들을 모두 합했다. Xi 들은 관측.. R/R 프로젝트 2018. 6. 6. [ 이토록 쉬운 통계&R 100일 프로젝트 ] 20일차 공부 페이지159 페이지 ~ 165 페이지 배운 개념분포각자 데이터에 맞는 랜덤 데이터들을 만들어 직접 확률을 구하진 않는다.데이터의 구성과 상황에 따라 통계학자들이, 확률을 계산할 수 있는 틀을 만들어 놨다. 바로 '분포'다 일반적인 상황에서 사용할 수 있게 만들어졌다.그렇다면 어떤 분포들이 있는걸까? 정규분포정규분포의 확률밀도함수(Probability density function)은 다음과 같다. 𝛑나 e는 상수로 대략 3.1과 2.7에 가까운 숫자다. 입력 값 x에 𝛍와 𝛔로 표준화를 진행한다. 모수𝛍와 𝛔처럼 분포의 특징을 결정하는 값들을 모수라 한다. 다음 시간에 배울 것t-분포 R/R 프로젝트 2018. 6. 6. [ 이토록 쉬운 통계&R 100일 프로젝트 ] 19일차 공부 페이지155 페이지 ~ 158 페이지 배운 개념유의수준(Significant level)p-값은 데이터 속 차이가 얼마나 희귀한지 혹은 흔한지의 정도를 0부터 1 사이의 확률로 표현한 것p-값은 0에 가까울 수록, 데이터의 차이가 유의미함 얼마나 희귀한 확률인지 정하는 것을 유의수준이라고 한다.데이터의 차이가 유의미한 것인지 아닌지를 판단하는 기준 암묵적으로 기본 기준은 5%, 0.05다. 유의성 검정(Significance Test)만약 p-값이 유의수준보다 작다면 차이가 통계적으로 유의미하다. p-값이 유의수준보다 크면 우연히라도 충분히 일어날 수 있는 그저 그런 차이라고 판단할 수 있다. 일련의 이 과정을 유의성 검정이라고 한다. 다음 시간에 배울 것 분포 R/R 프로젝트 2018. 6. 4. [ 이토록 쉬운 통계&R 100일 프로젝트 ] 18일차 공부 페이지138 페이지 ~ 154 페이지 배운 개념표본과 모집단표본(Sample) : 한 줌의 모래. 흔히 샘플이라고 함모집단(Population) : 수억 개 모래알이 있는 백사장 통계량과 분포분포 : 관측치나 데이터로부터 계산된 통계량들이 만들어 내는 패턴p-값(p-value) : 분포 속에서의 확률 값. 우리의 데이터 속 차이가 얼마나 의미 있는지를 보여줌. p-값이 0에 가까우면, 실현 불가능할 만큼 큰 차이를 보인다는 것을 의미한다.p-값이 1에 가까우면, 충분히 우연하게 일어날 수 있는 흔한 차이를 의미함. 다음 시간에 배울 것차이의 의미가 있다, 없다를 판단하는 기준이 p-값이라면 그 기준값(Threshold)은 얼마일까? R/R 프로젝트 2018. 6. 3. [ 이토록 쉬운 통계&R 100일 프로젝트 ] 17일차 공부 페이지136 페이지 ~ 137 페이지 배운 개념테스트, 검정변수 속의 차이나 데이터 속 변수의 관계가 우연이 아니라는 것을 보이는 과정. 우연이라고 하기에는 설명이 불가능할 만큼 충분히 큰 차이 혹은 매우 밀접한 관계가 있다는 것을 입장하는 것.그렇다면 얼만큼 커야 충분히 크다고 할 수 있는걸까? 다음 시간에 배울 것표본과 모집단, 통계량과 분포 등 R/R 프로젝트 2018. 6. 2. 이전 1 ··· 4 5 6 7 8 9 다음