전체 보기529 [ 이토록 쉬운 통계&R 100일 프로젝트 ] 34일차 공부 페이지211 페이지 ~ 213 페이지 배운 개념F-분포F-분포는 일단 카이제곱분포와 마찬가지로 차이를 보이기 위해서 얼마나 많은 관측치를 사용했는지가 중요하다. 그룹 간의 차이가 작아도 관측치의 개수가 많다면 의미가 있다고 할 수 있기 때문이다. 또한 설명 변수 속에 그룹이 2개인 것 보다는 10개인 것이 관심 변수를 설명하는 데 더욱 유리하다. 즉, 몇 개의 관측치로 계산한 차이인지, 그 차이를 설명하기 위해 몇 개의 그룹을 활용했는지를 고려해야 하기 때문에, F-분포는 자유도를 두 개나 활용한다. 공부 방법에 따른 성적 차이 예제에서 자유도가 (2, 3)인 F-분포 속에서 우리가 계산한 F-값 16은 어디쯤 있을까? F-값이 16이상이 나올 확률, p-값은 2.5%이다. 즉, 실제로 공부 방법이.. R/R 프로젝트 2018. 6. 19. [ 이토록 쉬운 통계&R 100일 프로젝트 ] 33일차 공부 페이지210 페이지 ~ 210 페이지 배운 개념F-분포F-분포의 확률밀도함수 f(x)는 다음과 같이 복잡하게 생겼다. F-분포의 모수는 d1과 d2이다. 이는 바로 평균제곱합을 구할 때 사용한 두 개의 자유도이다. F-분포가 자유도를 하나도 아니고 두 개나 사용하는 데에는 이유가 있다. 다음 시간에 배울 것F-분포 R/R 프로젝트 2018. 6. 19. [ 이토록 쉬운 통계&R 100일 프로젝트 ] 32일차 공부 페이지207 페이지 ~ 209 페이지 배운 개념F-값F-값을 구하는 과정은 상당히 복잡하다. 제곱합의 특성상 관측치가 많으면 많을수록 값이 커지므로 관측치의 개수를 고려해야 한다. 그리고 범주형 변수의 수준의 개수, 그룹의 개수도 고려해야 한다. 표로 정리하면 다음과 같다. 구분 제곱합 자유도 분산 점수 70 5 14 제곱합을 자유도로 나오면 분산이 나온다. 그러나 이 제곱합이 두 개로 쪼개졌다. 첫 번째는 공부 방법이라는 변수로 나뉘어진 세 그룹 간의 차이를 설명하는 제곱합이다. 두 번째는 각 그룹에 있는 관측치들의 이유를 알 수 없는 개인차다. 구분 제곱합 자유도 분산 공부 방법(그룹 간) 64 2 32 개인차(그룹 내) 6 3 2 점수 70 5 14 공부 방법에 따라 학생들이 3개의 그룹 A,.. R/R 프로젝트 2018. 6. 17. [ 이토록 쉬운 통계&R 100일 프로젝트 ] 31일차 공부 페이지202 페이지 ~ 206 페이지 배운 개념F-검정그룹이나 조건에 따른 차이를 검정하는 편리한 수단. F-값은 범주형 변수, 즉 '그룹에 따라 연속형 변수에 얼마나 큰 차이가 있는지' 혹은 '범주형 변수가 연속형 변수의 차이를 얼마나 많이 설명하는지' 를 말한다.이 F-값이 얼마나 큰 값인지는 F-분포 속에서 상대적인 위치를 측장한 p-값으로 계산한다. 학생 번호 점수() 공부 방법() 전체 평균() 그룹 평균() 1 0 A 5 1 2 2 A 5 1 3 4 B 5 5 4 6 B 5 5 5 8 C 5 9 6 10 C 5 9 세 가지 제곱합을 계산한다. 첫 번째, 의 제곱합은 (n-1)로 나누지만 않았지 사실상 분산과 같다. 관측치들이 서로 얼마나 다른지를 의미한다. 세 번째, 의 제곱합은 그룹의 .. R/R 프로젝트 2018. 6. 16. [ 이토록 쉬운 통계&R 100일 프로젝트 ] 30일차 공부 페이지198 페이지 ~ 201 페이지 배운 개념F-검정F-분포(F-distribution)는 농업과 화학업 그리고 제조업의 끊임없는 품질과 성능 개선에 영향을 주었다. 지금도 의약업을 중심으로 널리 화룡되고 있다. 분산분석은 데이터 속 어떤 차이의 정도를 F-통계량(F-statistic) 혹은 F-값(F-value)으로 계산한다. 다음 시간에 배울 것F-검정 R/R 프로젝트 2018. 6. 15. [ 이토록 쉬운 통계&R 100일 프로젝트 ] 29일차 공부 페이지194 페이지 ~ 197 페이지 배운 개념카이제곱분포자유도가 6인 그래프다. 좌우 대칭이 아닌 확률밀도함수가 나왔다. 카이제곱값의 최솟값은 항상 0이다. 따라서 제곱합의 특징은 0보다 크거나 같다. 평균은 k와 똑같이 6이다. 정규분포나 t-분포는 평균을 중심으로 좌우대칭이었기 때문에 평균이 곧 중앙값이다. 그러나, 중앙값은 5.35다. 5.35가 중앙값이라는 얘기는 0부터 5.35까지 50%의 비중을 차지한다는 의미다. 그런데 평균은 6으로 중앙값보다 크다. 즉, 아주 큰 값들이 나올 수 있다는 것을 의미한다. 이 분포에서 계산한 값 5.78을 넣어보자. p-값은 0.4483 이다. 즉, 두 변수가 아무런 관계가 없더라도 5.78보다 큰 차이가 나올 확률은 무려 44.83% 라는 얘기다. 그.. R/R 프로젝트 2018. 6. 14. [ 이토록 쉬운 통계&R 100일 프로젝트 ] 28일차 공부 페이지192 페이지 ~ 193 페이지 배운 개념카이제곱분포무작정 제곱을 더했다고 모두 카이제곱값이 되는 건 아니다. 제곱을 해서 더할 어떤 변수 x가 평균이 0이고 표준편차가 1인 표준정규분포를 따라야 한다. 유의성 검정 과정을 다시 한 번 짚어보자. 차이를 입증하고 싶다. 그 차이의 정도를 통계량이라고 불리는 값을 계산한 다음 분포 속에서 상대적인 위치를 판단한다. 만약 카이제곱값이 0이라면 무엇을 의미할까? 교차표의 실제 값과 교차표의 두 변수가 독립인 경우의 값이 모두 똑같다는 뜻이다. 결국 두 범주형 변수의 수준들끼리 전혀 관계가 없는 독립인 상황이다. 그러나 카이제곱값이 커지면 커질수록 실제 교차표가 독립인 상황과는 많이 다르다는 것을 의미한다. 즉, 두 변수의 수준들끼리 밀접한 관계가 할.. R/R 프로젝트 2018. 6. 13. [ 이토록 쉬운 통계&R 100일 프로젝트 ] 27일차 공부 페이지190 페이지 ~ 191 페이지 배운 개념카이제곱통계량앞서 t-분포를 활용한 유의성 검정을 하기 위해서 데이터에서 무엇을 계산했는가? 바로 t-값이라는 통계량이다. 교차표의 차이에 대한 유의성 검정을 위해서도 특별한 통계량을 계산해야 한다. 즉, 교차표에 있는 12개 숫자를 활용해 차이를 의미하는 하나의 숫자를 만들어내야 한다. 일단 부호의 문제도 없앨 겸 분산을 구할 때처럼 이 차이들을 제곱을 한다. 그 다음 분산처럼 제곱된 값을 바로 합하는 것이 아니라 중간 과정이 필요하다. 제곱의 결과를 독립 상황을 가정했을 때의 예상값으로 나눠준다. 아테네 금메달의 경우 실제 메달 수는 9개, 예상 매달수는 12개이므로 차이는 -3이고 제곱하면 9이다. 다시 예상 매달 수 12로 나눠 0.75가 계산된.. R/R 프로젝트 2018. 6. 12. [ 이토록 쉬운 통계&R 100일 프로젝트 ] 26일차 공부 페이지189 페이지 ~ 190 페이지 배운 개념카이제곱 금메달 은메달 동메달 28회 아테네 9-12 = -3 12 - 9 = 3 9 - 9 = 0 29회 베이징 13 - 13 = 0 10 - 10 = 0 9 - 10 = -1 30회 런던 13 - 11 = 2 8 - 8 = 0 7 - 9 = -2 31회 리우 9 - 8 = 1 3 - 6 = 3 9 - 6 = 3 위 교차표는 두 변수가 서로 전혀 관련이 없는 독립을 가정한 상황이다. 각 칸은 (실제값 - 독립을 가정했을 때의 예상값)이다. 4번의 대회와 3개의 메달 종류가 실제로 서로 전혀 관련이 없다면, 실제값과 예상값이 차이가 없을 것이다. 12개의 차이들은 대부분 0의 값을 가질 것이다. 반대로 부호와 관계없이 0에서 멀리 떨어진 값이 많다면, .. R/R 프로젝트 2018. 6. 11. [ 이토록 쉬운 통계&R 100일 프로젝트 ] 25일차 공부 페이지186 페이지 ~ 188 페이지 배운 개념데이터가 없는 표본평균의 표본편차 구하기10명의 표본 말고, 훨씬 더 큰 1,078명의 표본을 구할 수 있다. 이는 계산된 키의 표준편차는 7.1 이다. 평균 키의 표준편차는 다음과 같다. 평균의 표준편차는 원래 변수의 표준편차를 관 측치 수의 절댓값, Sqrt(n)으로 나누면 된다. 이제 목표 t-값에 대한 식은 다음처럼 바뀐다. 이제 양변에 2.25cm을 곱하고 174.9cm을 더해 미지수인 표본평균을 구할 수 있다. 계획대로 남성 10명의 평균 키를 측정해 그 값이 170.8cm보다 작다면, t-값이 -1.83보다 작을 것이고, 그럼 p-값은 유의수준 0.05보다 작은 값을 가진다. 따라서 "한국 남성의 평균 키는 174.9cm 보다 작다고 할 수.. R/R 프로젝트 2018. 6. 10. 읽고 싶은 IT 도서 : 클린 코드 (Clean Code) 알라딘 링크 다음의 내용이 들어가 있다. – 좋은 코드와 나쁜 코드를 구분하는 방법– 좋은 코드를 작성하는 방법과 나쁜 코드를 좋은 코드로 바꾸는 방법 – 좋은 이름, 좋은 함수, 좋은 객체, 좋은 클래스를 작성하는 방법– 가독성이 높아지도록 코드 형식을 맞추는 방법– 코드 논리를 흩뜨리지 않고서 오류 처리를 완벽하게 구현하는 방법 – 단위 테스트와 테스트 주도 개발을 적용하는 방법 코드를 잘 짜는 방법을 한 번 훑고 싶다.종강하면, 도서관에서 빌려 읽어보고 싶다. 도서/IT 도서 2018. 6. 9. [ 이토록 쉬운 통계&R 100일 프로젝트 ] 24일차 공부 페이지182 페이지 ~ 185 페이지 배운 개념t-검정의 활용일반적인 t-검정은 다음과 같은 순서로 실행한다.가지고 있는 데이터로부터 t-값과 자유도 n-1을 계산한다.자유도 n-1의 t-분포로부터 t-값의 위치를 찾아 p-값을 계산한다.p-값이 유의수준 0.05보다 더 작으면 차이가 의미가 있다고 판단한다. 만약, 데이터가 없는 상태에서 t-값이 어느 정도 나와야 할까? 역으로 가보자.p-값은 적어도 유의수준과 동일한 0.05가 나와야 의미가 있다고 판단할 수 있다.10명의 데이터가 필요하다면, 자유도가 9인 t-분포에서 p-값이 0.05가 되는 t-값이 필요하다.t-값을 만들어 낼 적절한 기준값과 표본평균과 표본평균과 표준편차가 필요하다.예제에서 이미 조사한 연구팀의 가설로부터, 자기의 주장이 .. R/R 프로젝트 2018. 6. 9. 이전 1 ··· 31 32 33 34 35 36 37 ··· 45 다음