R/R 프로젝트

[ 이토록 쉬운 통계&R 100일 프로젝트 ] 34일차

Chipmunks 2018. 6. 19.
728x90



공부 페이지

211 페이지 ~ 213 페이지


배운 개념

F-분포

F-분포는 일단 카이제곱분포와 마찬가지로 차이를 보이기 위해서 얼마나 많은 관측치를 사용했는지가 중요하다. 그룹 간의 차이가 작아도 관측치의 개수가 많다면 의미가 있다고 할 수 있기 때문이다.


또한 설명 변수 속에 그룹이 2개인 것 보다는 10개인 것이 관심 변수를 설명하는 데 더욱 유리하다. 즉, 몇 개의 관측치로 계산한 차이인지, 그 차이를 설명하기 위해 몇 개의 그룹을 활용했는지를 고려해야 하기 때문에, F-분포는 자유도를 두 개나 활용한다.


공부 방법에 따른 성적 차이 예제에서 자유도가 (2, 3)인 F-분포 속에서 우리가 계산한 F-값 16은 어디쯤 있을까? F-값이 16이상이 나올 확률, p-값은 2.5%이다. 즉, 실제로 공부 방법이 성적 차이에 전혀 영향을 미치지 않는데, 우연히 우리 데이터에서만 평균 점수가 1, 5, 9로 극며한 차이가 날 확률은 2.5%로 매우 드문 일이라는 것이다.


유의수준 5%보다 계산된 p-값이 작기 때문에 공부 방법에 따른 점수차는 의미 있는 차이라고 할 수 있다. 즉, 공부 방법을 C 방법으로 바꿔야 한다.


통계 모형(Statistical Model)

데이터 속 차이를 설명하는 유의성 검정 자체도 좋지만, 이 검정을 활용해 더 복잡한 것을 만들 수 있다.

통계 모형은 다양한 상황에서 관심 있는 차이를 확인하고 그 차이를 설명할 수 있는 최적의 관계를 찾아내는 데 목적이 있다. 지금까지 살펴본 유의성 검정은 우리가 직접 설정한 관계 속에서 차이의 의미를 찾았다. 그 결론은 '차이가 의미가 있다고 볼 수 있다/없다' 였다.

확률 모형은 관심 차이를 설명할 수 있는 수 많은 설명 변수 중 누가 가장 차이를 잘 설명할 수 있는지를 찾는다. 결론이 '선택된 변수들을 활용하면 관심 있는 차이를 잘 설명할 수 있다.' 가 된다.

다음 시간에 배울 것

선형회귀모형

댓글