R/R 프로젝트

[ 이토록 쉬운 통계&R 100일 프로젝트 ] 14일차

Chipmunks 2018. 5. 30.
728x90



공부 페이지

103 페이지 ~ 109 페이지


배운 개념

조건부 확률과 조건부 평균

'설명 변수'를 활용해서 조건을 설정하고 계산한 확률이나 평균


심슨의 역설

책 예제에선 남자와 여자의 전체 합격률 중, 여자의 합격률이 현저히 낮다. 그러나 '학과'라는 변수가 하나 추가되어 좀 더 세분화된 합격률을 보여준다. 학과 변수가 추가되고 보니 A학과와 B학과 모두 여자의 합격률이 더 높다.

두 학과 모두 100명의 학생이 지원했는데 A학과는 82명이 합격을, B학과는 28명만 합격을 했다. 그런데 여학생들의 80%가 B학과의 지원을 했다. 즉, 대학의 차별이 아니라 여학생들의 선택이 만들어 낸 착시 효과다.

결론

데이터 분석은 차이를 확인하고 설명하는 과정. 평균이나 교차표를 계산하면 관심 변수의 특징을 잘 설명할 수 있다고 생각하지만, 진짜 중요한 내용은 데이터 속에 숨어 있다.

숨어 있는 정보를 보기 위해서는 변수들의 관계를 보며 데이터를 더 깊숙이 살펴봐야 한다. 이 과정은 바로 설명 변수를 활용해 조건을 추가하는 것이다. 관심 변수는 눈으로 보이는 차이는 확인할 수 있다. 그러나 설명은 불가능 하다. 그래서 설명 변수들이 필요하다.


다음 시간에 배울 것

아낌없이 주는 나무, 의사결정나무

댓글