728x90
공부 페이지
103 페이지 ~ 109 페이지
배운 개념
조건부 확률과 조건부 평균
'설명 변수'를 활용해서 조건을 설정하고 계산한 확률이나 평균
심슨의 역설
책 예제에선 남자와 여자의 전체 합격률 중, 여자의 합격률이 현저히 낮다. 그러나 '학과'라는 변수가 하나 추가되어 좀 더 세분화된 합격률을 보여준다. 학과 변수가 추가되고 보니 A학과와 B학과 모두 여자의 합격률이 더 높다.
두 학과 모두 100명의 학생이 지원했는데 A학과는 82명이 합격을, B학과는 28명만 합격을 했다. 그런데 여학생들의 80%가 B학과의 지원을 했다. 즉, 대학의 차별이 아니라 여학생들의 선택이 만들어 낸 착시 효과다.
결론
데이터 분석은 차이를 확인하고 설명하는 과정. 평균이나 교차표를 계산하면 관심 변수의 특징을 잘 설명할 수 있다고 생각하지만, 진짜 중요한 내용은 데이터 속에 숨어 있다.
숨어 있는 정보를 보기 위해서는 변수들의 관계를 보며 데이터를 더 깊숙이 살펴봐야 한다. 이 과정은 바로 설명 변수를 활용해 조건을 추가하는 것이다. 관심 변수는 눈으로 보이는 차이는 확인할 수 있다. 그러나 설명은 불가능 하다. 그래서 설명 변수들이 필요하다.
다음 시간에 배울 것
아낌없이 주는 나무, 의사결정나무
'R > R 프로젝트' 카테고리의 다른 글
[ 이토록 쉬운 통계&R 100일 프로젝트 ] 16일차 (0) | 2018.06.01 |
---|---|
[ 이토록 쉬운 통계&R 100일 프로젝트 ] 15일차 (0) | 2018.05.31 |
[ 이토록 쉬운 통계&R 100일 프로젝트 ] 13일차 (0) | 2018.05.29 |
[ 이토록 쉬운 통계&R 100일 프로젝트 ] 12일차 (0) | 2018.05.28 |
[ 이토록 쉬운 통계&R 100일 프로젝트 ] Day 11. 범인은 이 안에 있다 (0) | 2018.04.15 |
댓글