문법보다 회화
10년 넘게 외국어를 배워도 정작 그 나라에 가서 말 한마디 꺼내기도 어렵다. 실전에 필요한 건 문법이 아닌 회화이다. 통계 역시 마찬가지다. 통계학은 언제까지 공부해야 할까? 꼭 필요한걸까?
길 거리에 돌아 다니는 사람들을 보면 모두 다르다. 옷, 헤어스타일, 얼굴, 키, 나이 등등. 일란성 쌍둥이도 자세히 보면 어딘가 다르다. 식물, 동물 역시 같은 종이라도 완전히 똑같이 생긴 것은 없다. 이것을 '불확실성'이라고 불리는 자연의 섭리이고, 자연스러운 일이다.
우리는 이러한 다름을 감각적으로 인식할 수 있다. 그리고 비교하여 더 나은 선택을 하려 한다. 이렇듯 다름을 확인하고 비교하는 것은 불확실한 세상에서 더 나은 선택을 하기 위한 우리의 '본능'이다. 그런데 비교의 대상이 많아지면 감각적으로 차이를 인식하기가 힘들다. 그래서 데이터를 만들고 분석을 한다.
통계는 우리에게 분석의 방향을 제시한다. 그리고 분석 방법을 수식으로 자세히 설명해 놓은 것이 통계학이다. 우리는 그냥 적절한 수식에 넣고 계산하기만 하면 된다. 계산은 컴퓨터에게 맡기면 된다. 남은 문제는 수많은 수식 중에 어떤 것이 적절한지 판단하는 것이다. 수식을 많이 아는 것과 분석을 잘하는 것은 다르다. 그래서 통계학 말고 통계가 중요하다.
차이를 이해하기 위한 통계
불확실성을 설명하는 통계
1. 100명 모두 출구조사에 응답함
2. 너무 바쁜 10명을 제외한 90명이 출구조사에 응답함
3. 100명을 모두 조사하기 힘들어서 45명만 조사함
3의 경우는, 역시 마찬가지로 득표율은 2와 같다. 하지만, A, B의 당선확률은 2의 그것과 다르다. 확실한 것은 남은 55명의 선택이 2에서 남은 10명의 선택보다 훨씬 다양한 수의 경우의 수를 가지고 있고 A의 당선 확률은 99.9% 보다는 낮을 것이다.
이처럼 시간과 비용 등의 문제로 전체가 아닌 일부만 얻는다. 데이터를 활용해 얻은 정보로 관심대상 전체로 미뤄 짐작하는 것이다. 이 과정에서 불확실성을 설명하기 위해 어쩔 수 없이 랜덤이라는 개념이 들어온다. 전체 중 어떤 부분이 데이터로 들어올 지 알 수 없고, 분석 결과로 얻은 정보 역시 무조건 신뢰할 수도 없다. 그래서 확률과 같은 개념을 도입한다. 데이터 분석의 결과는 'A의 당선 여부'가 아니라 'A의 당선 가능성'을 이야기 한다.
그렇다면 통계를 어떻게 공부해야 할까?
과거와 현재, 미래가 소통하는 언어
'R > R 프로젝트' 카테고리의 다른 글
[ 이토록 쉬운 통계&R 100일 프로젝트 ] Day 5. 10% 순서대로 한줄서기 (0) | 2018.03.26 |
---|---|
[ 이토록 쉬운 통계&R 100일 프로젝트 ] Day 4. 5% 날줄과 씨줄 (0) | 2018.03.23 |
[ 이토록 쉬운 통계&R 100일 프로젝트 ] Day 3. 1% 줌아웃 (0) | 2018.03.23 |
[ 이토록 쉬운 통계&R 100일 프로젝트 ] Day 1. 우리는 내일이 궁금합니다. (0) | 2018.03.13 |
[ 이토록 쉬운 통계&R 100일 프로젝트 ] Day 0. 준비 (2) | 2018.01.28 |
댓글