R/R 프로젝트

[ 이토록 쉬운 통계&R 100일 프로젝트 ] Day 2. 문법보다 회화

Chipmunks 2018. 3. 15.
728x90


문법보다 회화

10년 넘게 외국어를 배워도 정작 그 나라에 가서 말 한마디 꺼내기도 어렵다. 실전에 필요한 건 문법이 아닌 회화이다. 통계 역시 마찬가지다. 통계학은 언제까지 공부해야 할까? 꼭 필요한걸까?


길 거리에 돌아 다니는 사람들을 보면 모두 다르다. 옷, 헤어스타일, 얼굴, 키, 나이 등등. 일란성 쌍둥이도 자세히 보면 어딘가 다르다. 식물, 동물 역시 같은 종이라도 완전히 똑같이 생긴 것은 없다. 이것을 '불확실성'이라고 불리는 자연의 섭리이고, 자연스러운 일이다.




우리는 이러한 다름을 감각적으로 인식할 수 있다. 그리고 비교하여 더 나은 선택을 하려 한다. 이렇듯 다름을 확인하고 비교하는 것은 불확실한 세상에서 더 나은 선택을 하기 위한 우리의 '본능'이다. 그런데 비교의 대상이 많아지면 감각적으로 차이를 인식하기가 힘들다. 그래서 데이터를 만들고 분석을 한다.




통계는 우리에게 분석의 방향을 제시한다. 그리고 분석 방법을 수식으로 자세히 설명해 놓은 것이 통계학이다. 우리는 그냥 적절한 수식에 넣고 계산하기만 하면 된다. 계산은 컴퓨터에게 맡기면 된다. 남은 문제는 수많은 수식 중에 어떤 것이 적절한지 판단하는 것이다. 수식을 많이 아는 것과 분석을 잘하는 것은 다르다. 그래서 통계학 말고 통계가 중요하다.



차이를 이해하기 위한 통계

흔히 통계하면 생각나는 '데이터를 요약하는 과정' 내지는 '데이터를 요약해서 만든 정보'는 과정일 뿐이다. 통계의 진짜 목표는 데이터 속에 있는 차이를 확인하고 설명하는 것이다. 엄청난 양의 정보를 데이터로 저장한 뒤 그 속에 숨은 다름을 찾아내고 설명하는 것이다. 출구조사를 예를 들자. 모두가 똑같은 사람을 투표하면 데이터 분석의 의미가 없다. 출구조사로 모은 데이터를 이용해 후보들의 득표수를 예측하고, 득표 차이를 지역, 연령, 성별로 설명할 수 있다. 이처럼 데이터 속 차이를 확인하고 설명하기 위해 통계가 꼭 필요하다. 그 차이 속에 숨은 정보와 인사이트를 얻으려면 반드시 데이터 분석이 필요하다.



불확실성을 설명하는 통계

분석 결과는 시시때때로 변하고 관점만 조금 다르게 해도 결과가 완전히 뒤바뀌기도 한다. 다음의 출구조사를 예를 들어보자.

1. 100명 모두 출구조사에 응답함


2. 너무 바쁜 10명을 제외한 90명이 출구조사에 응답함

3. 100명을 모두 조사하기 힘들어서 45명만 조사함



1의 경우는 투표함을 열어보지 않아도 A가 100% 당선 된다.

2의 경우는 어떤가? 10표 차이지만, B에게도 희망이 있다. 그러나 0.1% 확률로 희박하다. 10명이 A와 B 둘 중 하나를 선택하는 1024개에 달하는 경우의 수 중, 모두 B에게 투표하는 경우는 단 1개다. 반대로 A가 당선될 확률은 99.9% 이다.

3의 경우는, 역시 마찬가지로 득표율은 2와 같다. 하지만, A, B의 당선확률은 2의 그것과 다르다. 확실한 것은 남은 55명의 선택이 2에서 남은 10명의 선택보다 훨씬 다양한 수의 경우의 수를 가지고 있고 A의 당선 확률은 99.9% 보다는 낮을 것이다.


이처럼 시간과 비용 등의 문제로 전체가 아닌 일부만 얻는다. 데이터를 활용해 얻은 정보로 관심대상 전체로 미뤄 짐작하는 것이다. 이 과정에서 불확실성을 설명하기 위해 어쩔 수 없이 랜덤이라는 개념이 들어온다. 전체 중 어떤 부분이 데이터로 들어올 지 알 수 없고, 분석 결과로 얻은 정보 역시 무조건 신뢰할 수도 없다. 그래서 확률과 같은 개념을 도입한다. 데이터 분석의 결과는 'A의 당선 여부'가 아니라 'A의 당선 가능성'을 이야기 한다.




그렇다면 통계를 어떻게 공부해야 할까?


과거와 현재, 미래가 소통하는 언어


통계는 불확실성으로 가득 찬 현실과 모든 것이 결정된 이상 세계를 이어주는 외국어와 같다. 영어를 예를 들면, 학교에서 아무리 배워도 직접 써먹지를 못한다. 소통을 위해서는 문법보다 상황에 맞는 문자 표현을 익히는 것이 더 중요하다. 통계도 마찬가지다. 수식은 영문법이다. 데이터 분석을 처음 접하는 사람이 복잡한 수식부터 배울 필요는 없다. 다양한 분석 상황에 맞게 데이터를 요약하고 분석하는 방법을 먼저 파악하고 데이터 속 차이를 설명하는 통계 개념을 이해하는 것이 더 중요하다.



다음 시간부터 데이터의 구성과 데이터를 요약하기 위한 기술통계량 부터 살펴보겠다.


댓글