R/R 프로젝트

[ 이토록 쉬운 통계&R 100일 프로젝트 ] Day 3. 1% 줌아웃

Chipmunks 2018. 3. 23.
728x90


데이터 속에 정보가 있다고 무작정 파고들어서는 안 됩니다.

나무를 보기 전 을 보는게 먼저죠.


데이터는 희망

경험과 직감으로는 답을 찾기 힘든 시대에서 데이터는 희망이다. 그러나 만만해 보이는 데이터도 생각보다 복잡하고 쉽게 정보를 내놓지 않는다. 체계적이고 전략적인 데이터 분석 방법이 필요하다.

숲과 나무, 요약

데이터는 나무 한 그루 한 그루가 모여 만들어진 큰 숲과 같다. 데이터 분석을 위해서는 먼저 가장 높은 곳에 올라가 숲 전체를 살펴봐야 한다. 나무 한 그루 한 그루를 살펴보는 것은 나중 일이다. 누군가에게 이 숲을 설명해야 한다면, '넓다', '초록빛이다'와 같이 눈에 보이는 특징을 말한다.



데이터도 마찬가지이다. 크고 복잡한 데이터도 멀리서 바라보면 몇 가지 특징을 확인할 수 있다. 다만, 말이 아닌 통계를 활용해 모두 숫자로 표현한다. 예를 들어 '평균'이라는 숫자는 데이터 속 값들이 전반적으로 얼마나 큰지 또는 작은지를 한눈에 확인할 수 있다.


이처럼 데이터의 특징을 숫자로 표현하는 과정을 요약이라고 한다. 단순히 데이터의 특징을 숫자로 표현하기 위한 것은 아니다. 아이러니하게도 데이터 속 값들을 한데 모아 요약을 하면, 그 속에서 차이를 확인할 수 있다. 예를 들어 평균을 계산하는 순간 데이터는 평균보다 큰 쪽과 평균보다 작은 쪽으로 나뉜다.

이번 파트에서는 통계에서 다루는 데이터가 어떤 모양이고, 통계는 이 데이터들을 잘 요약하기 위해 어떤 숫자들을 계산하는지를 알려준다. 다음은 데이터가 무엇인지부터 살펴볼 예정이다.


댓글