R/R 프로젝트

[ 이토록 쉬운 통계&R 100일 프로젝트 ] Day 11. 범인은 이 안에 있다

Chipmunks 2018. 4. 15.
728x90


차이는 아무 이유 없이 그냥 벌어지는 게 아니다. 반드시 원인이 있다. 그 원인은 바로 데이터 안에 있다.


동전을 10번 던졌을 때 왜 앞면이 6번 나왔는지, 대선 후보마다 득표율이 왜 차이가 있는지 의문을 가진다.


통계 사건은 이미 지나가 과거 속에 있다. 그 순간을 기록한 데이터들을 가지고 있다. 데이터 속에 변수들이 있다. 데이터 분석은 변수들을 활용해 논리적으로 차이를 설명하는 과정이다.


첫 단계는 변수 간의 관계 탐색이다.


하나의 변수만 아니라, 두 개 이상의 변수들이 서로 어떤 관계를 가지는지 살펴봐야 한다.

데이터 속에 있는 여러 변수 중 차이를 확인하고 설명하려 하는 변수를 관심 변수라고 한다.

관심 변수는 개수가 몇 개든, 아예 없더라도 문제는 없다.


나머지 변수들을 이 관심 변수의 차이를 설명해줄 수 있는 변수라는 의미에서 설명 변수라고 한다.

댓글