728x90
차이는 아무 이유 없이 그냥 벌어지는 게 아니다. 반드시 원인이 있다. 그 원인은 바로 데이터 안에 있다.
동전을 10번 던졌을 때 왜 앞면이 6번 나왔는지, 대선 후보마다 득표율이 왜 차이가 있는지 의문을 가진다.
통계 사건은 이미 지나가 과거 속에 있다. 그 순간을 기록한 데이터들을 가지고 있다. 데이터 속에 변수들이 있다. 데이터 분석은 변수들을 활용해 논리적으로 차이를 설명하는 과정이다.
첫 단계는 변수 간의 관계 탐색이다.
하나의 변수만 아니라, 두 개 이상의 변수들이 서로 어떤 관계를 가지는지 살펴봐야 한다.
데이터 속에 있는 여러 변수 중 차이를 확인하고 설명하려 하는 변수를 관심 변수라고 한다.
관심 변수는 개수가 몇 개든, 아예 없더라도 문제는 없다.
나머지 변수들을 이 관심 변수의 차이를 설명해줄 수 있는 변수라는 의미에서 설명 변수라고 한다.
'R > R 프로젝트' 카테고리의 다른 글
[ 이토록 쉬운 통계&R 100일 프로젝트 ] 13일차 (0) | 2018.05.29 |
---|---|
[ 이토록 쉬운 통계&R 100일 프로젝트 ] 12일차 (0) | 2018.05.28 |
[ 이토록 쉬운 통계&R 100일 프로젝트 ] Day 10. 0.000012%의 꿈, 로또 (0) | 2018.04.14 |
[ 이토록 쉬운 통계&R 100일 프로젝트 ] Day 9. 25% 먹고 싶은 거 먹어, 난 짜장 (0) | 2018.04.11 |
[ 이토록 쉬운 통계&R 100일 프로젝트 ] Day 8. 20% 물수능과 불수능 (0) | 2018.04.09 |
댓글