데이터는 어떻게 만들어질까요? 먼저 변수가 고정되면 관측치들이 줄을 맞춰 들어옵니다.
마치 날줄과 씨줄이 엮이며 옷감을 짜듯이 말이죠.
사람들은 각자 수많은 특징을 가지고 있다.
그러나, 각자 다른 특징을 비교하는 것은 불가능하다.
비교할 기준이 제대로 정해져 있지 않기 때문이다.
각기 다른 관점으로 설명한다면, 한 관점으로 다른 사람들과 비교할 수가 없다!
비교를 할 수 없으면 차이를 확인할 수 없다. 차이를 확인할 수 없으면 데이터 분석은 의미가 없다.
다음과 같은 데이터를 정리한 표가 있다.
이 데이터는 관심 대상 5명에 대한 이름, 성별, 몸무게라는 3가지 관심 특징을 가지고 있다.
이 5명은 비교할 수 있다! 누가 몸무게가 많이 나가는지, 누가 남자고 여자지 바로 알 수 있다.
데이터의 구성
데이터를 만들기 위해 먼저 관측의 단위(unit)을 결정하고 변수를 정해야 한다. 위 데이터에서 관측의 단위는 '사람'이고 변수는 '이름', '성별', '몸무게'로 정해졌다. 이렇게 행(가로줄)에는 각각의 관측 대상에 대해 변수별로 측정된 값이 입력되기 때문에 흔히 행을 관측치 혹은 관측 개체(Observation)라고 한다. 이처럼 데이터는 변수(열)와 관측치(행)로 구성된다.
데이터와 데이터 공간
위 데이터는 다음과 같이 2차원 공간에 점으로 표시할 수 있다.
성별, 몸무게와 같은 변수가 하나씩 늘어나면 공간의 차원도 하나씩 늘어나지만, 관측치는 변수들이 만드는 공간 속에 들어가는 하나의 점일 뿐 공간의 크기에는 영향을 미치지 않는다.
그래서 변수가 하나라도 늘어나면 분석이 복잡해지지만, 관측치는 몇 개가 더 늘어난다고 해서 분석 과정이 크게 달라지지 않는다.
예를 들어, 데이터에 친구 두 명을 추가해봐야 점 두개를 추가하는 것 외에 크게 달라지는 것은 없다. 그러나 다섯 명의 '키'와 '허리둘레'를 변수를 추가하는 순간, 더 복잡한 4차원 데이터가 될 것이다.
데이터를 구서하는 변수와 관측치가 이제 축과 점이 됐다. 데이터는 단순히 가로와 세로 격자에 값들을 가득 채운 것이 아니라 나름의 공간을 가진다. 그리고 데이터 분석은 결국 변수들이 만들어 내는 공간의 특징을 설명하고 그 속에 점처럼 흩어져 있는 관측치의 패턴을 찾는 과정이다.
그러나 100개의 변수에 100만 개의 관측치가 있다면, 100차원 공간 속에 100만 개의 점이 흩어져 있다는 것이다. 상상도 안 되는 복잡한 모양이다. 그래서 데이터를 적절히 쪼개서 살펴봐야 한다. 두 가지 방법이 있다.
첫 째, 모든 관측치가 아니라 몇 개의 관측치만 선택해서 점의 수를 줄인다.
둘 째, 모든 변수가 아닌 한두 개의 변수만 선택해서 1, 2차원 공간을 여러 번 설명한다.
어느 쪽이 합리적일까?
사실 통계는 한 사람의 이야기에 관심이 없다. 김씨는 남자이고 68 kg 이다. 흔히 프로필 혹은 프로파일(profile)이라고 부른다. 마치 나무 한 그루를 자세히 살펴보는 것과 같다. 그러나 이 방법으로는 어떠한 차이도 확인할 수도 설명할 수도 없다. 게다가 공간의 개념으로도 100차원이라는 광할한 공간에 찍힌 단 하나의 점을 도저히 설명할 수가 없다.
통계는 많은 사람이 만들어 내는 패턴, 큰 그림에서 의미를 찾는다. '키'라는 변수를 하나 선택하면 그 속에 100만 명의 키가 들어있다. 그 중에 키가 큰 사람, 키가 작은 사람도 있다. 이 키를 살펴보면 가장 키가 큰 사람은 얼마나 큰지, 작은 사람은 또 얼마나 작은지, 중간 정도 되는 사람의 키는 얼마이지, 키가 190cm인 사람은 키가 얼마나 큰지 등 다양한 차이를 확인할 수 있다.
즉, 관측치가 아닌 변수를 선택해야 차이를 확인하고 설명할 수 있다. 그래서 데이터 분석은 데이터를 변수 단위로 나눠서 분석하거나 변수 관계를 살펴보는 것으로 시작된다.
알파벳을 활용한 예제 데이터의 표현
변수의 개수 𝑝, 관측치의 개수 𝒏
변수 𝑥
관측치, 아래 첨자 알파벳
𝒏개의 관측치가 세로로 길게 늘어서 변수 𝑥가 된다. 값들이 흩어지지 않고 줄 맞춰 서 있다는 의미로 대괄호 [ ] 로 둘러쌌다. 그렇다면 𝑥와𝑦, 두 개의 변수로 이뤄진 데이터는 어떻게 표현할 수 있을까?
먼저 대괄호로 𝑥와 𝑦를 묶어 두 변수가 나란히 있다는 것을 표현하고, 첨자를 이용해서 각 변수를 나란히 두 줄로 풀었다.
합계, Σ(시그마, sigma)
데이터 분석을 위한 계산에는 합계(Summation)가 자주 등장한다. 예를 들어 자주 사용하는 평균도 일단 모든 값을 더해야 한다. 변수 𝑥의 𝒏개 관측치를 모두 합하는 것은 다음과 같이 와 더하기 기호 +를 활용해 다음과 같이 표현하다.
와 +가 반복되는 것이 보기 싫어 합계를 뜻하는 "Summation"의 첫 글자 'S'에 해당하는 그리스어 대문자
Σ를 가져와 다음과 같이 표현했다.
들의 합계를 구하는데 Σ의 위 아래로 첨자 𝓲가 1부터 시작해서 𝒏까지라는 것을 말해준다. 즉, 𝒏개의 값을 모두 더하라는 의미가 된다.
이제 이 책에서 사용할 수식 표현에 대해서 살펴봤다. 슬슬 데이터 분석 이야기를 시작해보자!
기술 통계량과 변수 요약
'R > R 프로젝트' 카테고리의 다른 글
[ 이토록 쉬운 통계&R 100일 프로젝트 ] Day 6. 10% 순서대로 한줄서기 (2) (0) | 2018.04.06 |
---|---|
[ 이토록 쉬운 통계&R 100일 프로젝트 ] Day 5. 10% 순서대로 한줄서기 (0) | 2018.03.26 |
[ 이토록 쉬운 통계&R 100일 프로젝트 ] Day 3. 1% 줌아웃 (0) | 2018.03.23 |
[ 이토록 쉬운 통계&R 100일 프로젝트 ] Day 2. 문법보다 회화 (0) | 2018.03.15 |
[ 이토록 쉬운 통계&R 100일 프로젝트 ] Day 1. 우리는 내일이 궁금합니다. (0) | 2018.03.13 |
댓글