R/R 프로젝트

[ 이토록 쉬운 통계&R 100일 프로젝트 ] Day 4. 5% 날줄과 씨줄

Chipmunks 2018. 3. 23.
728x90


데이터는 어떻게 만들어질까요? 먼저 변수가 고정되면 관측치들이 줄을 맞춰 들어옵니다.

마치 날줄과 씨줄이 엮이며 옷감을 짜듯이 말이죠.



사람들은 각자 수많은 특징을 가지고 있다.

그러나, 각자 다른 특징을 비교하는 것은 불가능하다.

비교할 기준이 제대로 정해져 있지 않기 때문이다.

각기 다른 관점으로 설명한다면, 한 관점으로 다른 사람들과 비교할 수가 없다!

비교를 할 수 없으면 차이를 확인할 수 없다. 차이를 확인할 수 없으면 데이터 분석은 의미가 없다.


다음과 같은 데이터를 정리한 표가 있다.



이 데이터는 관심 대상 5명에 대한 이름, 성별, 몸무게라는 3가지 관심 특징을 가지고 있다.

이 5명은 비교할 수 있다! 누가 몸무게가 많이 나가는지, 누가 남자고 여자지 바로 알 수 있다.


데이터의 구성


이 중 몸무게를 예로 들어보자. 위 표에서 세 번째 열(세로줄)은 몸무게라는 이름으로 5개의 칸이 있다.
몸무게라는 고정된 관점에서 5명은 서로 다른 값을 가진다. 어떤 사람은 상대적으로 값이 크고, 또 어떤 사람은 값이 작습니다. 물론 같거나 비슷한 값을 가질 수도 있지만, 모든 사람이 똑같은 값을 가지지는 않는다.
이렇게 데이터에서 열은 다양한 값들이 모여 있다고 해서 변수 라고 부른다.



데이터를 만들기 위해 먼저 관측의 단위(unit)을 결정하고 변수를 정해야 한다. 위 데이터에서 관측의 단위는 '사람'이고 변수는 '이름', '성별', '몸무게'로 정해졌다. 이렇게 행(가로줄)에는 각각의 관측 대상에 대해 변수별로 측정된 값이 입력되기 때문에 흔히 행을 관측치 혹은 관측 개체(Observation)라고 한다. 이처럼 데이터는 변수(열)와 관측치(행)로 구성된다.



데이터와 데이터 공간


위 데이터는 다음과 같이 2차원 공간에 점으로 표시할 수 있다.



성별, 몸무게와 같은 변수가 하나씩 늘어나면 공간의 차원도 하나씩 늘어나지만, 관측치는 변수들이 만드는 공간 속에 들어가는 하나의 점일 뿐 공간의 크기에는 영향을 미치지 않는다.

그래서 변수가 하나라도 늘어나면 분석이 복잡해지지만, 관측치는 몇 개가 더 늘어난다고 해서 분석 과정이 크게 달라지지 않는다.


예를 들어, 데이터에 친구 두 명을 추가해봐야 점 두개를 추가하는 것 외에 크게 달라지는 것은 없다. 그러나 다섯 명의 '키'와 '허리둘레'를 변수를 추가하는 순간, 더 복잡한 4차원 데이터가 될 것이다.


데이터를 구서하는 변수와 관측치가 이제 축과 점이 됐다. 데이터는 단순히 가로와 세로 격자에 값들을 가득 채운 것이 아니라 나름의 공간을 가진다. 그리고 데이터 분석은 결국 변수들이 만들어 내는 공간의 특징을 설명하고 그 속에 점처럼 흩어져 있는 관측치의 패턴을 찾는 과정이다.


그러나 100개의 변수에 100만 개의 관측치가 있다면, 100차원 공간 속에 100만 개의 점이 흩어져 있다는 것이다. 상상도 안 되는 복잡한 모양이다. 그래서 데이터를 적절히 쪼개서 살펴봐야 한다. 두 가지 방법이 있다.


첫 째, 모든 관측치가 아니라 몇 개의 관측치만 선택해서 점의 수를 줄인다.

둘 째, 모든 변수가 아닌 한두 개의 변수만 선택해서 1, 2차원 공간을 여러 번 설명한다.


어느 쪽이 합리적일까?



사실 통계는 한 사람의 이야기에 관심이 없다. 김씨는 남자이고 68 kg 이다. 흔히 프로필 혹은 프로파일(profile)이라고 부른다. 마치 나무 한 그루를 자세히 살펴보는 것과 같다. 그러나 이 방법으로는 어떠한 차이도 확인할 수도 설명할 수도 없다. 게다가 공간의 개념으로도 100차원이라는 광할한 공간에 찍힌 단 하나의 점을 도저히 설명할 수가 없다.


통계는 많은 사람이 만들어 내는 패턴, 큰 그림에서 의미를 찾는다. '키'라는 변수를 하나 선택하면 그 속에 100만 명의 키가 들어있다. 그 중에 키가 큰 사람, 키가 작은 사람도 있다. 이 키를 살펴보면 가장 키가 큰 사람은 얼마나 큰지, 작은 사람은 또 얼마나 작은지, 중간 정도 되는 사람의 키는 얼마이지, 키가 190cm인 사람은 키가 얼마나 큰지 등 다양한 차이를 확인할 수 있다.


즉, 관측치가 아닌 변수를 선택해야 차이를 확인하고 설명할 수 있다. 그래서 데이터 분석은 데이터를 변수 단위로 나눠서 분석하거나 변수 관계를 살펴보는 것으로 시작된다.


알파벳을 활용한 예제 데이터의 표현


데이터를 분석하기 위해서 통계는 우리가 가진 데이터로 적당한 계산을 하고 값을 만들어 낸다. 물론 가장 중요한 것은 이 과정을 왜 하는 것인지 개념을 확인하는 것이다. 최소한의 수식으로, 쉽게 이해시키고자 한다.

변수의 개수 𝑝, 관측치의 개수 𝒏

데이터의 크기는 𝒏 ✕ 𝑝로 표현한다. 곱하기 기호를 사용하지만, 실제로 곱하지는 않는다!
일반적으로 데이터는 𝑝차원 속에 𝒏개의 점이 있다고 말한다.

변수 𝑥

데이터 분석은 변수 𝑝개가 아니라 변수 1개부터 시작된다. 그런데 그 변수 1개를 매번 '그 변수'라고 할 수는 없으니 알파벳 𝑥라고 표현한다. 필요해서 쓰긴 하지만 잘 모르는 변수라서 '미지의 것'이라는 의미를 가진 𝑥를 사용한다. 변수가 더 필요하다면... 𝑥 다음에는 𝑦가 있고, 𝒛도 있다..!

관측치, 아래 첨자 알파벳

하나의 변수 속에는 무려 𝒏개의 관측치가 있다. 반대로 말하면 관측치들이 모여 변수가 된다. 그래서 관측치는 변수와 같으 알파벳으로 표현하고 아래 첨자로 몇 번째 관측치인지를 표현한다.

𝒏개의 관측치가 세로로 길게 늘어서 변수 𝑥가 된다. 값들이 흩어지지 않고 줄 맞춰 서 있다는 의미로 대괄호 [ ] 로 둘러쌌다. 그렇다면 𝑥와𝑦, 두 개의 변수로 이뤄진 데이터는 어떻게 표현할 수 있을까?



먼저 대괄호로 𝑥와 𝑦를 묶어 두 변수가 나란히 있다는 것을 표현하고, 첨자를 이용해서 각 변수를 나란히 두 줄로 풀었다.


합계, Σ(시그마, sigma)

데이터 분석을 위한 계산에는 합계(Summation)가 자주 등장한다. 예를 들어 자주 사용하는 평균도 일단 모든 값을 더해야 한다. 변수 𝑥의 𝒏개 관측치를 모두 합하는 것은 다음과 같이 와 더하기 기호 +를 활용해 다음과 같이 표현하다.



와 +가 반복되는 것이 보기 싫어 합계를 뜻하는 "Summation"의 첫 글자 'S'에 해당하는 그리스어 대문자 

Σ를 가져와 다음과 같이 표현했다.


 들의 합계를 구하는데 Σ의 위 아래로 첨자 𝓲가 1부터 시작해서 𝒏까지라는 것을 말해준다. 즉, 𝒏개의 값을 모두 더하라는 의미가 된다.


이제 이 책에서 사용할 수식 표현에 대해서 살펴봤다. 슬슬 데이터 분석 이야기를 시작해보자!


기술 통계량과 변수 요약


아무리 복잡한 데이터라도 변수를 하나씩 나눠 특징을 살펴보는 것은 어렵지 않다. 통계에서는 변수의 특징을 설명하기 위해 한 줄(열)의 데이터에 다양한 연산을 사용해 계산을 하는데, 이 계산된 숫자들을 통계량(Statistics)이라고 부른다. 특히 데이터의 특징을 설명하는 통계량을 기술 통계량(Descriptive statistics)이라고 한다.

예를 들어, 100명의 몸무게 데이터가 있다면, 100개 숫자 전부를 살펴보는 것이 아니라 100개의 숫자를 모두 더하고 100으로 나눈 값으로 몸무게라는 변수의 특징을 살펴보는 것이다. 이 값이 바로 평균이며, 이외에 최솟값, 최댓값, 중앙값, 분산 등이 모두 대표적인 기술 통계량이다. 변수의 종류에 따라서 확인할 수 있는 차이도 다르고, 계산할 수 있는 기술 통계량도 다르다.

몸무게처럼 값이 한없이 다양한 연속형(Continuous) 변수는 순서를 정하거나 값들을 더해서 통계량을 계산한다.
반면, 성별처럼 관측치들이 정해진 몇 개의 값 중에서 하나의 값을 가지는 범주형(Categorical) 변수는 값이 같은 관측치들을 묶어 개수를 센다.

이처럼 변수에도 특징이 있고, 그 특징에 따라 분석 방식을 다르게 할 수 있다. 다음 시간에는 연속형 변수는 어떤 통계량을 계산하고 어떻게 표현할 수 있는지 살펴보겠다.

댓글