R/R 프로젝트

[ 이토록 쉬운 통계&R 100일 프로젝트 ] Day 10. 0.000012%의 꿈, 로또

Chipmunks 2018. 4. 14.
728x90


45개의 숫자 중 6개를 뽑는 방법의 가짓수는 중고등학교 때 배운 조합을 쓰면 다음과 같다.


8,145,060 개의 번호 중 꼭, 반드시 하나는 당첨 번호가 나오므로 내가 선택한 번호가 당첨될 가능성은 1/8,145,060, 약 0.000012%가 된다. 당첨 번호 5개와 보너스 번호를 맞혀야 하는 2등은 6가지, 당첨 번호 5개를 맞혀야 하는 3등은 228가지, 4개를 맞혀야 하는 4등은 11,115가지, 3개를 맞혀야 하는 5등은 182,780 가지 숫자 조합이 가능하다.


확률을 계산해보면 5등이 당첨될 확률은 2.2%고 등수에 상관없이 당첨될 확률은 2.4%이다.


확률이 데이터 분석에 어떻게 활용될까?


확률


100% 확신할 수 있는 일은 과거 뿐이다. 항상 100%이므로 확률을 계산하는 의미가 없다. 우리의 관심은 모르거나 아직 일어나지 않은 어떤 불확실한 것이다. 이것을 사건(Event)라고 한다.

불확실성의 정도를 0부터 1 사이의 소수로 표현한 것은 확률(Probability)이라고 한다.

확률 0%는 불가능, 100%는 필연, 75%는 똑같은 상황이 100버 반복되었을 때 75번 정도는 사건이 발생하고 나머지 25번 정도는 사건이 발생하지 않는다는 의미이다.

확률은 어떻게 계산할까?

논리적으로 혹은 수리적으로 계산한 확률을 이론적(Theoretical) 확률이라고 한다.
예를 들어, 동전 던지기에서 앞면이 나올 확률은, 동전은 앞면 아니면 뒷면이므로 50% 확률이다.

사건을 직접 관찰하거나 모의 실험(Simulation)을 통해 계산된 확률을 경험적(Empirical) 확률이라고 한다.
실제로 동전을 던졌을 때 10개 중 6개가 앞면으로 60%의 확률을 가진다. 낮 12시에 백화점에 들어온 사람이 남자일 확률은 논리적으로 접근하는 것이 불가능에 가깝다. 직접 기록하고 경험적 확률을 계산할 수 밖에 없다.

즉, 경허적 확률은 데이터라고 하는 과거의 기록으로부터 사건의 발생 패턴을 분석해 계산한다. 경험적 확률은 계산할 때 마다 값이 달라질 수 있다.

확률을 이용한 당첨 번호 예측

전체 45개 숫자 중 당첨 번호는 6개이다. 각각의 번호가 추첨 번호에 있을 확률은, 이론적 확률은 6/45, 약 13.3% 이다.

그럼 경험적 확률과 비교해보자. 다음은 2016년에 있었던 총 53번의 나눔로또 추천에서 각 번호가 몇 번이나 나왔는지 정리한 것이다. 683회차부터 735회차까지 보너스 숫자를 포함하지 않은 숫자이다. 확인은 이 링크로부터 확인할 수 있다.


33번 공은 무려 15번이나 나왔다. 경험적 확률을 계산해보면 15/53, 약 28.3%로 이론적 확률인 13.3%의 2배가 넘는다. 반면 9번 공은 고작 1번 나왔다. 확률을 계산해 보면 1/53, 1.9%밖에 안된다.


아래는 모든 번호의 등장 횟수를 막대그래프로 만든 것이다.


각 번호의 입장에서 매번 13.3%의 확률로 53번의 기회가 있었다.

확률 0.133과 기회 53번을 곱하면 7.07 이다. 각 번호는 1년 동안 7번 정도는 나왔을 것으로 기대할 수 있다. 이렇게 확률을 고려했을 때 평균적으로 나올 것 같은 값을 기대값(Expectation)이라고 한다.


추첨된 횟수가 기댓값 7과 맞도록 경험했다.


한 번만 나온 9번 공과 열다섯 번이나 나온 33번 공은 특이하다. 그러나 전체적인 패턴은 큰 문제가 없다.


데이터에서 얻은 정보를 활용한 올바른 선택은, 아무거나 찍는거고 33번을 선택하는 것이다. 아무거나 찍어도 이론 상 확률은 같기 때문이다.


데이터 분석과 확률

과거 속에서 미래를 향한 인사이트를 얻기 위해 데이터를 분석한다. 과거를 기록한 데이터 속에서 패턴을 찾고 어떤 가능성을 확률로 표현한다. 데이터 분석에서의 확률은 중요한 역할을 한다. 크게 두가지다.

첫 째, 어떤 관심 있는 확률이 궁금할 때.
통계는 성공의 확률을 계산한다. 성공하는 사람과 실패하는 사람들의 정보를 모아 데이터를 만들고 도대체 어떤 차이가 성공과 실패를 가르는지 확률모형(Probability model)을 만든다. 이 확률모형 속에서 성공할 확률에 영향을 미치는 변수가 무엇인지 살펴본다.

둘 째, 어떤 차이가 의미가 있는지 없는지 궁금할 때.
모두가 완전히 똑같지 않기 때문에 차이는 항상 존재한다. 문제는 미세한 차이인지, 우연이라고 하기엔 큰 차이인지 따져봐야 한다. 작은 차이라도 표본의 크기에 따라 차이가 무의미 할 수도, 유의미 할 수도 있다.

우리는 둘 다 고려해서 관심 있는 변수 속 차이를 확률로 설명함과 동시에, 그 설명된 차이가 의미가 있는지 없는지를 판단해야 한다.

지금까지 하나의 변수가 어떤 차이를 가지고 있는지 요약을 통해 살펴봤다.
PART2는 그 차이를 설명하기 위해 변수 간의 관계를 어떻게 확인하교 표현하는지, 간단한 통계 모형들을 활용해 변수의 차이를 설명해주는 개념들을 살펴본다.


---


2017년 당첨 번호 데이터는 조사결과 다음과 같다.



모든 번호의 등장 횟수 별 히스토그램은 다음과 같다.



2017년에는 작년과 비교했을 때, 9번은 8번이나 당첨이 됐고 33번은 7번으로 모두 기댓값을 만족한다. 기댓값 7번 당첨 횟수들이 6으로 작년과 비교해 줄어들었다.


2017년에는 12번공이 14번으로 가장 많이 당첨이 됐고 32번 공이 2번으로 적게 당첨이 됐다.

댓글