45개의 숫자 중 6개를 뽑는 방법의 가짓수는 중고등학교 때 배운 조합을 쓰면 다음과 같다.
8,145,060 개의 번호 중 꼭, 반드시 하나는 당첨 번호가 나오므로 내가 선택한 번호가 당첨될 가능성은 1/8,145,060, 약 0.000012%가 된다. 당첨 번호 5개와 보너스 번호를 맞혀야 하는 2등은 6가지, 당첨 번호 5개를 맞혀야 하는 3등은 228가지, 4개를 맞혀야 하는 4등은 11,115가지, 3개를 맞혀야 하는 5등은 182,780 가지 숫자 조합이 가능하다.
확률을 계산해보면 5등이 당첨될 확률은 2.2%고 등수에 상관없이 당첨될 확률은 2.4%이다.
확률이 데이터 분석에 어떻게 활용될까?
확률
확률을 이용한 당첨 번호 예측
33번 공은 무려 15번이나 나왔다. 경험적 확률을 계산해보면 15/53, 약 28.3%로 이론적 확률인 13.3%의 2배가 넘는다. 반면 9번 공은 고작 1번 나왔다. 확률을 계산해 보면 1/53, 1.9%밖에 안된다.
아래는 모든 번호의 등장 횟수를 막대그래프로 만든 것이다.
각 번호의 입장에서 매번 13.3%의 확률로 53번의 기회가 있었다.
확률 0.133과 기회 53번을 곱하면 7.07 이다. 각 번호는 1년 동안 7번 정도는 나왔을 것으로 기대할 수 있다. 이렇게 확률을 고려했을 때 평균적으로 나올 것 같은 값을 기대값(Expectation)이라고 한다.
추첨된 횟수가 기댓값 7과 맞도록 경험했다.
한 번만 나온 9번 공과 열다섯 번이나 나온 33번 공은 특이하다. 그러나 전체적인 패턴은 큰 문제가 없다.
데이터에서 얻은 정보를 활용한 올바른 선택은, 아무거나 찍는거고 33번을 선택하는 것이다. 아무거나 찍어도 이론 상 확률은 같기 때문이다.
데이터 분석과 확률
---
2017년 당첨 번호 데이터는 조사결과 다음과 같다.
모든 번호의 등장 횟수 별 히스토그램은 다음과 같다.
2017년에는 작년과 비교했을 때, 9번은 8번이나 당첨이 됐고 33번은 7번으로 모두 기댓값을 만족한다. 기댓값 7번 당첨 횟수들이 6으로 작년과 비교해 줄어들었다.
2017년에는 12번공이 14번으로 가장 많이 당첨이 됐고 32번 공이 2번으로 적게 당첨이 됐다.
'R > R 프로젝트' 카테고리의 다른 글
[ 이토록 쉬운 통계&R 100일 프로젝트 ] 12일차 (0) | 2018.05.28 |
---|---|
[ 이토록 쉬운 통계&R 100일 프로젝트 ] Day 11. 범인은 이 안에 있다 (0) | 2018.04.15 |
[ 이토록 쉬운 통계&R 100일 프로젝트 ] Day 9. 25% 먹고 싶은 거 먹어, 난 짜장 (0) | 2018.04.11 |
[ 이토록 쉬운 통계&R 100일 프로젝트 ] Day 8. 20% 물수능과 불수능 (0) | 2018.04.09 |
[ 이토록 쉬운 통계&R 100일 프로젝트 ] Day 7. 15% 더치페이와 N빵 (0) | 2018.04.08 |
댓글