전체 보기539 [ 이토록 쉬운 통계&R 100일 프로젝트 ] 22일차 공부 페이지172 페이지 ~ 175 페이지 배운 개념t-값과 t-분포t-분포는 표본평균이 0인지 아닌지 판단할 때 사용한다. ( 0뿐만 아니라 특정 숫자도 가능 ) t-분포를 활용하기 위한 1단계 : 관측치에서 기준값을 빼는 것t-분포를 활용하기 위한 2단계 : 관측치들의 평균과 분산을 구하는 것t-분포를 활용하기 위한 3단계 : 관측치에서 기준값을 뺀 것의 평균을 2단계에서 구한 표본평균의 표준편차로 나누는 것 이렇게 계산된 값을 t-통계량(t-statistic) 혹은 t-값(t-value)이라고 한다. 앞에서 본 표본화 과정과 비슷하다. t-값은 우리가 가진 데이터가 기준값으로부터 상대적으로 얼마나 떨어져 있는지 알려준다. 어떤 단위를 가지든 상관없이 상대적인 차이를 계산해준다. t-분포에서 t-값의.. R/R 프로젝트 2018. 6. 7. [빅데이터 직무연구회] 6회차 모임 정리 (2) [빅데이터 직무연구회] 6회차 모임 정리 (2)모임 요일 : 5월 24일 목요일 저녁 6시 Chapter 5. 모델 평가와 성능 향상 모델 평가와 매개변수 선택에 대해 더 자세히 배우는 파트다. 두 가지 관점에서 평가 방법을 확장한다. 먼저 안정적인 일반화 성능 측정 방법인 교차 검증이다. 그 다음 score 메서드가 제공하는 정확도와 R^2 값 이외에 분류와 회귀 성능을 측정하는 다른 방법이다. 또한 가장 좋은 일반화 성능을 얻기 위해서 지도 학습 모델의 매개변수를 조정하는 데 유용한 그리드 서치도 있다. 5.1 교차 검증교차 검증(cross-validation)은 일반화 성능을 재기 위해 훈련 세트와 테스트 세트로 한 번 나누는 것 보다 더 안정적이고 뛰어난 통계적 평가 방법이다. 데이터를 여러 번 .. 인공지능 2018. 6. 6. [빅데이터 직무연구회] 6회차 모임 정리 (1) [빅데이터 직무연구회] 6회차 모임 정리 (1)모임 요일 : 5월 24일 목요일 저녁 6시 Chapter 4. 데이터 표현과 특성 공학 일반적인 특성의 전형적인 형태 = 범주형 특성(categorical feature) 또는 이산형 특성(discrete feature) 특성 공학(feature engineering) : 특정 애플리케이션에 가장 적합한 데이터 표현을 찾는 것 성능에 더 도움되는 행동 : 올바른 데이터 표현 >> 지도 학습 모델에서 적절한 매개변수를 선택하는 것 4.1 범주형 변수4.1.1 원-핫-인코딩(가변수)범주형 변수를 표현하는 데 가장 널리 쓰이는 방법. 원-아웃-오브-엔 인코딩(one-out-of-N encoding) 혹은 가변수(dummy variable) 이라고도 함. 가변수 .. 인공지능 2018. 6. 6. [ 이토록 쉬운 통계&R 100일 프로젝트 ] 21일차 공부 페이지166 페이지 ~ 172 페이지 배운 개념표본평균의 표준편차데이터의 관측치가 많으면 많을수록 데이터에서 계산된 평균, 표본평균은 흔들리지 않는다. 실제 평균 값과 표본의 평균 값이 그다지 차이가 없다는 것을 보이는 것을 '표본평균에 대한 유의성 검정' 이라고 한다. 표본평균의 표준편차 계산표본평균은 손쉽게 계산할 수 있다. 다 더한 다음 관측치의 개수 만큼 나누기만 하면 된다. 표본평균의 표준편차는 어떻게 구할까? 먼저 표본평균의 분산을 계산해보자. 그러나, 분산을 구하려면 여러 개의 값이 있어야 하는데 그렇지가 않다. 따라서 계산이 아니라 추정(Estimation)을 해야 한다. 표본평균의 식을 덧셈으로 풀어 쓰면 다음과 같다. 원래 값을 n으로 나눈 Xi 들을 모두 합했다. Xi 들은 관측.. R/R 프로젝트 2018. 6. 6. [ 이토록 쉬운 통계&R 100일 프로젝트 ] 20일차 공부 페이지159 페이지 ~ 165 페이지 배운 개념분포각자 데이터에 맞는 랜덤 데이터들을 만들어 직접 확률을 구하진 않는다.데이터의 구성과 상황에 따라 통계학자들이, 확률을 계산할 수 있는 틀을 만들어 놨다. 바로 '분포'다 일반적인 상황에서 사용할 수 있게 만들어졌다.그렇다면 어떤 분포들이 있는걸까? 정규분포정규분포의 확률밀도함수(Probability density function)은 다음과 같다. 𝛑나 e는 상수로 대략 3.1과 2.7에 가까운 숫자다. 입력 값 x에 𝛍와 𝛔로 표준화를 진행한다. 모수𝛍와 𝛔처럼 분포의 특징을 결정하는 값들을 모수라 한다. 다음 시간에 배울 것t-분포 R/R 프로젝트 2018. 6. 6. [ 이토록 쉬운 통계&R 100일 프로젝트 ] 19일차 공부 페이지155 페이지 ~ 158 페이지 배운 개념유의수준(Significant level)p-값은 데이터 속 차이가 얼마나 희귀한지 혹은 흔한지의 정도를 0부터 1 사이의 확률로 표현한 것p-값은 0에 가까울 수록, 데이터의 차이가 유의미함 얼마나 희귀한 확률인지 정하는 것을 유의수준이라고 한다.데이터의 차이가 유의미한 것인지 아닌지를 판단하는 기준 암묵적으로 기본 기준은 5%, 0.05다. 유의성 검정(Significance Test)만약 p-값이 유의수준보다 작다면 차이가 통계적으로 유의미하다. p-값이 유의수준보다 크면 우연히라도 충분히 일어날 수 있는 그저 그런 차이라고 판단할 수 있다. 일련의 이 과정을 유의성 검정이라고 한다. 다음 시간에 배울 것 분포 R/R 프로젝트 2018. 6. 4. 아몬드, 손원평 장편소설 독후감 독후감마지막 독서 커뮤니티 도서다. 저번 동물 농장은 2주 가량의 시간이 있었다. 이번에는 약 열흘 안에 읽어야 했다. 그래서 분량이 적은 도서를 찾았다. 그리고 여태 읽은 비행운과 나무, 동물농장이 어둡거나 심오한 주제를 담고 있었다. 이번에는 밝고 희망적인 가벼운 소설을 읽고 싶었다. 그래서 독서 커뮤니티 도서 목록을 찾아봤다. 독서 커뮤니티 도서 목록을 하나 하나 찾았다. 제목부터 이목을 끌었다. 사실 제목이 '아몬드' 이길래 식품과 관련된 이야긴가 했었다. 인터넷에서 여러 후기들을 보니 꽤 괜찮은 소설이었다. 분량도 짧고. 왜 제목이 '아몬드' 인지 작 중에서도 자세히 알려준다. 태생적으로 감정을 잘 느끼지 못하는, 순수한 아이의 시각으로 진행된다. 현재 고등학생.. 도서/소설 2018. 6. 3. Swift(iOS) 스터디. 5번째 SQLite 데이터를 저장하는 SQLite 를 Swift 상에서 어떻게 사용하는지 간단하게 알아봤다.다음 Swift SQLite 포스팅을 실습해봤다. 단순히 C 코드를 Swift 으로 바꾸는 작업이다. XCode PlayGround 에서 Markdown 표시하기예제코드를 띄웠을 때, XCode 상에서 Markdown 으로 나왔다.주석 상에서 //, /* */ 대신, //:, /*: */ 으로 Markdown 으로 명시를 해줄 수가 있다. 자세한 것은 다음 문서에 나와있다. SQLite3 임포트하기1import SQLite3cs 데이터베이스 연결하기1234567891011121314func openDatabase() -> OpaquePointer? { var db: OpaquePointer? = nil if sqlit.. iOS/iOS 자료실 2018. 6. 3. [CSS] 글 드래그 시 나오는 색상 바꾸기 '::selection' iOS 스터디를 하는 도중 SQLite 포스팅을 봤다. 그 포스팅에서 글을 드래그하면 배경색상이랑 글자색이 다르길래, 티스토리 블로그에 적용해봤다. ::selection 가상 요소로 스타일을 지정해줄 수 있다. 소스 코드12345678910111213/* 본문 */.area_view p::selection { background-color: #ff7b7b; color: white; }/* 영역 */.area_view div::selection { background-color: #ff7b7b; color: white; }/* 헤더 */.area_view h1::selection,.area_view h2::selection,.area_view.. Front-End/Front-End 자료실 2018. 6. 3. [ 이토록 쉬운 통계&R 100일 프로젝트 ] 18일차 공부 페이지138 페이지 ~ 154 페이지 배운 개념표본과 모집단표본(Sample) : 한 줌의 모래. 흔히 샘플이라고 함모집단(Population) : 수억 개 모래알이 있는 백사장 통계량과 분포분포 : 관측치나 데이터로부터 계산된 통계량들이 만들어 내는 패턴p-값(p-value) : 분포 속에서의 확률 값. 우리의 데이터 속 차이가 얼마나 의미 있는지를 보여줌. p-값이 0에 가까우면, 실현 불가능할 만큼 큰 차이를 보인다는 것을 의미한다.p-값이 1에 가까우면, 충분히 우연하게 일어날 수 있는 흔한 차이를 의미함. 다음 시간에 배울 것차이의 의미가 있다, 없다를 판단하는 기준이 p-값이라면 그 기준값(Threshold)은 얼마일까? R/R 프로젝트 2018. 6. 3. [ 이토록 쉬운 통계&R 100일 프로젝트 ] 17일차 공부 페이지136 페이지 ~ 137 페이지 배운 개념테스트, 검정변수 속의 차이나 데이터 속 변수의 관계가 우연이 아니라는 것을 보이는 과정. 우연이라고 하기에는 설명이 불가능할 만큼 충분히 큰 차이 혹은 매우 밀접한 관계가 있다는 것을 입장하는 것.그렇다면 얼만큼 커야 충분히 크다고 할 수 있는걸까? 다음 시간에 배울 것표본과 모집단, 통계량과 분포 등 R/R 프로젝트 2018. 6. 2. [ 이토록 쉬운 통계&R 100일 프로젝트 ] 16일차 공부 페이지122 페이지 ~ 133 페이지 배운 개념AB 테스트여러 개를 만들고 사람들의 반응을 살피는 것. 분산분산은 설명 변수로 설명할 수 있는 부분과 도저히 설명할 수 없는 부분으로 나눔. 설명 변수가 관측치들의 차이를 얼마나 자세히 설명할 수 있는가에 따라 설명 변수의 유용성을 판단할 수 있음. 설명할 수 있는 부분과 도저히 설명할 수 없는 부분이 어느 비율로 있는지 확인할 필요가 있음. 분산 분석이 필요 분산분석첫번째. 모든 그룹의 모든 숫자의 평균을 구함. 이를 통해서 각 실제값과 평균의 차이의 제곱합을 구함. 두번째. 자신이 속한 그룹의 평균값을 구함. 각 그룹의 값을 그것의 평균값으로 모두 대체. 모든 숫자 평균과 실제값과의 차이의 제곱합을 구함 세번째. 실제값과 그룹 평균의 차이의 제곱함.. R/R 프로젝트 2018. 6. 1. 이전 1 ··· 33 34 35 36 37 38 39 ··· 45 다음