전체 보기529 [ 이토록 쉬운 통계&R 100일 프로젝트 ] 42일차 공부 페이지259 페이지 ~ 262 페이지 배운 개념cbind() / rbind() 함수로 열/행 결합하기통계학에서 데이터를 행렬(matrix)이라고 표현한다. 가로줄을 행(row), 세로줄을 열(column)이라고 한다. 12345678910> rbind(c("A", "B", "C"), c("x", "y", "z")) [,1] [,2] [,3][1,] "A" "B" "C" [2,] "x" "y" "z" > cbind(c("A", "B", "C"), c("x", "y", "z")) [,1] [,2][1,] "A" "x" [2,] "B" "y" [3,] "C" "z" cs [ ]로 부분 선택하기123456789101112131415161718192021222324252627282930313233> rbin.. R/R 프로젝트 2018. 6. 27. [빅데이터 직무연구회] 8회차 모임 정리 [빅데이터 직무연구회] 8회차 모임 정리모임 요일 : 6월 25일 월요일 오후 4시 2장, 3장, 5장 복습 2.3.7 SVM (P. 125 ~ P. 137)SVM은 데이터를 여러 그룹으로 분류하는 데에 쓰일 수 있다. (P.129 3차원)학습방법 : 클래스 사이의 경계에 위치한 데이터 포인트 (서포트 벡터) 와의 거리를 계산해 새로운 데이터 포인트 클래스를 예측 (P. 131)매개변수 C와 gamma의 역할 (그림 2-42)데이터 전처리 (= 표준화) 3.3 데이터 전처리와 스케일 조정 (P.169 ~ P.178)3.3.2 데이터 변환 적용하기전처리 MinMaxScaler훈련세트와 테스트세트로 나누기(In[4])객체생성(In[5])fit 메서드로 훈련 데이터 적용(In[6]) - 최솟값과 최댓값 계산t.. 인공지능 2018. 6. 26. [ 이토록 쉬운 통계&R 100일 프로젝트 ] 41일차 공부 페이지255 페이지 ~ 258 페이지 배운 개념부등호( >, 3>0[1] TRUE > 3 3 == 0[1] FALSE > 3 != 0[1] TRUEcs 12345678910> 1:5 >= 3[1] FALSE FALSE TRUE TRUE TRUE > y = 1:5 >= 3 > y[1] FALSE FALSE TRUE TRUE TRUE > y + 1[1] 1 1 2 2 2cs TRUE는 숫자 1, FALSE는 숫자 0과 같기 때문에 사칙연산도 적용할 수 있다. %in%로 논리연산하기1234> v1 = 1:10 > v1 %in% c(3, 7, 9) [1] FALSE FALSE .. R/R 프로젝트 2018. 6. 26. [빅데이터 직무연구회] 7회차 모임 정리 - 소스 %load_ext watermark %watermark -v -p sklearn,numpy,scipy,matplotlib CPython 3.5.4 IPython 6.1.0 sklearn 0.19.1 numpy 1.13.3 scipy 1.0.0 matplotlib 2.1.0 In [2]:%matplotlib inline from preamble import * 텍스트 데이터 다루기문자열 데이터 타입예제 어플리케이션: 영화 리뷰 감성 분석In [3]:# !은 셸(shell) 명령을 실행해주는 IPython의 매직 명령어입니다. # tree 명령이 없다면 find ./data -type d 명령을 사용해 하위 폴더의 목록을 # 볼 수 있습니다. # !tree -dL 2 data/aclImdb !find ./d.. 인공지능 2018. 6. 26. [빅데이터 직무연구회] 7회차 모임 정리 [빅데이터 직무연구회] 7회차 모임 정리모임 요일 : 5월 31일 목요일 저녁 6시 Chapter 7. 텍스트 데이터 다루기 텍스트 데이터는 주로 글자가 연결된 문자열로 표현된다. 텍스트 데이터의 길이는 서로 같은 경우는 거의 없다. 이런 특성은 이제까지 본 수치형 특성과 매우 다르므로 머신러닝 알고리즘에 적용하기 전에 전처리를 해야 한다. 7.1 문자열 데이터 타입문자열 데이터는 네 종류가 있다범주형 데이터빨강, 녹색, 파랑, 노랑, 검정, 흰색, 자주, 분홍 중 하나를 선택범주에 의미를 연결시킬 수 있는 임의의 문자열철차를 틀리거나, 회색이나 쥐색처럼 다르게 쓸 수 있다. 이런 데이터를 범주형 변수로 인코딩하려면 가장 보편적인 값을 선택하든지, 애플리케이션에 맞게 이런 응답을 포용할 수 있는 범주를 .. 인공지능 2018. 6. 26. [ 이토록 쉬운 통계&R 100일 프로젝트 ] 40일차 공부 페이지252 페이지 ~ 254 페이지 배운 개념paste() 함수로 문자 붙이기1234567891011> paste("A", "+", 1, "등급")[1] "A + 1 등급" > paste("2학년", c("1반", "2반", "3반"), sep="-")[1] "2학년-1반" "2학년-2반" "2학년-3반" > paste(1:4, "학기", sep="")[1] "1학기" "2학기" "3학기" "4학기" > paste0(1:4, "학기")[1] "1학기" "2학기" "3학기" "4학기"cs substr() 함수로 글자 부분 선택하기함수 안 첫 번째로 원본 글자가 들어간다. 두 번째가 시작 위치, 세 번째가 끝 위치다. 12345> substr("ABCDEFGHIJKLMNOPQRSTUVWXYZ", 10.. R/R 프로젝트 2018. 6. 25. [ 이토록 쉬운 통계&R 100일 프로젝트 ] 39일차 공부 페이지249 페이지 ~ 251 페이지 배운 개념" ", ' ' 로 문자 입력하기문자형 데이터는 "", ''로 이용한다. c() 함수로 값 나열하기concatenate 단어에서 나왔다. combine 으로 기억하면 편하다.하나의 값이 아니라 여러 개의 값을 나열하고 싶을 때 사용한다. 12345> c("A", "Z", "C")[1] "A" "Z" "c" > c(2017, 2019, 2020)[1] 2017 2019 2020cs rep() 함수로 값 반복하기반복하는 함수다. 두 가지 값이 필요하다. 첫 번째 값은 반복할 값, 두 번째 값은 반복 횟수다. 12345> rep(10, 3)[1] 10 10 10 > rep(c('A', 'B'), 3)[1] "A" "B" "A" "B" "A" "B"cs 다음 .. R/R 프로젝트 2018. 6. 24. [ 이토록 쉬운 통계&R 100일 프로젝트 ] 38일차 공부 페이지244 페이지 ~ 248 페이지 배운 개념사칙 연산자+, -, *, /를 활용한다. 제곱, 몫과 나머지 연산자제곱 : ^몫 : %/%나머지 : %% 수열 만들기정수 수열 : > 2:10[1] 2 3 4 5 6 7 8 9 10 seq() 함수로 수열 만들기> seq(from=1, to=15, by=5)[1] 1 6 11 1부터 15까지 5등분 하려면, length 속성을 넣는다.> seq(1, 15, length=5)[1] 1.0 4.5 8.0 11.5 15.0 다음 시간에 배울 것R 기본 함수 R/R 프로젝트 2018. 6. 23. [ 이토록 쉬운 통계&R 100일 프로젝트 ] 37일차 공부 페이지232 페이지 ~ 243 페이지 배운 개념R과 RStudioR은 데이터를 불러와 손질하고 분석하는 것까지 한두 줄의 명령어로 끝낼 수 있다는 장점이 있다.훌륭한 분석가들이 만든 레시피, 알고리즘 역시 한두 줄의 명령어로 실행하고 결과를 확인할 수 있다. 마이크로소프트 Excel과 달리 무료라는 장점이 있다. RStudio는 R을 조금 더 편하게 사용할 수 있도록 인터페이스를 제공해준다. R 설치cloud.r-project.org 사이트에서 설치한다. 각 운영체제에 맞춰 설치파일을 다운로드 받아 설치한다. RStudio 설치RStudio.com 사이트에서 설치한다. RStudio Desktop (Open Source License) Free 버전을 다운로드 받아 설치한다. 다음 시간에 배울 것B.. R/R 프로젝트 2018. 6. 21. [ 이토록 쉬운 통계&R 100일 프로젝트 ] 36일차 공부 페이지223 페이지 ~ 231 페이지 배운 개념결정계수 (Coefficient of determination) 로 표현하는 결정계수는 전체 분산의 크기 중 모형이 설명하는 부분의 양을 비율로 계산한 것이다.1에 가까울수록 모형이 설명하는 비중이 크니까 더 좋다고 할 수 있다.결정계수 는 실제로 아빠 키와 아들 키의 상관계수 0.5를 제곱하면 결정계수와 동일한 값이 나온다. 단순선형회귀(Simple linear regression): 연속형 관심 변수 y를 하나의 연속형 설명 변수 x와의 직선 관계로 설명하는 아주 간단한 선형회귀모형 회귀분석(Regression analysis)많은 설명 변수 중에서 진짜 모형에 필요한 의미 있는 변수를 찾기 위해 t-검정을 사용한다.전체 모형이 관심 변수를 설명하는.. R/R 프로젝트 2018. 6. 21. 읽고 싶은 자기계발 도서 : 린 스타트업, Zero to One 유투브에서 이 책을 꼭 읽어보라는 조언이 있었다. 도서관에서 잠깐 읽어봤었는데, 꽤 흥미로웠다. 에릭 리스의 경험과 철학이 담긴 책을 꼭 완독해 보고 싶다. 그리고 에릭 리스의 'The Lean Startup'과 더불어, 'Zero to One' 책도 같이 읽어보고 싶다. 경영쪽에는 문외한이라, 평소에 이 쪽 지식들을 공부해보고 싶은 욕구는 있었다. 단어들이 생소하겠지만 많이 읽다보면은 익숙해지리라 믿는다. 도서/자기계발 도서 2018. 6. 21. [ 이토록 쉬운 통계&R 100일 프로젝트 ] 35일차 공부 페이지214 페이지 ~ 222 페이지 배운 개념선형회귀모형전에 살펴 본 아빠 키와 아들 키의 표준화된 산점도에서 상관 계수는 0.5 였습니다. 이를 가지고 두 변수의 관계 식을 만들어 봅시다. 1. 상관계수로 표준화된 두 변수 관계를 표현합니다. 2. 양변에 아들 키의 표준 편차를 곱합니다. 식을 다듬어 표준편차를 변수로 묶어주자 3. 양변에 아들 키의 평균을 더합니다. 아빠 키의 평균과 표준편차는 각각 171.93cm, 6.97cm 이고, 아들 키의 평균과 표준편차는 각각 174.46cm, 7.15cm 이다. 이 숫자들을 3단계 식에 대입해보자. 숫자들의 곱하기와 더하기를 계산해보면 다음과 같다. 아빠 키와 아들 키의 관계는 숫자 두 개를 활용한 곱하기와 더하기로 표현할 수 있다. 표준화된 두 변.. R/R 프로젝트 2018. 6. 20. 이전 1 ··· 30 31 32 33 34 35 36 ··· 45 다음