빅데이터12 [빅데이터 직무연구회] 7회차 모임 정리 - 소스 %load_ext watermark %watermark -v -p sklearn,numpy,scipy,matplotlib CPython 3.5.4 IPython 6.1.0 sklearn 0.19.1 numpy 1.13.3 scipy 1.0.0 matplotlib 2.1.0 In [2]:%matplotlib inline from preamble import * 텍스트 데이터 다루기문자열 데이터 타입예제 어플리케이션: 영화 리뷰 감성 분석In [3]:# !은 셸(shell) 명령을 실행해주는 IPython의 매직 명령어입니다. # tree 명령이 없다면 find ./data -type d 명령을 사용해 하위 폴더의 목록을 # 볼 수 있습니다. # !tree -dL 2 data/aclImdb !find ./d.. 인공지능 2018. 6. 26. [빅데이터 직무연구회] 7회차 모임 정리 [빅데이터 직무연구회] 7회차 모임 정리모임 요일 : 5월 31일 목요일 저녁 6시 Chapter 7. 텍스트 데이터 다루기 텍스트 데이터는 주로 글자가 연결된 문자열로 표현된다. 텍스트 데이터의 길이는 서로 같은 경우는 거의 없다. 이런 특성은 이제까지 본 수치형 특성과 매우 다르므로 머신러닝 알고리즘에 적용하기 전에 전처리를 해야 한다. 7.1 문자열 데이터 타입문자열 데이터는 네 종류가 있다범주형 데이터빨강, 녹색, 파랑, 노랑, 검정, 흰색, 자주, 분홍 중 하나를 선택범주에 의미를 연결시킬 수 있는 임의의 문자열철차를 틀리거나, 회색이나 쥐색처럼 다르게 쓸 수 있다. 이런 데이터를 범주형 변수로 인코딩하려면 가장 보편적인 값을 선택하든지, 애플리케이션에 맞게 이런 응답을 포용할 수 있는 범주를 .. 인공지능 2018. 6. 26. [빅데이터 직무연구회] 6회차 모임 정리 (2) [빅데이터 직무연구회] 6회차 모임 정리 (2)모임 요일 : 5월 24일 목요일 저녁 6시 Chapter 5. 모델 평가와 성능 향상 모델 평가와 매개변수 선택에 대해 더 자세히 배우는 파트다. 두 가지 관점에서 평가 방법을 확장한다. 먼저 안정적인 일반화 성능 측정 방법인 교차 검증이다. 그 다음 score 메서드가 제공하는 정확도와 R^2 값 이외에 분류와 회귀 성능을 측정하는 다른 방법이다. 또한 가장 좋은 일반화 성능을 얻기 위해서 지도 학습 모델의 매개변수를 조정하는 데 유용한 그리드 서치도 있다. 5.1 교차 검증교차 검증(cross-validation)은 일반화 성능을 재기 위해 훈련 세트와 테스트 세트로 한 번 나누는 것 보다 더 안정적이고 뛰어난 통계적 평가 방법이다. 데이터를 여러 번 .. 인공지능 2018. 6. 6. [빅데이터 직무연구회] 6회차 모임 정리 (1) [빅데이터 직무연구회] 6회차 모임 정리 (1)모임 요일 : 5월 24일 목요일 저녁 6시 Chapter 4. 데이터 표현과 특성 공학 일반적인 특성의 전형적인 형태 = 범주형 특성(categorical feature) 또는 이산형 특성(discrete feature) 특성 공학(feature engineering) : 특정 애플리케이션에 가장 적합한 데이터 표현을 찾는 것 성능에 더 도움되는 행동 : 올바른 데이터 표현 >> 지도 학습 모델에서 적절한 매개변수를 선택하는 것 4.1 범주형 변수4.1.1 원-핫-인코딩(가변수)범주형 변수를 표현하는 데 가장 널리 쓰이는 방법. 원-아웃-오브-엔 인코딩(one-out-of-N encoding) 혹은 가변수(dummy variable) 이라고도 함. 가변수 .. 인공지능 2018. 6. 6. [빅데이터 직무연구회] 5회차 모임 예제 소스 (3) from sklearn.cluster import DBSCAN X, y = make_blobs(random_state=0, n_samples=12) dbscan = DBSCAN() clusters = dbscan.fit_predict(X) print("클러스터 레이블:\n{}".format(clusters)) 클러스터 레이블: [-1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1] In [62]:mglearn.plots.plot_dbscan() min_samples: 2 eps: 1.000000 cluster: [-1 0 0 -1 0 -1 1 1 0 1 -1 -1] min_samples: 2 eps: 1.500000 cluster: [0 1 1 1 1 0 2 2 1 2 2 0] min_sam.. 인공지능 2018. 5. 19. [빅데이터 직무연구회] 5회차 모임 예제 소스 (2) mglearn.plots.plot_kmeans_algorithm() In [45]:mglearn.plots.plot_kmeans_boundaries() In [46]:from sklearn.datasets import make_blobs from sklearn.cluster import KMeans X, y = make_blobs(random_state=1) kmeans = KMeans(n_clusters=3) kmeans.fit(X) Out[46]:KMeans(algorithm='auto', copy_x=True, init='k-means++', max_iter=300, n_clusters=3, n_init=10, n_jobs=1, precompute_distances='auto', random_sta.. 인공지능 2018. 5. 19. [빅데이터 직무연구회] 5회차 모임 예제 소스 (1) from IPython.display import display import numpy as np import matplotlib.pyplot as plt import pandas as pd import mglearn # 폰트 관련 자료 # https://programmers.co.kr/learn/courses/21/lessons/950 import matplotlib matplotlib.rc("font", family="NanumGothicCoding") In [2]:mglearn.plots.plot_scaling() In [3]:from sklearn.datasets import load_breast_cancer from sklearn.model_selection import train_test_sp.. 인공지능 2018. 5. 19. [빅데이터 직무연구회] 5회차 모임 정리 [빅데이터 직무연구회] 5회차 모임 정리모임 요일 : 5월 17일 목요일 저녁 6시Chapter 3. 비지도 학습과 데이터 전처리비지도 학습 : 알고 있는 출력값이나 정보 없이 학습 알고리즘을 가르쳐야 하는 모든 종류의 머신러닝3.1 비지도 학습의 종류이번 장에서 배울 것비지도 변환(unsupervised transformation)군집(clustering)비지도 변환 : 데이터를 새롭게 표현하여 사람이나 다른 머신러닝 알고리즘이 원래 데이터보다 쉽게 해석할 수 있도록 만드는 알고리즘. 데이터를 구성하는 단위나 성분을 찾기도 한다.비지도 변환 예 : 차원 축소 차원 축소(dimensionality reduction) : 특성이 많은 고차원 데이터를 특성의 수를 줄이면서 꼭 필요한 특징을 포함한 데이터로 .. 인공지능 2018. 5. 19. [빅데이터 직무연구회] 4회차 모임 정리 [빅데이터 직무연구회] 4회차 모임 정리모임 요일 : 5월 10일 목요일 저녁 6시 2.3.7 커널 서포트 벡터 머신 (SVM)"분류용 선형 모델"에서 선형 서포트 벡터 머신을 사용해 봤다. 커널 서포트 벡터 머신은 입력 데이터에서 단순한 초평면(hyperplane)으로 정의되지 않느 더 복잡한 모델을 만들 수 있도록 확장한 것이다.분류와 회귀 모두 사용할 수 있다. 분류 문제만을 다뤄보겠다. 선형 모델과 비선형 특성직선과 초평면은 유연하지 못하다. 따라서 저차원 데이터셋에서 선형 모델이 매우 제한적이다.선형 모델을 유연하게 만드는 방법은 다음과 같다.특성끼리 곱함특성을 거듭제곱함위 같은 방법으로 새로운 특성을 추가하는 것이다.커널 기법비선형 특성을 추가해 선형 모델을 강력하게 만듦. 특성이 많은 경우 .. 인공지능 2018. 5. 18. [빅데이터 직무연구회] 3주차 모임 정리 빅데이터 직무연구회. 3주차 모임 정리 모임 요일 : 5월 3일 목요일 저녁 6시분류용 선형 모델선형 모델은 분류에도 널리 사용고차원에서의 분류 선형 모델은 매우 강력해 진다. 특성이 많아지면 과대적합되지 않도록 하는 것이 중요하다.이진 분류(Binary Classification)선형 회귀와 아주 비슷함.예측한 값을 임계치 0과 비교함.계산한 값이 0보다 작으면 클래스를 -1예측하고 0보다 크면 +1 이라고 예측회귀용 선형 모델에서는 출력 y이 특성의 선형 함수다.분류용 선형 모델에서는 결정 경게가 입력의 선형 함수다.선형 분류기는 선, 평면, 초평면을 사용해서 두 개의 클래스를 구분하는 분류기 특정 계수와 절편의 조합이 훈련 데이터에 얼마나 잘 적합하는지 측정규제.. 인공지능 2018. 5. 4. [빅데이터 직무연구회] 2주차 모임 정리 [빅데이터 직무연구회] 2주차 모임 정리모임 요일 : 4월 30일 일요일 저녁 6시 2.1 분류와 회귀지도 학습에는 분류(Classification)와 회귀(Regression)가 있다. 1. 분류 : 미리 정의된, 가능성 있는 여러 클래스 레이블(class label) 중 하나를 예측하는 것이진 분류 : 두 개의 클래스로 분류, 양성(positive) 클래스, 음성(negative) 클래스다중 분류 : 셋 이상의 클래스로 분류 2. 회귀 : 연속적인 숫자, 또는 프로그래밍 용어로 말하면 부동소수점수(수학 용어로는 실수)를 예측하는 것, 예상 출력 값 사이에 연속성이 있음 2.2 일반화, 과대적합, 과소적합일반화(Generalization) : 모델이 처음 보는 데이터에 대해 정확하게 예측할 수 있을 때.. 인공지능 2018. 5. 3. [빅데이터 직무연구회] 1주차 모임 정리 [빅데이터 직무연구회] 1주차 모임 정리작성자 : 블로거모임 요일 : 4월 12일 목요일 저녁 6시 학교 커뮤니티에서 빅데이터쪽으로 관련해 스터디 및 공모전 준비하는 직무연구회를 모집한다는 글을 보고 신청했다. 직무연구회란 직무 중심의 채용이 일반화 된 상황에서 학생의 희망진로 및 관심이 유사한 학생들이 모여 '직무'별 자치 학습조직(동아리, 취업스터디 등)을 운영하여 취엽역량을 제고하는 목적으로 학교측에서 정식 지원해주는 모임이다. 1차적으로 모집된 사람들끼리 간단하게 모여, 운영 방향을 어떻게 잡으면 좋을지 의논했다. 도서는 '파이썬 라이브러리를 활용한 머신러닝, 안드레아스 뮐러, 세라 가이도 지음, 박해선 옮김, 한빛미디어', 으로 정했다. 다음 1주차 모임까지 챕터 1장까지 하는 것으로 끝이 났다.. 인공지능 2018. 4. 14. 이전 1 다음