Python7 [사이드 프로젝트] 크롤링 마이그레이션, Pandas CSV 용량 줄이기 - Parquet 으로 1/10 용량으로 압축하기 최근에 사이드프로젝트 백엔드를 작업하다, 데이터 작업도 같이 맡게 되었습니다. 기존엔 프론트엔드 개발자인 형 혼자서 담당했는데, 개발 리소스를 분산하고자 배우고 있네요. ☺️ 데이터를 크롤링하고 CSV 파일로 만들고 AWS S3에 업로드하는, 기존 크롤링 코드의 언어 마이그레이션 작업을 맡았습니다. 기존엔 JavaScript async-await 코드로 크롤링이 이뤄졌는데요. 매일 수집되는 CSV 용량이 100MB 가 훌쩍 넘어가다보니 비용 문제가 발생했습니다. 이를 해결하기 위해 Parquet 으로 압축하려는 시도를 했으나 자바스크립트의 parquetjs 패키지가 현재 환경에서 동작되지 않는 이슈가 있었습니다. 4년전이 마지막 업데이트다보니 호환이 되지 않는 것 같더라고요. 데이터 전처리 코드도 Pyt.. 프로젝트/장기 프로젝트 2024. 3. 3. 함께 내딛는 프로그래밍 첫 걸음 By 패스트캠퍼스 대학생 서포터즈 1기 다람쥐 지난 두 달간, 패스트캠퍼스 대학생 서포터즈 활동으로 온라인 강의를 듣고 그 학습 후기들을 작성했다. 올인원 패키지 프로그래밍 첫 걸음을 완강하였을 때 그 기쁨은 말로 헤아릴 수 없었다. 그러나 기쁨도 잠시, 대학생 서포터즈로서 프로그래밍을 어떻게 의미 있으면서 사람들에게 알릴 수 있을지 막막했다. 프로그래밍을 어떻게 의미 있으면서 사람들에게 알릴 수 있을까? 답을 고민하기 이전에 나는 프로그래밍을 어떻게 시작했는지, 왜 좋아졌는지를 고민했다. 나도 여느 또래처럼 집에 돌아오면 습관처럼 컴퓨터 전원 버튼을 키고 좋아하는 게임과 인터넷을 탐험했다. 집 컴퓨터의 사양이 그리 좋지 않았기에 게임 환경을 좋게 만들어주는 유틸리티 프로그램들을 많이 접했다. 그 프로그램들을 사용하며 늘 '어떻게 만들었을까?' 하는.. 자유/대외 활동 2019. 6. 10. 패스트캠퍼스 프로그래밍첫걸음 학습후기 ) #14.12주차 학습후기, 진도 100% 패스트캠퍼스 프로그래밍 첫걸음, 열 네 번째 학습 후기 ' 올인원 패키지 : 프로그래밍 첫걸음 시작하기 ' 강의를 듣기 시작한 지 거진 2 개월이 지났다. 학업과 병행하며 자투리 시간에 틈틈이 패스트캠퍼스 올인원 패키지 프로그래밍 첫걸음 강의 영상들을 시청했다. 그렇다고 프로그래밍 첫걸음 강의가 가만히 앉아서 듣는 강의는 절대 아니다. 열심히 개념들을 이해해야 하고 개발 환경을 직접 문서를 보며 구축하고 강사님이 타이핑 한 코드들을 열심히 따라 쳐 내 것으로 만들어야 했다. 그래야 강사님이 내 준 과제를 따라간다. 프로그래밍 첫걸음에서 강사님이 내 준 과제를 하다보면 또 많은 것을 배울 수 있다. 강의 영상에서 시간 관계상 생략한 자세한 설명들을 보충할 수 있고 강사님의 코드와 내 코드와 각각 장단점을 .. 자유/대외 활동 2019. 5. 28. 패스트캠퍼스 프로그래밍첫걸음 학습후기 ) #13.11주차 학습후기, 파이썬 웹크롤러 만들기 패스트캠퍼스 프로그래밍 첫걸음, 열 세 번째 학습 후기 이번 진도에서 드디어 여러 파이썬 라이브러리를 사용해본다. 말뭉치를 분석해주는 konlpy 라이브러리, 크롤링을 하기 위한 BeautifulSoup, requests 라이브러리 들을 실습한다. 파이썬 패키지 매니저의 편리함과 라이브러리의 간편함과 유용함을 체험할 수 있다. 다양한 과제로 차근차근 파이썬 웹 크롤링 프로그램을 만든다. 웹 크롤링, 말뭉치 분석, 엑셀 파일 저장, 워드 클라우드를 활용하여 파이썬으로 얼마나 간단하게 자동화할 수 있는지 느낄 수 있다. 앞서 웹 시간에 배운 내용이 파이썬 프로그램에도 이용될 수 있다는 점이 신기했다. 어느 언어를 배우든 언젠가 꼭 유용하게 이용될 수 있을 것 같다. 11주차 진도에서는11. [PYTHON] .. 자유/대외 활동 2019. 5. 27. 패스트캠퍼스 프로그래밍첫걸음 학습후기 ) #12.10주차 학습후기, 파이썬 프로그래밍 패스트캠퍼스 프로그래밍 첫걸음, 열 두 번째 학습 후기 프로그래밍 첫걸음도 곧 있으면 100% 진도다. 이번 진도도 파이썬 진도다. 스피디한 진행이 마음에 들었고 깃허브 문서로 여느 책 못지 않은 자세한 보충 설명으로 비전공자와 전공자 모두 만족시켜주는 강의다. 강의 영상은 대체로 10분이 넘었다. 이론 설명은 짧게 하고 대부분 실습을 진행하며 어떻게 동작하는지 자세히 알려주었다. 직접 따라쳐서 몸으로 익히면서 귀로 자세한 코드 설명을 듣고 시간을 정말 효율적으로 사용한다는게 마음에 들었다. 10주차 진도에서는06. [PYTHON] 컬렉션(set_tuple)과제1. 내장 함수로 컬렉션 정렬하기07. [PYTHON] 문자열 처리과제2. formatting, split 문자열 메서드 사용하기08. [PYTH.. 자유/대외 활동 2019. 5. 27. 패스트캠퍼스 프로그래밍첫걸음 학습후기 ) #11.9주차 학습후기, 파이썬 프로그래밍 시작 패스트캠퍼스 대학생 서포터즈 프로그래밍 첫걸음 11번째 학습 후기다. 이제 올인원패키지 프로그래밍 첫걸음 마지막 파트인 파이썬 진도에 들어갔다. 올인원패키지 프로그래밍첫걸음 파이썬 파트에서 실무에 자주 쓰이는 라이브러리를 먼저 소개하고 설치해보는 실습을 하는 점이 다른 파이썬 강의와 차별점이다. 아직 프로그래밍 첫걸음 파이썬 파트에서 몇 강의 안 들었지만 앞서 프로그래밍 기본 문법들을 실습했기 때문에 불필요한 부분을 바로 건너뛰었다. 그래서 생각보다 파이썬 프로그래밍 진도가 빨랐다. 실무에서 다루는 핵심 내용만 집중적으로 다루기 때문에 시간 낭비 없이 강의에 집중할 수 있었다. 빠르게 파이썬으로 웹 크롤러까지 만들기 위해 여러가지 라이브러리들도 다루는 내용이 들어가서 초반에 앞서 배운 기초 문법 부분들은.. 자유/대외 활동 2019. 5. 12. 패스트캠퍼스 프로그래밍첫걸음 학습후기 ) #9.7주차 학습후기, 자바스크립트 정복하기! 패스트캠퍼스 올인원 패키지 프로그래밍 첫걸음 시작하기도 60% 가까이 왔다. 끝이 안 보일 것 같던 자바스크립트도 이제 2/3 정도 왔다. 한 주치 진도를 더 나가면 자바스크립트가 마무리 되고 파이썬 자동화 강의로 넘어간다. 이번 진도는 재밌는 것들을 많이 배웠다. 무엇보다 강사님이 직접 코딩하는 모습을 따라하니 어느 정도 자신감이 생겼다. 차근차근 강의를 따라가면 이해가 저절로 되었다. 자바스크립트 처음에는 막막하고 어려웠는데 점점 재밌어졌다. 프로그래밍에 입문하는 사람들께 패스트캠퍼스 올인원패키지 프로그래밍 첫걸음 강의를 강추한다! 쉽고 재밌게 프로그래밍에 입문할 수 있다. 이제 7주차에서 배운 주제들을 정리해보자! 7주차 진도에서는10. [JAVASCRIPT] 자바스크립트 내장객체과제1. 내장 객체.. 자유/대외 활동 2019. 5. 6. 이전 1 다음