Parquet1 [사이드 프로젝트] 크롤링 마이그레이션, Pandas CSV 용량 줄이기 - Parquet 으로 1/10 용량으로 압축하기 최근에 사이드프로젝트 백엔드를 작업하다, 데이터 작업도 같이 맡게 되었습니다. 기존엔 프론트엔드 개발자인 형 혼자서 담당했는데, 개발 리소스를 분산하고자 배우고 있네요. ☺️ 데이터를 크롤링하고 CSV 파일로 만들고 AWS S3에 업로드하는, 기존 크롤링 코드의 언어 마이그레이션 작업을 맡았습니다. 기존엔 JavaScript async-await 코드로 크롤링이 이뤄졌는데요. 매일 수집되는 CSV 용량이 100MB 가 훌쩍 넘어가다보니 비용 문제가 발생했습니다. 이를 해결하기 위해 Parquet 으로 압축하려는 시도를 했으나 자바스크립트의 parquetjs 패키지가 현재 환경에서 동작되지 않는 이슈가 있었습니다. 4년전이 마지막 업데이트다보니 호환이 되지 않는 것 같더라고요. 데이터 전처리 코드도 Pyt.. 프로젝트/장기 프로젝트 2024. 3. 3. 이전 1 다음