본문 바로가기
320x100
728x90

빅데이터2

AWS Athena 비용 절감작업 회고 최근 회사에서 AWS athena 비용 절감 작업을 진행했다. 기존엔 S3 수명주기 규칙을 이용하여 오래된 데이터는 자동으로 삭제되도록 자동화를 진행했지만 (참고) 다른 팀의 요청으로 부득이하게 수명주기 규칙을 일시 정지했다. 그러다보니, 데이터가 s3에 적재되는 양이 많아졌고, 이에 따라 아테나 스캔에 대한 비용이 증가했다. (S3에 물리적인 데이터가 삭제되지 않았기 때문에.) (뭐 물론 한 번에 하려고 서브 쿼리를 넣은 등, 쿼리 최적화 누락에 대한 문제도 있었다...) 기존에 방식은 JSON 형태의 데이터를 일정 크기에 맞게 압축해서 파티셔닝 했다. 이 방법도 AWS 공식 문서에서 소개하는 최적화 방법이긴 하다. 그러나 물리적인 데이터 양이 많아져서 다른 방법이 필요했다. 회사 팀장님께서 'Parq.. 2022. 7. 27.
JAVA]크롤링을 이용하여 웹 텍스트 마이닝 사이트 만들기 국비 지원 교육과정을 수료하고 남는 시간을 이용해서 만들어 볼 것이 뭐가 있을까 생각을 하다가, 우연히 생각난 게 대학교 때, R이라는 툴을 이용해서 텍스트 마이닝을 했던 것이 생각났다. 크롤링이 무엇이냐면, 웹 사이트에 존재하는 데이터들을 추출해내는 행위이고, 텍스트 마이닝은 이런 사진을 많이 봤을 텐데, 빅데이터에서 많이 사용되는 시각화 기법 중 하나로 특정 분야나 업무 등에서 많이 언급되는 데이터를 나열한 것인데, 많이 언급되는 단어일수록 크기가 커짐으로써, 사용자로 하여금 어떤 데이터가 대세인지 쉽게 알 수 있는 텍스트 기반의 기법이다. 개발환경 Library : jsoup 1.13.1 , JQuery 3.5.2 build tools : Maven 인터넷을 검색하다가 Jsoup라는 웹 크롤링 라이.. 2020. 8. 11.
300x250
320x100