개요 Elasticsearch는 실시간 검색이 가능하도록 하기 위해 색인(indexing)이라는 과정이 필요한데 이것을 Elasticsearch는 내부적으로 어떤 처리를 하는 지 알기 위해 오늘은 Elasticsearch 색인 과정에 대해 포스팅 하도록 하겠습니다. (본 내용은 Elasticsearch에 대해 기본적인 이해가 있다고 가정하고 작성하였습니다.) Elasticsearch Cluster 색인 과정을 알아보기 전에 Elasticsearch는 데이터를 어떻게 저장하는 지 알아보겠습니다. Elasticsearch는 Index 라는 단위를 많이 사용하는데 Index란 RDB와 비교하자면 테이블과 비슷합니다. Elasticsearch는 Index를 여러 개로 쪼개서 여러 노드에 분산하여 저장하는데 이 ..
개요 BigQuery의 예약된 쿼리 기능을 사용해서 테이블 별로 postfix를 붙여서 일자 별로 데이터 마트를 생성하는 쿼리를 매일 실행하도록 하려고 하는데 쿼리를 작성할 때, postfix를 동적으로 매일 날짜로 붙이기 위해서 리서치하는 중 알게 된 내용을 정리하려고 한다. 동적 SQL 절차적 언어 | BigQuery | Google Cloud 의견 보내기 절차적 언어 컬렉션을 사용해 정리하기 내 환경설정을 기준으로 콘텐츠를 저장하고 분류하세요. Google 표준 SQL 절차적 언어를 사용하면 단일 쿼리에서 여러 문을 멀티 문 쿼리로 실 cloud.google.com 먼저, BigQuery 에서는 동적 SQL을 실행할 수 있도록 쿼리를 지원을 한다. EXECUTE IMMEDIATE 라는 구문을 지원하..
개요회사에서 DW로 BigQuery를 도입한지 대략 1달이 지났고 전월 BigQuery 비용이 생각보다 많이 나와서 쿼리 사용과 스토리지 등에 대한 모니터링이 필요하다고 느껴졌고 구축에 대한 내용과 이를 통한 얻은 효과에 대해 포스팅을 하려고 한다.BigQuery 쿼리 사용량 모니터링BigQuery는 쿼리 사용량과 스토리지 사용량으로 비용을 청구하는데 스토리지에 대한 비용은 매우 저렴하기 때문에 신경쓰지 않아도 큰 문제는 없어서 쿼리 사용량이 대부분이다. 그렇기 때문에 이를 모니터링 하기 위해서는 쿼리를 사용했다는 것에 대한 정보가 필요한데 다행히도 GCP에서 BigQuery를 사용한 로그를 남겨주기 때문에 이것을 활용하면 된다. 라우팅 및 스토리지 개요 | Cloud Logging | Googl..
개요현재 회사에서 Workflow Management 툴로 Airflow를 도입하였고 DAG를 통해 ETL과 같은 Job을 관리하고 있다. 데이터 플랫폼 구축의 초기 단계이기 때문에 하나의 Repository에서 모든 DAG를 관리하였고 배포도 직접 서버에 접속해서 수동으로 배포하고 있었고 이번에 DW로 BigQuery를 선정하게 되면서 원본 데이터들을 ETL을 통해 DW로 적재하거나 DM을 만드는 DAG가 점점 늘어날 것이고 DAG를 개발하는 인원도 점차 늘어날 것이라고 판단해서 이번에 Airflow DAG에 대한 CI/CD를 구축하기로 결정하게 되었고 CI/CD를 구축하기까지의 여정에 대해 포스팅 해보려고 한다.CI/CD란?보통 개발이 끝난 application이 있다면 이를 실제 서버에 배포하는 것..
개요 airflow가 DAG의 로그를 기록할 때, 로그 라인의 시간 정보의 시간대가 UTC로 나타나는 문제. 로그가 기록될 때 생성되는 파일 이름에서 시간을 지정하면 UTC로 나타나는 문제. 해결 방법 로그 라인 시간대 UTC 문제 # airflow.cfg ... [logging] ... log_format = [%%(asctime)s] {%%(filename)s:%%(lineno)d} %%(levelname)s - %%(message)s ... log_format이 남기는 로그의 포맷인데 asctime이 UTC로 나오게 된다. airflow는 base_log_folder로 로그를 저장하는데 worker들이 task를 실행하고 남기는 로그들의 타임스탬프가 UTC로 되어 있어서 이를 현지 시간대(KST)로..
Airflow 설치에 대한 포스팅은 다음에서 확인할 수 있다. 혹시 설치를 아직 안 했다면 다음 포스팅을 참고하자. [Airflow] Apache Airflow 설치하기 데이터 파이프라인을 구축할 때 이 Workflow를 관리하기 위한 많은 오픈 소스 플랫폼들이 있는데 그중 인기 있고 많은 기업에서 사용 중인 Apache Airflow를 설치를 한 번 해보겠다. 현재 Airflow는 윈도 mungiyo.tistory.com Airflow에서는 파이프라인을 정의하기 위해서 DAG를 사용한다. DAG란 Directred Acyclic Graph의 약자로 방향성 있는 비순환 그래프라고 불린다. 각각의 Task들의 Workflow를 만들 수 있는데 예를 들어, ETL 파이프라인을 구축한다고 한다면 각각의 Tas..