Airflow

· Data/Airflow
개요기존 AWS에서 CeleryExecutor 를 활용하여 EC2 기반으로 Airflow 를 운영하였고 이번에 DevOps 팀에서 EKS를 구축하게 되면서 이를 기회 삼아 KubernetesExecutor 를 활용하여 EKS 기반으로 Airflow 를 구축하고 기존 Airflow 의 DAG 들의 이관을 계획하게 되었습니다. 이번 포스팅에서 기존 방식은 어떤 문제가 있었고 어떻게 EKS에 Airflow 를 구축하였고 EKS 기반으로 옮기게 되면서 얻게 된 장단점에 대해 써보겠습니다.기존 방식과 문제점기존에는 Airflow 가 제공하는 CeleryExecutor 를 통해 여러 EC2 인스턴스를 활용하여 Master-Worker 구조의 클러스터를 구축했었습니다. 먼저, CeleryExecutor 의 방식에 대..
· Backend
필요 설정 파일Airflowairflow.cfgFluentdfluentd.confElastalertairflow.yaml설정Dag Run LogAirflow# airflow.cfg[logging]log_format = time:%%(asctime)s filename:%%(filename)s:%%(lineno)d levelname:%%(levelname)s message:%%(message)slog_filename_template = dag/{{ ti.dag_id }}/{{ logical_date.now().year }}-{{ logical_date.now().month }}-{{ logical_date.now().day }}.loglog_formatDag를 실행시킨 후 해당 Dag에서 발생하는 로그..
· Data/Airflow
데이터 파이프라인을 구축할 때 이 Workflow를 관리하기 위한 많은 오픈 소스 플랫폼들이 있는데 그중 인기 있고 많은 기업에서 사용 중인 Apache Airflow를 설치를 한 번 해보겠다. 현재 Airflow는 윈도우에서의 설치를 지원하지 않아 윈도우의 WSL을 활용하여 설치해보겠다. 실행 환경 Python 3.8.x Windows 10 WSL2 가상 환경 만들기 # airflow를 설치할 디렉토리 생성 $ mkdir airflow-project # 디렉토리로 이동 $ cd airflow-project # 가상 환경 생성 $ python -m venv .venv # 가상 환경 활성화 $ source .venv/bin/activate # 활성화 완료 시 (.venv) $ Apache Airflow 설..
멍이요
'Airflow' 태그의 글 목록