Fluentd 구성 요소 Fluentd 구조 Input : 로그 수집 플러그인. HTTP, tail, TCP 등 기본 플러그인 외에도 확장 플러그인을 통해 다양한 서버나 애플리케이션으로부터 다양한 포맷의 데이터를 수집할 수 있다.Parser (Optional) : Input 플러그인을 통해 데이터를 읽어도 Fluentd에서 지원하지 않는 데이터 포맷인 경우, 그 데이터를 Parsing 하기 위해 사용할 수 있는 플러그인. RE 기반으로 스트링을 parsing 하는 플러그인뿐만 아니라 apache, nginx, syslog 등의 다양한 포맷의 데이터를 Parsing 할 수 있는 플러그인들이 존재한다.Filter (Optional) : Input 플러그인을 통해 읽어들인 데이터를 Output 플러그인으로 보..
분류 전체보기
VPC(Virtual Private Cloud) 구성 VPC 사용자 AWS 계정 전용 가상 네트워크. AWS 클라우드에서 다른 가상 네트워크와 논리적으로 분리되어 있다. VPC의 IPv4 주소 범위는 CIDR(Classless Inter-Domain Routing) 블록 형태로 지정해야 한다. VPC에 여러 개의 IPv4 CIDR 블록과 여러 개의 IPv6 CIDR 블록을 선택적으로 연결할 수 있다. 허용된 IPv4 CIDR 블록 크기는 /16 ~ /28 넷마스크이다. RFC 1918 규격에 따라 프라이빗 IPv4 주소 범위에 속하는 CIDR 블록을 지정하는 것이 좋다. 규격에 벗어나는 IP 주소를 사용하게 된다면 외부와 통신할 때 자신의 IP와 같은 IP에는 접근할 수 없기 때문이다. 10.0.0.0/..
오랜만에 글을 써봅니다. 2022년을 마무리하고 새로운 해 2023년이 밝았네요. 시간 진짜 빠릅니다. 간단한 인사는 이 정도로 하고 제가 2022년은 어떻게 보냈고 2023년에는 어떻게 보낼 계획인지 정리해보려고 합니다. 2022년 어떻게 보냈지? 나의 2021년 회고 그리고 새로운 준비 블로그를 시작한 지 거의 한 달이 다 되어가는데 시간은 진짜 빠르게 지나가는 것 같다. 2019년 1월 21일에 입대를 하고 2020년 8월 27일에 전역을 하게 되었는데 벌써 2021년의 끝이라는 게 실감이 잘 mungiyo.tistory.com 2021년 회고를 작성한 지가 엊그제 같은데 벌써 2023년이 다가왔네요. 시간이 참 빠르네요. 참... 저도 성실하지는 못한 것 같습니다. 2021년 회고에서 블로그 작성..
오랜만에 포스팅을 작성해 봅니다. 2022.06.27 ~ 2022.09.23 약 3개월 정도의 인턴이 끝났네요. 길다면 길고 짧다면 짧은 3개월 동안의 제가 맡은 업무와 그로 인해 얻은 경험과 생각들에 대해 정리해 보려고 합니다. 우연히 네오위즈에서 데이터 엔지니어 업무를 할 수 있는 인턴 공고를 보게 되었고 저는 기회다 싶어 지원하여 운이 좋게 합격하여 인턴 업무를 시작하게 되었습니다. 저에게 주어진 업무는 실제 공고에 쓰여진대로 Data Discovery Platform(DDP)를 구축하는 것이 업무였습니다. 특정 업무를 저에게 지시하여 시킨다기 보다는 DDP 구축이라는 것에 대해 자유롭게 진행하도록 맡기셨고 말 그대로 end-to-end로 모든 것을 제가 진행하게 되었습니다. 요구 사항 분석부터 D..
Airflow 설치에 대한 포스팅은 다음에서 확인할 수 있다. 혹시 설치를 아직 안 했다면 다음 포스팅을 참고하자. [Airflow] Apache Airflow 설치하기 데이터 파이프라인을 구축할 때 이 Workflow를 관리하기 위한 많은 오픈 소스 플랫폼들이 있는데 그중 인기 있고 많은 기업에서 사용 중인 Apache Airflow를 설치를 한 번 해보겠다. 현재 Airflow는 윈도 mungiyo.tistory.com Airflow에서는 파이프라인을 정의하기 위해서 DAG를 사용한다. DAG란 Directred Acyclic Graph의 약자로 방향성 있는 비순환 그래프라고 불린다. 각각의 Task들의 Workflow를 만들 수 있는데 예를 들어, ETL 파이프라인을 구축한다고 한다면 각각의 Tas..
데이터 파이프라인을 구축할 때 이 Workflow를 관리하기 위한 많은 오픈 소스 플랫폼들이 있는데 그중 인기 있고 많은 기업에서 사용 중인 Apache Airflow를 설치를 한 번 해보겠다. 현재 Airflow는 윈도우에서의 설치를 지원하지 않아 윈도우의 WSL을 활용하여 설치해보겠다. 실행 환경 Python 3.8.x Windows 10 WSL2 가상 환경 만들기 # airflow를 설치할 디렉토리 생성 $ mkdir airflow-project # 디렉토리로 이동 $ cd airflow-project # 가상 환경 생성 $ python -m venv .venv # 가상 환경 활성화 $ source .venv/bin/activate # 활성화 완료 시 (.venv) $ Apache Airflow 설..