[Slide] Build simple data pipeline for ETL and data aggregation on AWS
Note: This post is over 8 years old. The information may be outdated.
The goal of this document is develop a simple data pipeline for ETL and data aggregation.
Mình vừa có một chút chia sẻ ngắn về xây dựng Data Pipeline trên AWS, phục vụ cho ETL và Data Aggregation. xin phép chia sẻ slide tại đây.
Nếu không xem được vui lòng download theo link sau: https://talk.duyet.net/data-pipeline-aws/design-datapipeline-aws.pdf
Related Posts
Spark on Kubernetes Performance Tuning
Spark Performance tuning is a process to improve the performance of Spark. In this post, I will focus on Spark running on Kubernetes.
Airflow 2.0 - Taskflow API
Chú trọng vào việc đơn giản hóa và rõ ràng cách viết Airflow DAG, cách trao đổi thông tin giữa các tasks, Airflow 2.0 ra mắt Taskflow API cho phép viết đơn giản và gọn gàng hơn so với cách truyền thống, đặc biệt vào các pipelines sử dụng PythonOperators.
Tại sao nên triển khai Apache Spark trên Kubernetes
Spark đã quá nổi tiếng trong thế giới Data Engineering và Bigdata. Kubernetes cũng ngày càng phổ biến tương tự, là một hệ thống quản lý deployment và scaling application. Bài viết này bàn đến một số lợi ích khi triển khai ứng dụng Apache Spark trên hệ thống Kubernetes.
Scheduling Python script in Airflow
To schedule a Python script or Python function in Airflow, we use `PythonOperator`. For Airflow 2.0+, consider using the TaskFlow API for a more modern approach.
