Apache Airflow vs Step Functions para ETL

Clase 49 de 52 • Curso de Big Data en AWS

Resumen

La orquestación y automatización de flujos de trabajo de big data exige flexibilidad real. Aunque AWS sugiere usar Step Functions para ETL, su alcance se limita a iniciar un job de Glue. Por eso, Apache Airflow se posiciona como la opción más completa para crear, monitorear y orquestar pipelines complejos con dependencias, paralelismo y sensores configurables, todo en Python.

¿Por qué elegir Apache Airflow para orquestar ETL y big data?

Apache Airflow permite definir el flujo de punta a punta: extracción, transformaciones múltiples y entrega a otros sistemas. La ventaja clave es su flexibilidad para describir tareas, programarlas y conectarlas con el ecosistema de datos.

AWS vs Airflow: Step Functions inicia Glue, pero no cubre la orquestación completa deseada para ETL complejas.
Airflow en Python: los pipelines se configuran con Python, favoreciendo reutilización y control total.
Automatización integral: creación, monitoreo y orquestación en un mismo lugar.

¿Qué integra con Python, bases de datos y notificaciones?

Airflow ofrece una amplia variedad de operators y utilidades para encadenar sistemas y eventos.

Soporte de scripts: bash y Python para tareas personalizadas.
Alertas y seguimiento: integración con emails para notificaciones.
Conectores clave: bases de datos como Postgres SQL, brokers como Redis y uso de colas.
Construcción de ecosistemas: unir múltiples servicios para un pipeline de big data robusto.

¿Cómo funciona un DAG y qué papel cumplen los operators?

El núcleo de Airflow es el DAG (Directed Acyclic Graph): una colección de tareas con dependencias explícitas. Permite definir qué se ejecuta primero, qué va después y qué puede correr en paralelo para acelerar agregaciones o procesos independientes.

DAG: representa el grafo donde viven las tareas y sus relaciones.
Dependencias: definen precedencias y caminos paralelos según la lógica del proceso.
Sensores y programación: ejecución por horario o por condiciones parametrizables.

¿Cómo se definen dependencias y sensores en Airflow?

Las tareas se conectan con reglas claras y pueden dispararse por horarios o eventos.

Secuencias: una tarea antecede a otra cuando su salida es necesaria.
Paralelismo: varias tareas pueden ejecutarse al mismo tiempo si no dependen entre sí.
Sensores: activación basada en tiempo o en parámetros configurables.

¿Qué es un operator y por qué es importante?

Un operator describe una tarea que corre de forma independiente.

Tipología: existen diferentes operators según la tarea a ejecutar.
Encapsulación: cada operator define qué hace, cómo lo hace y con qué recursos.
Reutilización: facilita componer pipelines complejos manteniendo el código ordenado.

¿Dónde implementar Airflow en AWS o Google Cloud Platform?

Siendo open source, Airflow se puede desplegar de varias formas y entornos, con o sin administración del proveedor.

Contenedores en AWS: construir un docker file y ejecutarlo en un servicio de contenedores.
Instancia dedicada: instalarlo en una instancia S2.
Servicio administrado: usar Google Cloud Platform con un Apache Airflow completamente administrado.

¿Qué opción conviene para orquestación de big data?

La experiencia compartida destaca que el servicio administrado de Google Cloud Platform es de los mejores para orquestar ETL y proyectos de big data. En AWS también se puede operar manualmente y orquestar trabajos, pero la gestión administrada en GCP ofrece una experiencia sólida y conveniente.

¿Tú cómo estás orquestando tus ETL y flujos de big data con Airflow? Comparte tu enfoque y retos en los comentarios.

Alexander Grajales Vanegas

student•

platzi tiene un curso de airtflow?

Nicolás Neira Navarrete

student•

sería genial un curso de airflow!

Daniel Eduardo Portugal Revilla

student•

x3! ojalá haga cursos especiales por cada herramienta de Big Data, Airflow, Spark, Flink, Kafka o carreras donde englobe por batch o streaming integrado con ML, etc.

Daniel Eduardo Portugal Revilla

student•

Airflow de Zero a Hero por la Comunidad de Data Engineering LATAM

https://www.youtube.com/watch?v=a3lSQr22RN4

Juan Camilo Alvarez Jurado

student•

Se aprecia bastante el recurso. ¡Gracias!

Juan David Cajamarca Acuña

student•

Con este servicio podremos orquestar y automatizar todo un proyecto de BigData.

Características

Apache Airflow permite crear, monitorear y orquestar los flujos de trabajo.
Los Pipelines son configurados usando Python.
Es muy flexible, permite modificación de executors, operators y demás entidades dentro de Airflow. Aquí podemos utilizar scripts de bash, scripts de Python, podemos implementar emails para notificaciones, podemos integrarlo con bases de datos relacionales, a brokers como Redis, a colas, etc.
Este servicio es Open Source, por lo cual, se puede implementar en AWS de diferentes formas: trabajarlo con contenedores en AWS o trabajarlo con instancias EC2, pero la mejor opción es trabajarlo dentro de GCP, a través de un servicio llamado Cloud Composer que es una integración de Apache Airflow totalmente administrado. Esta es la mejor opción que existe en el mercado para orquestar y automatizar flujos de proyectos de BigData.

Conceptos fundamentales

DAG: Directed Acyclic Grap, es una colección de todas las tareas de las que se requiere que corran con sus dependencias y relaciones. Es así como a través del DAG podemos especificar todo un sistema de dependencias y esas dependencias se pueden ejecutar basados en diferentes sensores.
Operator: Describe una tarea que corre independiente de las otras tareas.

Iván Augusto Diaz

student•

Cuándo el curso de AIRFLOW?

Darvin Orozco

student•

Entonces ¿No existe integración de Apache AirFlow con los diferentes servicios de AWS? ¿Es mejor utilizar Airflow en GCP?

Carlos Andrés Zambrano Barrera

teacher•

SIp, podes desplegar Airflow en AWS en servicios como Ec2 o Ecs.

Darvin Orozco

student•

Gracias @czam01

Daniel Eduardo Portugal Revilla

student•

Otra buena alternativa para implementar Airflow en cloud es Astronomer.

https://www.astronomer.io/

Mario Reyes

student•

@czam01 me podrias recomendar algun producto de AWS con el cual pueda hacer trigger de mi worklow con Step Functions?

Carlos Andrés Zambrano Barrera

teacher•

Depende de tu caso de uso, el trigger puede ser un evento de cloudwatch por ejemplo... Pero dime tu caso y vemos que trigger sería el más óptimo.

Mario Reyes

student•

Hola Carlos @czam01! en mi caso debo ejecutar una serie de lambdas que ejecutan ETL (batch), Glue tiene la opción de programar la ejecución de ETL pero antes de ejecutarse quisiera validar las fuentes y si es el caso entonces disparar los estados de la stepFunction que ejecutarian de manera programática los jobs alojados en Glue. Que me recomiendas?

Usuario anónimo

user•

Apache Airflow te permite automatizar y orquestar todo tu proyecto de Big Data. Algunas características importantes:

Permite crear, monitorear y orquestar flujos de trabajo. Los pipeline son configurados usando Python. La estructura básica dentro de Apache Airflow se llama Directed Acyclic Grap (DAG), es un colección de todas las tareas que se requieren correr con sus dependencias.

Usuario anónimo

user•

Apache airflow crear, monitear y orquestar flujos de trabajo automáticamente. se usa con python

Usuario anónimo

user•

Apache Airflow is opensource, ok!!

john ct

student•

Apache Airflow bastante potente> is an open-source workflow management platform. It started at Airbnb in October 2014 as a solution to manage the company's increasingly complex workflows. Creating Airflow allowed Airbnb to programmatically author and schedule their workflows and monitor them via the built-in Airflow user interface.

Apache Airflow vs Step Functions para ETL

Bienvenida e introducción al curso

Big Data en la Nube: Análisis, Transformación y Seguridad

Big Data en Cloud desde origen a visualización

Por qué big data en cloud es más eficiente

Extracción vs ingesta en proyectos big data

Comparativa de AWS y GCP para proyectos BigData

Arquitecturas

Arquitectura Lambda: 3 capas para datos en tiempo real

Arquitectura capa: el tiempo real como ventaja

Cómo funciona la arquitectura batch

Extracción de información

Cómo mover datos a cloud con SDK y CLI

Python y boto3 para listar buckets S3

Boto3: inicializar clients de AWS en Python

API Gateway como puerta de big data

Storage Gateway: puerta entre on-premise y S3

AWS Kinesis: streaming masivo de datos

Cómo crear Kinesis Data Stream en AWS

Despliegue automatizado de Kinesis con CloudFormation

Cómo Kinesis Firehose entrega datos en tiempo real

Configuración de Kinesis Firehose en AWS

Configuración Básica de Amazon Kinesis Firehose en AWS

MSK vs Kinesis: cuál elegir en AWS

Creación de clúster AWS MSK desde la consola

Transformación de Información

Cómo AWS Glue transforma datos en la nube

Instalación de Apache Zeppelin paso a paso

Configurar developer endpoint de AWS Glue con Zeppelin

Conexión de Apache Zeppelin con AWS

Configurar AWS Glue Crawler para poblar catálogo

Configuración de Developer Endpoint en AWS Glue

Cómo configurar AWS Glue ETL desde S3 a Parquet

Qué es EMR y cuándo usarlo

Crear tu primer cluster de AWS EMR

Conectar Apache Zeppelin a EMR

EMR automatizado con CloudFormation

AWS Lambda para proyectos de big data

Lambdas en big data: real time y batch

Configuración de AWS Lambda para Big Data

Carga de Información

Cómo Athena consulta datos en S3 con SQL

Cómo funciona AWS Athena con S3

Redshift vs Athena: cuándo usar cada uno

Configuración de cluster Redshift en AWS

AWS Lake Formation automatiza tu data lake

Consumo de información

Cómo dimensionar shards de Elasticsearch en AWS

Cómo crear un clúster Elasticsearch en AWS

Cómo funciona Kibana con Elasticsearch

QuickSight: el BI en cloud de AWS

Configuración completa de QuickSight en AWS

Seguridad, Orquestación y Automatización

5 reglas de seguridad para Big Data en AWS

Cómo AWS Macie protege datos en S3

Configuración de AWS Macie en 5 pasos

Apache Airflow vs Step Functions para ETL

Despliegue de Apache Airflow en GCP

Arquitecturas batch y streaming en AWS

Clase pública

Las cinco B de big data explicadas