Despliegue de Apache Airflow en GCP

Clase 50 de 52 • Curso de Big Data en AWS

Resumen

Optimiza la orquestación de datos en la nube con un entorno administrado: crea un cluster de Apache Airflow en Google Cloud Composer, configura versiones y parámetros críticos, sube tus DAGs y controla dependencias, paralelismo y monitoreo centralizado. Conecta tareas con servicios como AWS CloudWatch, S3, Glue, Athena, Redshift y EMR usando Boto3, y opera todo desde la web UI y StackDriver para escalar proyectos de big data con confianza.

¿Cómo desplegar Cloud Composer en Google Cloud Platform?

Configurar un servicio administrado reduce fricción operativa y acelera la puesta en marcha. Aquí se recorre la creación del cluster, las opciones más relevantes y el acceso a componentes clave para trabajar con Apache Airflow en Google Cloud Platform.

Crear proyecto en Google Cloud Platform y abrir Google Cloud Composer.
Crear el cluster: nombre "Platzi Airflow". Mínimo de nodos: tres.
Región: use central 1. Sin preferencia de zona.
Ajustes opcionales: machine type, tamaño de disco, autorización, networking y subredes.
Imagen de Apache Airflow: 1.9, 1.10 o 1.10.1. Grandes cambios de 1.9 a 1.10.1, incluida integración nativa con el ecosistema de big data. Se percibe 1.10.1 como más estable en el momento descrito.
Versión de Python: 2 o 3.
Configuraciones avanzadas: sobrescribir en archivo airflow.cfg del servidor principal.
Variables de entorno: evitar “quemar” data sensible en archivos de configuración.
Agregar labels y, más adelante, paquetes adicionales según necesidad.

Al crear el cluster, lo esencial está a mano: DAGs Folder (carpeta donde se suben los DAGs), acceso a la web UI de Airflow, y StackDriver para revisar logs. También es posible ajustar configuraciones y variables de entorno cuando sea necesario.

¿Cómo cargar DAGs y configurar tareas en Apache Airflow?

El flujo inicia vacío en la web UI. Luego, se sube el archivo de ejemplo al DAGs Folder en un bucket de Cloud Storage para habilitar la visualización y ejecución.

En la web UI: inicialmente no hay DAGs.
En DAGs Folder: abrir el bucket y la carpeta dags. Cargar el archivo de ejemplo.
El archivo incluye librerías requeridas: Airflow DAGs, manejo de tiempos y operators.
Estructura típica de un DAG: DAG ID, nombre principal, descripción, intervalos de ejecución y schedule, concurrencia y reintentos.
Concepto de operator: ejecuta una tarea específica, aislada de otras. Se usa Python operator.
Definir Python callable: se ilustra con un "Hello World"; en producción, puede llamar un script que, vía Boto3, se conecte a AWS para extraer logs de CloudWatch y llevarlos a S3, o ejecutar procesos de crawling, export o ETL.

¿Qué es un operator en Airflow?

Un operator encapsula una acción atómica dentro del flujo. Facilita reutilización, pruebas y claridad.

Cada operator resuelve una tarea concreta.
Python operator permite invocar funciones Python con parámetros.
Aísla responsabilidades y simplifica dependencias.

¿Cómo se modelan dependencias y paralelismo en un DAG?

La definición del DAG establece precedencias y paralelismo para optimizar tiempos.

Una tarea inicial (por ejemplo, extract de CloudWatch) puede desencadenar múltiples tareas en paralelo.
Se reflejan transformaciones, visualización y cargas hacia Glue, Athena, Redshift y EMR.
La estructura deja claro el orden, los puntos de sincronización y el grado de paralelismo.

¿Cómo operar, monitorear y programar los DAGs en la web UI?

Tras cargar el archivo, se refresca la lista de DAGs y aparece el nombre definido. La web UI ofrece vistas y métricas para ejecutar, auditar y mejorar la confiabilidad.

Visualizaciones: vista de árbol, vista gráfica de precedencias y gráfica GANT para duración por tarea.
Métricas: duración, intentos, y gráficas de tiempo de ejecución.
Acciones: trigger del DAG y navegación por tareas para ver logs en StackDriver.
Programación: ejecutar todos los días a una hora específica; levantar un job cuando termine otro o tras una hora de espera.
Beneficio clave: orquestación y automatización de cargas heterogéneas, incluso con diferentes cloud provider, para proyectos de big data.

¿Quieres profundizar en una integración o en el diseño de tus dependencias? Cuéntame tu caso y comenta qué flujo necesitas orquestar.

Vianel Rodriguez

teacher•

Ya AWS tiene un servicio como el de google cloud https://aws.amazon.com/blogs/aws/introducing-amazon-managed-workflows-for-apache-airflow-mwaa/

Jose Suarez

student•

Se quedo super desactualizada la carrera de AWS en platzi.

Manuel Roa Ojeda

student•

@czam01 por favor actualicen este curso :D

john ct

student•

Ivan Acosta

student•

¿Dónde se puede ubicar el archivo gad_platzi.py?

Jose Suarez

student•

No esta :/

Usuario anónimo

user•

Para el tema de los costos se pueden emplear los recursos brindados por Google Cluod (https://cloud.google.com/products/calculator)

Daniel Eduardo Portugal Revilla

student•

Es un poco más complicado de eso en Composer, si bien nos dice que el cobro es por segundo o minuto. el servicio de composer está levantado 24x7. levanta un listado de contenedores y pods, así como instancia de cloud SQL. es un poco caro el servicio, evaluar siempre en su caso de uso y arquitectura que van a implementar

Mario Alexander Vargas Celis

student•

Creando nuestro primer clúster en Cloud Composer (Google Cloud) 🚀

Google Cloud Composer es un servicio administrado basado en Apache Airflow que permite orquestar flujos de trabajo en la nube sin preocuparse por la infraestructura.

1️⃣ Requisitos previos

Antes de crear un clúster en Cloud Composer, asegúrate de que tienes lo siguiente: ✅ Una cuenta de Google Cloud (GCP). ✅ El servicio de facturación habilitado. ✅ Habilitado el API de Cloud Composer y Cloud Storage. ✅ Instalado gcloud SDK en tu máquina (si lo harás por CLI).

2️⃣ Crear un clúster de Cloud Composer desde la consola

1️⃣ Accede a la consola de Google Cloud: 📍 Ve a Cloud Composer en la consola: 👉

2️⃣ Selecciona "Crear Entorno". 3️⃣ Configura los parámetros del clúster:

Nombre del entorno: mi-cluster-composer
Región: Selecciona la más cercana a ti.
Versión de Airflow: Se recomienda usar la más reciente.
Máquinas virtuales: Define el tamaño del clúster según la carga de trabajo.
Almacenamiento: Google Cloud Storage se usa para guardar DAGs y logs.
Red: Puedes usar la predeterminada o configurar una VPC personalizada.

4️⃣ Haz clic en "Crear" y espera unos minutos hasta que el entorno se aprovisione.

3️⃣ Crear un clúster de Cloud Composer con gcloud

Si prefieres hacerlo desde la línea de comandos, usa el siguiente comando:

gcloud composer environments create mi-cluster-composer \ --location us-central1 \ --image-version composer-2-airflow-2 \ --machine-type n1-standard-2 \ --node-count 3

📌 Explicación de los parámetros:

--location us-central1 → Define la región donde se crea el clúster.
--image-version composer-2-airflow-2 → Usa Airflow 2.x.
--machine-type n1-standard-2 → Especifica el tipo de máquina.
--node-count 3 → Número de nodos en el clúster.

Puedes verificar el estado del entorno con:

gcloud composer environments list --locations us-central1

4️⃣ Acceder a la UI de Airflow

Una vez creado el entorno, accede a la interfaz web de Airflow: 1️⃣ Desde la consola de GCP, ve a Composer > Entornos. 2️⃣ Selecciona el clúster y haz clic en Abrir Airflow UI.

También puedes obtener la URL con el siguiente comando:

gcloud composer environments describe mi-cluster-composer \ --location us-central1 \ --format="get(config.airflowUri)"

5️⃣ Subir un DAG a Cloud Composer

Cloud Composer almacena los DAGs en un bucket de Google Cloud Storage. Para agregar un DAG, súbelo al bucket asociado con tu clúster:

gsutil cp mi_dag.py gs://us-central1-mi-cluster-composer-bucket/dags/

Luego, verifica en la UI de Airflow si el DAG aparece.

6️⃣ Eliminar el clúster cuando no lo necesites

Si ya no necesitas el clúster, elimínalo para evitar costos innecesarios:

gcloud composer environments delete mi-cluster-composer \ --location us-central1

7️⃣ Beneficios de usar Cloud Composer

✅ Administración simplificada: No necesitas gestionar la infraestructura de Airflow. ✅ Escalabilidad: Se adapta a cargas de trabajo grandes automáticamente. ✅ Integración con Google Cloud: Compatible con BigQuery, Dataflow, Pub/Sub y más. ✅ Alta disponibilidad: Es un servicio administrado con soporte de Google.

Jhon Edward Bedoya

student•

👉🏼

Oscar Eduardo Palomino Cárdenas

student•

No está el arhivo dag_platzi.py.

Sandy Falcon

student•

No está el arhivo dag_platzi.py

Andres Camilo Graciano Higuita

student•

Al elegir la versión de Python y la imagen de Airflow, considera lo siguiente:

Compatibilidad: Verifica que las librerías y dependencias que usarás sean compatibles con la versión de Python seleccionada. Algunas librerías pueden no soportar versiones más nuevas.
Versiones de Airflow: Las imágenes pueden tener cambios significativos entre versiones (1.9 a 1.11), afectando características y compatibilidad con otros servicios de Big Data.
Estabilidad: Escoge una versión de Airflow que sea estable y recomendada por la comunidad, lo cual minimiza errores en producción.
Pruebas locales: Realiza pruebas locales para asegurar que tus scripts y configuraciones funcionen correctamente antes de desplegar en producción.

Estas consideraciones ayudarán a evitar problemas de compatibilidad en tus proyectos de Big Data.

Andres Camilo Graciano Higuita

student•

La orquestación de datos no solo es automatización: es diseño inteligente de procesos. Composer nos recuerda que cada tarea bien estructurada acerca los datos al conocimiento de forma más ágil y confiable.

Fabrizio Ramírez

student•

Por favor, actualizar este curso

Darvin Orozco

student•

Cuando hay tareas paralelas que se ejecutarán en un DAG, ¿Se debe configurar algo en GCP para que se auto-escalable todo el procesamiento necesario para ejecutar dichas tareas?

Carlos Andrés Zambrano Barrera

teacher•

como tal el procesamiento depende de donde vas a ejecutar tus tareas... por ejemplo si es en Dataflow, glue u otro el escalamiento depende del servicio... o vas a procesar algo en contenedores, ahi se depende de la política de autoscaling del servicio.

Darvin Orozco

student•

Para orquestar un proyecto de BigData, ¿Es mejor hacerlo (por tema de costos e integración nativa con otros servicios) desde Cloud Composer en GCP y no en AWS?

Carlos Andrés Zambrano Barrera

teacher•

Depende... En GCP esta cloud composer, en AWS recomiendan formalmente Stepfunctions o ahora lakeformation que ya tuvo su release. Tambien ahora se tienen workflows visuales en Glue. En mi caso hemos desplegado airflow en AWS en ECS.

Darvin Orozco

student•

Interesante saber que ya existen workflows visuales en Glue, eso ayudará bastante, mil gracias profesor @czam01

Jaime Patricio Ramírez Ramírez

student•

Es necesario actualizar los cursos del path AWS, actualmente este servicio ya existe en la nube de Amazon.

Moises Bravo

student•

Creo que hay que actualizar este curso

Usuario anónimo

user•

muy interesante esta introduccion a airflow con google cloud. La pregunta que tengo es... si es muy costoso configurar el ambiente por mi propia cuenta ya sea en EC2 o contenedores como se dijo en el anterior video. Y que ocurriria con los temas de kubernetes en airflow?

Usuario anónimo

user•

ok, gracias!!

john ct

student•

bien interesante y claro. gracias

john ct

student•

ej: Cloudwatch>> cashins_glue

Carlos Nexans

student•

Donde puedo encontrar el archivo con el codigo del DAG? :)

Despliegue de Apache Airflow en GCP

Bienvenida e introducción al curso

Big Data en la Nube: Análisis, Transformación y Seguridad

Big Data en Cloud desde origen a visualización

Por qué big data en cloud es más eficiente

Extracción vs ingesta en proyectos big data

Comparativa de AWS y GCP para proyectos BigData

Arquitecturas

Arquitectura Lambda: 3 capas para datos en tiempo real

Arquitectura capa: el tiempo real como ventaja

Cómo funciona la arquitectura batch

Extracción de información

Cómo mover datos a cloud con SDK y CLI

Python y boto3 para listar buckets S3

Boto3: inicializar clients de AWS en Python

API Gateway como puerta de big data

Storage Gateway: puerta entre on-premise y S3

AWS Kinesis: streaming masivo de datos

Cómo crear Kinesis Data Stream en AWS

Despliegue automatizado de Kinesis con CloudFormation

Cómo Kinesis Firehose entrega datos en tiempo real

Configuración de Kinesis Firehose en AWS

Configuración Básica de Amazon Kinesis Firehose en AWS

MSK vs Kinesis: cuál elegir en AWS

Creación de clúster AWS MSK desde la consola

Transformación de Información

Cómo AWS Glue transforma datos en la nube

Instalación de Apache Zeppelin paso a paso

Configurar developer endpoint de AWS Glue con Zeppelin

Conexión de Apache Zeppelin con AWS

Configurar AWS Glue Crawler para poblar catálogo

Configuración de Developer Endpoint en AWS Glue

Cómo configurar AWS Glue ETL desde S3 a Parquet

Qué es EMR y cuándo usarlo

Crear tu primer cluster de AWS EMR

Conectar Apache Zeppelin a EMR

EMR automatizado con CloudFormation

AWS Lambda para proyectos de big data

Lambdas en big data: real time y batch

Configuración de AWS Lambda para Big Data

Carga de Información

Cómo Athena consulta datos en S3 con SQL

Cómo funciona AWS Athena con S3

Redshift vs Athena: cuándo usar cada uno

Configuración de cluster Redshift en AWS

AWS Lake Formation automatiza tu data lake

Consumo de información

Cómo dimensionar shards de Elasticsearch en AWS

Cómo crear un clúster Elasticsearch en AWS

Cómo funciona Kibana con Elasticsearch

QuickSight: el BI en cloud de AWS

Configuración completa de QuickSight en AWS

Seguridad, Orquestación y Automatización

5 reglas de seguridad para Big Data en AWS

Cómo AWS Macie protege datos en S3

Configuración de AWS Macie en 5 pasos

Apache Airflow vs Step Functions para ETL

Despliegue de Apache Airflow en GCP

Arquitecturas batch y streaming en AWS

Clase pública

Las cinco B de big data explicadas