Despliegue y Orquestación de Tareas con Google Cloud Composer

Clase 50 de 52 • Curso de Big Data en AWS

Resumen

¿Cómo se despliega un clúster con Apache Airflow en Google Cloud?

Desplegar un clúster de Apache Airflow usando Google Cloud Composer es una poderosa herramienta para orquestar tareas en proyectos de Big Data. Aquí, te guiaré paso a paso por el proceso de creación de un clúster de Airflow y la carga de tus DAGs (Directed Acyclic Graphs) para gestionar eficientemente el flujo de trabajo de tus proyectos.

¿Por qué usar Google Cloud Composer?

Google Cloud Composer es un servicio gestionado que simplifica la creación, configuración y administración de clústeres de Apache Airflow. Esto nos permite concentrarnos en nuestras tareas sin preocuparnos por la infraestructura subyacente.

¿Cómo crear un proyecto en Google Cloud?

Acceder a la consola de Google Cloud: Primero, inicia sesión en tu consola de Google Cloud.
Crear un nuevo proyecto: Selecciona "Crear proyecto." Da un nombre a tu proyecto.
Ir a Google Cloud Composer: Navega hacia el servicio de Google Cloud Composer. Allí comenzarás la configuración de tu clúster de Apache Airflow.

¿Cómo configurar el clúster de Apache Airflow?

Nombre del clúster: Asigna un nombre, por ejemplo, "Platzi Airflow."
Cantidad de nodos: La opción predeterminada es de tres nodos. Puedes modificarlo según tus necesidades.
Selección de región: Escoge una región, como "US Central 1."
Configuración de instancias y clúster: Personaliza el tipo de instancia y otras configuraciones según los requerimientos de tu proyecto, o déjalo con valores predeterminados.
Versión de imagen y Python: Selecciona las versiones de imagen (1.9, 1.10, o 1.11) y de Python (2 o 3). Es importante elegir versiones que ofrezcan integraciones estables y sean compatibles con tus librerías y proyectos.

¿Cómo cargar tus DAGs en Google Cloud Storage?

Acceder a DAGs Folder: Este será el repositorio donde cargarás tus DAGs. Dirígete al "DAGs folder" en el bucket de Google Cloud Storage.
Cargar archivos DAG: Dentro de la carpeta, carga tus archivos DAG. Puedes descargar un archivo de ejemplo del curso para entender mejor la estructura.

¿Cómo configurar y visualizar DAGs en Apache Airflow?

Entender los DAGs: Un DAG es una colección de tareas que deben ejecutarse en un orden específico. La estructura permite definir:
- ID de DAG
- Descripción
- Concurrencia
- Intentos de reejecución
Carga y ejecución de DAGs: Una vez cargado en Apache Airflow, el sistema graficará automáticamente las precedencias entre tareas. Esto proporcionará una vista visual del flujo de trabajo.
Configuración adicional en DAGs: Puedes personalizar el entorno y las conexiones y definir tareas específicas, como extracción de logs desde CloudWatch a S3 usando Python Operator.

¿Qué más puedes hacer con Apache Airflow?

Triggers y ejecución programada: Configura tareas para que se ejecuten a intervalos específicos o después de ciertos eventos.
Monitorear el rendimiento: Examina gráficos de Gantt para ver la duración de tareas, su frecuencia de ejecución y los logs asociados.
Integraciones: Conéctate a otros servicios como AWS Glue, Athena, o Redshift para gestionar el flujo completo de datos.

Google Cloud Composer ofrece una suite robusta para gestionar flujos de trabajo complejos de Big Data, apoyando a usuarios en la automatización y orquestación eficiente de sus proyectos en la nube. Atrévete a explorar este mundo y optimiza tus tareas de Big Data con confianza.

Vianel Rodriguez

teacher•

Ya AWS tiene un servicio como el de google cloud https://aws.amazon.com/blogs/aws/introducing-amazon-managed-workflows-for-apache-airflow-mwaa/

Jose Suarez

student•

Se quedo super desactualizada la carrera de AWS en platzi.

Manuel Roa Ojeda

student•

@czam01 por favor actualicen este curso :D

john ct

student•

Ivan Acosta

student•

¿Dónde se puede ubicar el archivo gad_platzi.py?

Jose Suarez

student•

No esta :/

Usuario anónimo

user•

Para el tema de los costos se pueden emplear los recursos brindados por Google Cluod (https://cloud.google.com/products/calculator)

Daniel Eduardo Portugal Revilla

student•

Es un poco más complicado de eso en Composer, si bien nos dice que el cobro es por segundo o minuto. el servicio de composer está levantado 24x7. levanta un listado de contenedores y pods, así como instancia de cloud SQL. es un poco caro el servicio, evaluar siempre en su caso de uso y arquitectura que van a implementar

Mario Alexander Vargas Celis

student•

Creando nuestro primer clúster en Cloud Composer (Google Cloud) 🚀

Google Cloud Composer es un servicio administrado basado en Apache Airflow que permite orquestar flujos de trabajo en la nube sin preocuparse por la infraestructura.

1️⃣ Requisitos previos

Antes de crear un clúster en Cloud Composer, asegúrate de que tienes lo siguiente: ✅ Una cuenta de Google Cloud (GCP). ✅ El servicio de facturación habilitado. ✅ Habilitado el API de Cloud Composer y Cloud Storage. ✅ Instalado gcloud SDK en tu máquina (si lo harás por CLI).

2️⃣ Crear un clúster de Cloud Composer desde la consola

1️⃣ Accede a la consola de Google Cloud: 📍 Ve a Cloud Composer en la consola: 👉

2️⃣ Selecciona "Crear Entorno". 3️⃣ Configura los parámetros del clúster:

Nombre del entorno: mi-cluster-composer
Región: Selecciona la más cercana a ti.
Versión de Airflow: Se recomienda usar la más reciente.
Máquinas virtuales: Define el tamaño del clúster según la carga de trabajo.
Almacenamiento: Google Cloud Storage se usa para guardar DAGs y logs.
Red: Puedes usar la predeterminada o configurar una VPC personalizada.

4️⃣ Haz clic en "Crear" y espera unos minutos hasta que el entorno se aprovisione.

3️⃣ Crear un clúster de Cloud Composer con gcloud

Si prefieres hacerlo desde la línea de comandos, usa el siguiente comando:

gcloud composer environments create mi-cluster-composer \ --location us-central1 \ --image-version composer-2-airflow-2 \ --machine-type n1-standard-2 \ --node-count 3

📌 Explicación de los parámetros:

--location us-central1 → Define la región donde se crea el clúster.
--image-version composer-2-airflow-2 → Usa Airflow 2.x.
--machine-type n1-standard-2 → Especifica el tipo de máquina.
--node-count 3 → Número de nodos en el clúster.

Puedes verificar el estado del entorno con:

gcloud composer environments list --locations us-central1

4️⃣ Acceder a la UI de Airflow

Una vez creado el entorno, accede a la interfaz web de Airflow: 1️⃣ Desde la consola de GCP, ve a Composer > Entornos. 2️⃣ Selecciona el clúster y haz clic en Abrir Airflow UI.

También puedes obtener la URL con el siguiente comando:

gcloud composer environments describe mi-cluster-composer \ --location us-central1 \ --format="get(config.airflowUri)"

5️⃣ Subir un DAG a Cloud Composer

Cloud Composer almacena los DAGs en un bucket de Google Cloud Storage. Para agregar un DAG, súbelo al bucket asociado con tu clúster:

gsutil cp mi_dag.py gs://us-central1-mi-cluster-composer-bucket/dags/

Luego, verifica en la UI de Airflow si el DAG aparece.

6️⃣ Eliminar el clúster cuando no lo necesites

Si ya no necesitas el clúster, elimínalo para evitar costos innecesarios:

gcloud composer environments delete mi-cluster-composer \ --location us-central1

7️⃣ Beneficios de usar Cloud Composer

✅ Administración simplificada: No necesitas gestionar la infraestructura de Airflow. ✅ Escalabilidad: Se adapta a cargas de trabajo grandes automáticamente. ✅ Integración con Google Cloud: Compatible con BigQuery, Dataflow, Pub/Sub y más. ✅ Alta disponibilidad: Es un servicio administrado con soporte de Google.

Jhon Edward Bedoya

student•

👉🏼

Oscar Eduardo Palomino Cárdenas

student•

No está el arhivo dag_platzi.py.

Sandy Falcon

student•

No está el arhivo dag_platzi.py

Andres Camilo Graciano Higuita

student•

Al elegir la versión de Python y la imagen de Airflow, considera lo siguiente:

Compatibilidad: Verifica que las librerías y dependencias que usarás sean compatibles con la versión de Python seleccionada. Algunas librerías pueden no soportar versiones más nuevas.
Versiones de Airflow: Las imágenes pueden tener cambios significativos entre versiones (1.9 a 1.11), afectando características y compatibilidad con otros servicios de Big Data.
Estabilidad: Escoge una versión de Airflow que sea estable y recomendada por la comunidad, lo cual minimiza errores en producción.
Pruebas locales: Realiza pruebas locales para asegurar que tus scripts y configuraciones funcionen correctamente antes de desplegar en producción.

Estas consideraciones ayudarán a evitar problemas de compatibilidad en tus proyectos de Big Data.

Andres Camilo Graciano Higuita

student•

La orquestación de datos no solo es automatización: es diseño inteligente de procesos. Composer nos recuerda que cada tarea bien estructurada acerca los datos al conocimiento de forma más ágil y confiable.

Fabrizio Ramírez

student•

Por favor, actualizar este curso

Darvin Orozco

student•

Cuando hay tareas paralelas que se ejecutarán en un DAG, ¿Se debe configurar algo en GCP para que se auto-escalable todo el procesamiento necesario para ejecutar dichas tareas?

Carlos Andrés Zambrano Barrera

teacher•

como tal el procesamiento depende de donde vas a ejecutar tus tareas... por ejemplo si es en Dataflow, glue u otro el escalamiento depende del servicio... o vas a procesar algo en contenedores, ahi se depende de la política de autoscaling del servicio.

Darvin Orozco

student•

Para orquestar un proyecto de BigData, ¿Es mejor hacerlo (por tema de costos e integración nativa con otros servicios) desde Cloud Composer en GCP y no en AWS?

Carlos Andrés Zambrano Barrera

teacher•

Depende... En GCP esta cloud composer, en AWS recomiendan formalmente Stepfunctions o ahora lakeformation que ya tuvo su release. Tambien ahora se tienen workflows visuales en Glue. En mi caso hemos desplegado airflow en AWS en ECS.

Darvin Orozco

student•

Interesante saber que ya existen workflows visuales en Glue, eso ayudará bastante, mil gracias profesor @czam01

Jaime Patricio Ramírez Ramírez

student•

Es necesario actualizar los cursos del path AWS, actualmente este servicio ya existe en la nube de Amazon.

Moises Bravo

student•

Creo que hay que actualizar este curso

Usuario anónimo

user•

muy interesante esta introduccion a airflow con google cloud. La pregunta que tengo es... si es muy costoso configurar el ambiente por mi propia cuenta ya sea en EC2 o contenedores como se dijo en el anterior video. Y que ocurriria con los temas de kubernetes en airflow?

Usuario anónimo

user•

ok, gracias!!

john ct

student•

bien interesante y claro. gracias

john ct

student•

ej: Cloudwatch>> cashins_glue

Carlos Nexans

student•

Donde puedo encontrar el archivo con el codigo del DAG? :)

Despliegue y Orquestación de Tareas con Google Cloud Composer

Bienvenida e introducción al curso

Big Data en la Nube: Análisis, Transformación y Seguridad

Transformación de Datos en Cloud: Automatización y Seguridad

Big Data en la Nube: Escalabilidad, Automatización y Eficiencia

Almacenamiento y Procesamiento de Datos en la Nube

Comparativa de AWS y GCP para proyectos BigData

Arquitecturas

Arquitectura Lambda para Procesamiento de Datos en la Nube

Arquitectura Capa: Procesamiento de Datos en Tiempo Real

Arquitectura Batch: Procesamiento de Datos Histórico en la Nube

Extracción de información

Extracción de Datos a la Nube: Estrategias y Herramientas

Uso de Python y AWS Cloud9 para Proyectos de Big Data

Uso de Boto3 para Servicios AWS en Python

Integración de AWS API Gateway en Proyectos de Big Data

Uso de Storage Gateway para Integración de Datos en la Nube

Procesamiento de Datos en Tiempo Real con AWS Kinesis Data Stream

Creación de Kinesis Data Streams en AWS

Despliegue de Kinesis con AWS CloudFormation

Entrega y Transformación de Datos con Kinesis Firehose en AWS

Configuración de Kinesis Firehose en AWS paso a paso

Configuración Básica de Amazon Kinesis Firehose en AWS

AWS MSK: Implementación y Gestión de Apache Kafka en la Nube

Despliegue de Clúster MSK en AWS paso a paso

Transformación de Información

Transformación de Datos con AWS Glue: ETL y Catálogo de Metadatos

Instalación y Configuración de Apache Zeppelin para AWS Glue

Configuración de Developer Endpoint en AWS Glue para Apache Zeppelin

Conexión y configuración de Apache Zeppelin para ETL en AWS

Creación de un ETL con AWS Glue: Crawlers y Catalogación de Datos

Configuración y Ejecución de ETL en AWS Glue paso a paso

Creación y Ejecución de ETL con AWS Glue y S3

Procesamiento de Datos con EMR en AWS

Creación de un clúster EMR en AWS paso a paso

Conexión y Configuración de Zeppelin en Clúster EMR

Automatización de Clústeres EMR con Plantillas de CloudFormation

AWS Lambda en Proyectos de Big Data en Tiempo Real

Uso de Lambda en Arquitecturas de Big Data Real Time y Batch

Configuración de Funciones Lambda para Big Data en AWS

Carga de Información

Consultas SQL en Big Data con AWS Athena y S3

Consultas SQL en S3 con AWS Athena y Glue Catalog

AWS Redshift: Almacenamiento y Análisis de Datos Masivos

Configuración de Amazon Redshift en AWS paso a paso

Lake Formation: Automatización y Seguridad en Gestión de Data Lakes

Consumo de información

Implementación de Elasticsearch en AWS: Búsqueda y Visualización

Despliegue de Clúster Elasticsearch en AWS Paso a Paso

Visualización de Datos con Kibana y Elasticsearch en AWS

Visualización de Datos en AWS con QuickSight

Habilitación y uso de QuickSight en AWS

Seguridad, Orquestación y Automatización

Seguridad en Big Data con AWS: Cifrado, Permisos y Monitoreo

Seguridad de Datos en AWS con Amazon Macie

Habilitación y Configuración de AWS Macie para Gestión de Datos Seguros

Orquestación de ETLs con Apache Airflow y Python en Big Data