EMR automatizado con CloudFormation

Clase 32 de 52 • Curso de Big Data en AWS

Resumen

Lleva tu orquestación de datos al siguiente nivel con Amazon EMR automatizado mediante CloudFormation. Aquí verás cómo definir el clúster como código, controlar dependencias de ejecución con steps, ajustar configuraciones clave (red, seguridad, bootstrap actions) y conectarlo a un pipeline CI/CD para procesamiento tipo batch confiable y de bajo costo.

¿Cómo automatizar EMR con CloudFormation en producción?

Definir EMR como infraestructura como código garantiza versionado, repetibilidad y mínima administración. La plantilla de CloudFormation replica lo hecho de forma gráfica y lo convierte en despliegues consistentes.

¿Qué define la plantilla de CloudFormation?

Región y nombre de environment.
Selección de subred vía mappings o directamente con subnet ID.
Sección de resources con los steps del flujo.
Dependencias: un step espera al anterior con “depende de”.
Política de error en Action on failure: continuar, cancelar y esperar, o terminar el clúster.
Arguments: rutas de directorios y ejecuciones puntuales para los jobs.

¿Cómo se configuran instancias y red en EMR?

Definición del clúster EMR y conteo de instancias.
Nodo master: uno, tamaño especificado, tipo de compra on demand.
Nodos core: dos, tamaño y tipo on demand como en el ejemplo por consola.
Red: uso de subnet ID directo o búsqueda por mapping según el environment.
Acceso: llave SSH para la instancia master.
Seguridad: referencia a security groups. En subred pública crea dos grupos; en subred privada añade un tercer grupo para mayor seguridad.

¿Qué ajustes previos y aplicaciones se instalan?

Bootstrap actions desde un bucket con script .sh antes del estado activo.
Logs: ubicación de almacenamiento centralizada.
Configuraciones: ejemplo de Java 1.8 y parámetros detallados de Hadoop enviados desde la misma plantilla.
Applications: instalación declarativa de Zeppelin, Hadoop y Spark.
Versiones: la versión de Spark depende de la versión de EMR (ejemplos citados: EMR 5.20 usa Spark 2.4; EMR 5.4 usa Spark 2.1).
Permisos y gobierno: roles por defecto y uso de tags para identificar recursos.

¿Qué arquitectura de automatización CI/CD se recomienda?

Para producción, la plantilla vive en un repositorio y se despliega sin intervención manual. Así, el ciclo es predecible y fácil de auditar.

¿Cómo se orquesta con repositorios y CodePipeline?

Código en GitHub, BitBucket, CodeCommit o incluso S3.
Integración con CodePipeline.
Ejecución: el pipeline toma la plantilla, despliega CloudFormation, lanza el clúster, corre los steps y lo termina.
Beneficio: infraestructura efímera que reduce costos y errores humanos.

¿Qué patrón de procesamiento diario se sugiere?

Disparo con eventos de CloudWatch a medianoche.
El pipeline toma la plantilla del repositorio, crea el clúster, ejecuta los steps y finaliza.
Caso de uso: procesar los logs del día anterior de forma automatizada.
Alternativa: dejar el clúster encendido para tiempo real, con costo mayor por servidores aprovisionados.

¿Cómo optimizar costos y entender el pricing de EMR?

Optimizar implica elegir bien el patrón de ejecución y entender la factura. Los clústeres efímeros tipo batch permiten pagar solo por lo usado.

¿Qué compone el costo de EMR?

Costo de las instancias EC2 subyacentes.
Costo del servicio EMR como tal.
Implicación: ejecuciones cortas y programadas suelen ser más eficientes que clústeres permanentes.

¿Por qué usar clústeres como código?

Versionados, repetibles y configurables desde CloudFormation.
Menor carga de administración mediante automatización.
Control fino de red, security groups, bootstrap actions y applications.
Integración con CodePipeline y eventos de CloudWatch para trabajos batch diarios confiables.

¿Te gustaría comentar cómo defines steps, bootstrap actions o el patrón de ejecución para tus cargas en EMR?

Usuario anónimo

user•

Cuando se despliega el clúster en una subred publica, él solo crea 2 SecurityGroup; mientras si se despliega en una subred privada él agrega una capa de seguridad y agrega un tercer grupo de seguridad

Usuario anónimo

user•

Muchos temas en que especializarse

Andres Camilo Graciano Higuita

student•

Usar CloudFormation para desplegar un clúster EMR ofrece varias ventajas sobre hacerlo manualmente desde la consola de AWS:

Automatización: Permite implementar una infraestructura automatizada, lo que reduce errores humanos y mejora la eficiencia.
Repetibilidad: Puedes reutilizar la misma plantilla para desplegar clústeres de manera consistente en diferentes entornos.
Versionamiento: Las plantillas pueden ser versionadas en repositorios de código, facilitando el seguimiento de cambios.
Personalización: Puedes personalizar fácilmente la configuración del clúster, incluyendo instancias, roles y aplicaciones instaladas.
Integración: Se puede integrar con herramientas de CI/CD, como CodePipeline, para desplegar y actualizar clústeres automáticamente.

Estas ventajas hacen que el uso de CloudFormation sea más eficiente y seguro en ambientes productivos.

Mario Alexander Vargas Celis

student•

🎯 Conclusión

Con esta configuración, puedes desplegar un clúster EMR de forma automática con CloudFormation, incluyendo Spark y Zeppelin para análisis de datos.

Usuario anónimo

user•

Cloudformation trabaja con java 1.8

john ct

student•

interesante y preciso

EMR automatizado con CloudFormation

Bienvenida e introducción al curso

Big Data en la Nube: Análisis, Transformación y Seguridad

Big Data en Cloud desde origen a visualización

Por qué big data en cloud es más eficiente

Extracción vs ingesta en proyectos big data

Comparativa de AWS y GCP para proyectos BigData

Arquitecturas

Arquitectura Lambda: 3 capas para datos en tiempo real

Arquitectura capa: el tiempo real como ventaja

Cómo funciona la arquitectura batch

Extracción de información

Cómo mover datos a cloud con SDK y CLI

Python y boto3 para listar buckets S3

Boto3: inicializar clients de AWS en Python

API Gateway como puerta de big data

Storage Gateway: puerta entre on-premise y S3

AWS Kinesis: streaming masivo de datos

Cómo crear Kinesis Data Stream en AWS

Despliegue automatizado de Kinesis con CloudFormation

Cómo Kinesis Firehose entrega datos en tiempo real

Configuración de Kinesis Firehose en AWS

Configuración Básica de Amazon Kinesis Firehose en AWS

MSK vs Kinesis: cuál elegir en AWS

Creación de clúster AWS MSK desde la consola

Transformación de Información

Cómo AWS Glue transforma datos en la nube

Instalación de Apache Zeppelin paso a paso

Configurar developer endpoint de AWS Glue con Zeppelin

Conexión de Apache Zeppelin con AWS

Configurar AWS Glue Crawler para poblar catálogo

Configuración de Developer Endpoint en AWS Glue

Cómo configurar AWS Glue ETL desde S3 a Parquet

Qué es EMR y cuándo usarlo

Crear tu primer cluster de AWS EMR

Conectar Apache Zeppelin a EMR

EMR automatizado con CloudFormation

AWS Lambda para proyectos de big data

Lambdas en big data: real time y batch

Configuración de AWS Lambda para Big Data

Carga de Información

Cómo Athena consulta datos en S3 con SQL

Cómo funciona AWS Athena con S3

Redshift vs Athena: cuándo usar cada uno

Configuración de cluster Redshift en AWS

AWS Lake Formation automatiza tu data lake

Consumo de información

Cómo dimensionar shards de Elasticsearch en AWS

Cómo crear un clúster Elasticsearch en AWS

Cómo funciona Kibana con Elasticsearch

QuickSight: el BI en cloud de AWS

Configuración completa de QuickSight en AWS

Seguridad, Orquestación y Automatización

5 reglas de seguridad para Big Data en AWS

Cómo AWS Macie protege datos en S3

Configuración de AWS Macie en 5 pasos

Apache Airflow vs Step Functions para ETL

Despliegue de Apache Airflow en GCP

Arquitecturas batch y streaming en AWS

Clase pública

Las cinco B de big data explicadas