Crear tu primer cluster de AWS EMR

Clase 30 de 52 • Curso de Big Data en AWS

Resumen

Aprende a crear un clúster de AWS EMR desde cero con seguridad, eficiencia y control. Aquí verás cómo elegir la versión adecuada, configurar steps con argumentos, dimensionar instancias y activar opciones de operación como CloudWatch, KMS y security groups. Todo con un enfoque práctico y claro.

¿Cómo configurar la versión y aplicaciones en AWS EMR?

Seleccionar correctamente la versión define qué herramientas tendrás disponibles. La elección impacta directamente tu flujo de trabajo y compatibilidad con librerías.

¿Qué versión elegir y por qué?

Revisa cambios entre versiones: herramientas incluidas y retiradas.
Ejemplo: versión reciente con TensorFlow 12.0 y Zeppelin 0.8.
Ejemplo: en 5.4 hay Zeppelin 7.0 y no está TensorFlow.
Para el ejercicio: EMR 5.20 con Hadoop, Spark 2.4 y Zeppelin.
Criterio clave: elige según las herramientas que necesites.

¿Cómo cargar configuraciones y metadatos?

Activa metadatos para tablas de Spark.
Define configuración de software en JSON.
Incluye acciones de bootstrap para personalizar el arranque.

¿Cómo definir steps y argumentos?

Agrega steps de forma gráfica.
Especifica argumentos: usa etiquetas como PRD o STG para ambientes.
Indica la ubicación del script de la aplicación.
Manejo de finalización del step:
- Terminar el clúster si falla.
- Cancelar y esperar acción manual.
- Continuar con el siguiente step si falla.

¿Cómo dimensionar instancias y auto escalamiento?

La topología y el escalado determinan costo y rendimiento. Configura nodos, tipos de instancia y reglas de crecimiento con intención.

¿Qué tipos de nodos e instancias usar?

Modos de provisión: instancias uniformes o por flotas.
Nodos: master, core y task.
Ajusta el tipo de instancia desde la interfaz.
Ejemplo de laboratorio: 1 master y 2 core con M1 medium. Sin nodos task.
Estrategia de compra: bajo demanda o spot.

¿Cómo configurar auto escalamiento por memoria?

Límites: mínimo 2 nodos y máximo 10 nodos.
Escalado hacia arriba: cuando memoria disponible < 30%, agrega 1 o 2 instancias por periodo.
Escalado hacia abajo: cuando memoria disponible > 75%, elimina 2 instancias.
Regla fija: nunca bajar del mínimo configurado.
Nota práctica: se puede dejar sin configurar y operar bajo demanda.

¿Dónde guardar logs y cómo etiquetar?

Logs: se crea una carpeta por defecto y otra de Elastic Map Reduce dentro.
Agrega etiquetas para organizar recursos.
Define acciones de arranque adicionales si lo requieres.

¿Cómo asegurar, lanzar y operar el clúster?

Antes de crear, define el acceso, permisos y seguridad. Luego monitorea y itera desde la consola con total visibilidad.

¿Cómo acceder por SSH y web?

Llave de acceso: selecciona una para habilitar conexión SSH.
Sin llave: el clúster ejecuta trabajos, pero no podrás hacer SSH.
Acceso a Zeppelin: habilita conexión web en el security group.

¿Qué permisos, cifrado y seguridad aplicar?

Permisos: se crean tres roles predeterminados con lo necesario para EMR.
Cifrado: integración con KMS disponible.
Grupos de seguridad de EC2: personaliza puertos para instancias master y core.

¿Cómo monitorear, depurar y replicar?

Vista general: conexiones, ID de clúster, versión, roles y estado de nodos.
Red: subred y zona de disponibilidad.
Aplicaciones: lista de componentes instalados.
Monitorización: métricas con CloudWatch a nivel de hardware.
Escala en caliente: agrega o quita instancias desde la consola.
Eventos: historial útil para detectar errores y hacer debugging.
Steps: existe un step por defecto; puedes añadir más en ejecución.
Cambios: aplica nuevas configuraciones agregando un JSON y acciones de arranque.
Reproducibilidad: exporta el comando para ejecutar desde la CLI y recrear el clúster.

¿Tienes dudas sobre versiones, steps o auto escalamiento en EMR? Cuéntame en los comentarios y trabajamos una solución juntos.

john ct

student•

EMR elastic MapReduce es muy potente e interesante.

LUIS GERARDO CAMBAL BARAHONA

student•

Al fin aprendi como funciona la configuracion del autoescalamiento

Usuario anónimo

user•

INTERESANTE

Usuario anónimo

user•

EMR tiene una gran cantidad de versiones, lo que cambia entre una versión y otra son las herramientas de software que contiene. Para esta demo utilizaremos la versión 5.20.0.

Moises Bravo

student•

Esta Herramienta la usamos en el trabajo para orquestar la carga de datos desde los servidores de produccion hacia el data lake, y es una bala, super versatil y eficiente.

Alexander Grajales Vanegas

student•

El servicio de EMR se puede apagar para que no genere costos mientras no esta en uso?, he visto que en IBM cloud y AZURE esto no lo permite

Carlos Andrés Zambrano Barrera

teacher•

EMR tiene 2 tipos de uso, uno permanente (nunca se apaga) o un transient clúster que solo se crea para procesar y después muere. En este segundo usamos Cloudformation ( Mira mi curso de Cloudformation https://platzi.com/clases/iaac-aws/) acá tengo un template para desplegarlo por Cloudformation https://github.com/czam01/emr-cloudformation

Aunque si vas a usarlo para ETL deberias usar GLUE que es administrado, solo te cobra por la cantidad de procesamiento que uses.

Darvin Orozco

student•

Sí seleccionamos una versión reciente de EMR (que incluye soporte para TensorFlow, versiones recientes de Zeppelin y otras herramientas actuales) ¿Es más caro/costoso usar EMR?

Carlos Andrés Zambrano Barrera

teacher•

no, el costo es el mismo, el costo no depende de las apps que tenga, depende de las instancias y storage.

Mario Alexander Vargas Celis

student•

Aquí tienes una guía paso a paso para desplegar tu primer clúster en AWS EMR.

🚀 Desplegar un Clúster EMR en AWS

Un clúster de Elastic MapReduce (EMR) en AWS permite ejecutar frameworks de Big Data como Apache Spark, Hadoop, Hive y Presto para procesamiento de datos a gran escala.

1️⃣ Configurar el Clúster desde la Consola AWS

1.1 Ir a Amazon EMR

Accede a la consola de AWS.
Busca "EMR" en la barra de búsqueda y selecciona Amazon EMR.
Haz clic en "Crear clúster".

1.2 Elegir el Tipo de Despliegue

AWS EMR ofrece tres opciones:

EMR en EC2: Clúster con instancias EC2 (recomendado para control total).
EMR en EKS: Para ejecutar EMR sobre Kubernetes.
EMR Serverless: Sin necesidad de gestionar servidores.

Para este caso, elegiremos EMR en EC2.

1.3 Configurar el Clúster

🔹 Configuración básica

Nombre del clúster: mi-cluster-emr
Versión de EMR: Se recomienda la última estable (ej. 6.9.0).
Aplicaciones:
- Apache Spark (si trabajas con análisis de datos y ML)
- Hadoop, Hive, Presto (para procesamiento ETL)
Modo de despliegue: Clúster estándar (para un entorno persistente).

🔹 Configuración de la Red

VPC: Selecciona la VPC donde correrá el clúster.
Subred: Elige una subred disponible.
Grupo de seguridad: Usa los predeterminados o crea uno personalizado.

🔹 Configurar los Nodos del Clúster

Un clúster EMR tiene tres tipos de nodos:

Tipo de NodoFunciónCantidad recomendadaMasterCoordina las tareas del clúster.1CoreProcesa datos y almacena en HDFS.2+**Task (Opcional)**Solo ejecuta tareas, no almacena datos.0+

Ejemplo de configuración:

Master Node: m5.xlarge
Core Nodes: 2 x m5.xlarge
Task Nodes: Opcional

🔹 Configuración de Almacenamiento

S3 Bucket: Para almacenar logs y resultados de procesamiento.
HDFS: Para almacenamiento distribuido dentro del clúster.

🔹 Configuración Avanzada

IAM Roles: EMR_DefaultRole (asegúrate de que tenga permisos adecuados para acceder a S3, DynamoDB, etc.).
Auto-terminación: Habilitar si solo necesitas el clúster temporalmente.
Spot Instances: Reducir costos usando instancias Spot para los nodos de cómputo.

1.4 Crear y Lanzar el Clúster

Revisar configuración y hacer clic en "Crear clúster".
El clúster tardará de 5 a 15 minutos en iniciarse.

2️⃣ Ejecutar un Trabajo en el Clúster

Una vez desplegado el clúster, puedes ejecutar trabajos de Spark, Hadoop, Hive, Presto, etc..

2.1 Enviar una tarea desde la consola AWS

Ve a Clusters EMR.
Selecciona tu clúster y haz clic en "Submit Step".
Elige el tipo de tarea (Ejemplo: Spark, Hive, etc.).
Especifica la ubicación del script (ejemplo: s3://mi-bucket/scripts/job.py).
Ejecuta el trabajo.

2.2 Ejecutar un Trabajo con AWS CLI

Si prefieres la línea de comandos:

aws emr add-steps --cluster-id j-XXXX \ --steps Type=Spark,Name="MySparkJob",ActionOnFailure=CONTINUE,Args=[--deploy-mode,client,--master,yarn,s3://mi-bucket/scripts/job.py]

2.3 Conectar Jupyter Notebook a EMR

Para ejecutar código interactivo:

En la consola AWS, ve a EMR > Notebooks > Create Notebook.
Conéctalo al clúster EMR.
Escribe código en PySpark dentro del Notebook.

3️⃣ Monitorear y Detener el Clúster

Para revisar logs y estado del clúster:

CloudWatch Logs: Ver registros de ejecución.
Cluster UI: Acceder a interfaces como Spark UI.

Para detener el clúster y evitar costos adicionales:

aws emr terminate-clusters --cluster-ids j-XXXX

🎯 Conclusión

AWS EMR es una solución poderosa para ejecutar Big Data y procesamiento ETL en la nube. Siguiendo estos pasos, puedes desplegar y ejecutar tu primer clúster de forma eficiente.

Usuario anónimo

user•

Un clúster de EMR se compone de:

Master Nodes Core Nodes Task Nodes

Usuario anónimo

user•

Configurado

Ivan Acosta

student•

Súper.! Saben si AWS provee algún Lab101 para este servicio de EMR?

Crear tu primer cluster de AWS EMR

Bienvenida e introducción al curso

Big Data en la Nube: Análisis, Transformación y Seguridad

Big Data en Cloud desde origen a visualización

Por qué big data en cloud es más eficiente

Extracción vs ingesta en proyectos big data

Comparativa de AWS y GCP para proyectos BigData

Arquitecturas

Arquitectura Lambda: 3 capas para datos en tiempo real

Arquitectura capa: el tiempo real como ventaja

Cómo funciona la arquitectura batch

Extracción de información

Cómo mover datos a cloud con SDK y CLI

Python y boto3 para listar buckets S3

Boto3: inicializar clients de AWS en Python

API Gateway como puerta de big data

Storage Gateway: puerta entre on-premise y S3

AWS Kinesis: streaming masivo de datos

Cómo crear Kinesis Data Stream en AWS

Despliegue automatizado de Kinesis con CloudFormation

Cómo Kinesis Firehose entrega datos en tiempo real

Configuración de Kinesis Firehose en AWS

Configuración Básica de Amazon Kinesis Firehose en AWS

MSK vs Kinesis: cuál elegir en AWS

Creación de clúster AWS MSK desde la consola

Transformación de Información

Cómo AWS Glue transforma datos en la nube

Instalación de Apache Zeppelin paso a paso

Configurar developer endpoint de AWS Glue con Zeppelin

Conexión de Apache Zeppelin con AWS

Configurar AWS Glue Crawler para poblar catálogo

Configuración de Developer Endpoint en AWS Glue

Cómo configurar AWS Glue ETL desde S3 a Parquet

Qué es EMR y cuándo usarlo

Crear tu primer cluster de AWS EMR

Conectar Apache Zeppelin a EMR

EMR automatizado con CloudFormation

AWS Lambda para proyectos de big data

Lambdas en big data: real time y batch

Configuración de AWS Lambda para Big Data

Carga de Información

Cómo Athena consulta datos en S3 con SQL

Cómo funciona AWS Athena con S3

Redshift vs Athena: cuándo usar cada uno

Configuración de cluster Redshift en AWS

AWS Lake Formation automatiza tu data lake

Consumo de información

Cómo dimensionar shards de Elasticsearch en AWS

Cómo crear un clúster Elasticsearch en AWS

Cómo funciona Kibana con Elasticsearch

QuickSight: el BI en cloud de AWS

Configuración completa de QuickSight en AWS

Seguridad, Orquestación y Automatización

5 reglas de seguridad para Big Data en AWS

Cómo AWS Macie protege datos en S3

Configuración de AWS Macie en 5 pasos

Apache Airflow vs Step Functions para ETL

Despliegue de Apache Airflow en GCP

Arquitecturas batch y streaming en AWS

Clase pública

Las cinco B de big data explicadas