Qué es EMR y cuándo usarlo

Clase 29 de 52 • Curso de Big Data en AWS

Contenido del curso

Bienvenida e introducción al curso

Arquitecturas

Extracción de información

Transformación de Información

Carga de Información

Consumo de información

Seguridad, Orquestación y Automatización

Clase pública

52
Las cinco B de big data explicadas
01:44 min

Tomar examen

Resumen

¿Buscas ejecutar cargas de trabajo muy grandes con flexibilidad y control? EMR, Elastic Map Reduce, permite lanzar clusters basados en Hadoop para procesar datos a escala, integrarse con servicios de AWS y orquestar tareas complejas con herramientas abiertas como Spark.

¿Qué es EMR y qué cargas de trabajo soporta?

EMR es un servicio para crear clusters con instancias S2 basados en Hadoop. Al ser cluster, ofrece instancias dedicadas, mayor administración y alta flexibilidad para escalar.

Ejecuta cargas de trabajo muy grandes con motores de código abierto.
Soporta múltiples frameworks: Map Reduce, Spark, Peak, Presto, Hive, Impala, Flink, Tensorflow, Zeppelin, Ganglia, USI.
Integra con servicios de AWS: S3, Redshift, DynamoDB y Kinesis.
Permite correr ETL de Glue en EMR usando Spark. En Glue se usan Dynamic Frames; en EMR, Data Frames de Spark. Cambia la configuración y el modelo de datos.
Conexión a notebooks para consultar y explorar datos desde EMR.

Esta sección implica dominar conceptos como clusters, frameworks de procesamiento y diferencias entre Dynamic Frames y Data Frames para adaptar ETL sin fricción.

¿Cómo se configura y orquesta un cluster EMR?

Al lanzar el cluster puedes definir acciones iniciales y el orden de ejecución de tareas. Esto mejora la reproducibilidad y el control operativo.

Bootstrap Actions: scripts y configuraciones que corren al inicio del lanzamiento. Útiles para cargar notebooks desde S3, cambiar puertos o aplicar parámetros personalizados. Se ejecutan antes de que el cluster quede productivo.
Steps: pasos que organizan ETL y scripts de Python con dependencias. Se encadenan usando el parámetro depends_on para que una tarea inicie solo cuando termine la anterior.

¿Qué componentes tiene el cluster?

Master node: orquesta y coordina los demás nodos.
Core nodes: distribuyen la información cuando se usa HDFS (sistema de archivos distribuido).
Task nodes: se enfocan en procesamiento de tareas.

Estas piezas permiten separar responsabilidades: coordinación, almacenamiento distribuido y cómputo, optimizando el rendimiento del cluster.

¿Qué prácticas reducen costos y aseguran continuidad?

El diseño de instancias impacta costo y resiliencia. Elegir bien los tipos y el escalado evita interrupciones costosas.

Usa instancias tipo spot para nodos core y task: precio más bajo por subasta.
No uses spot para el nodo maestro: si hay un bid más alto, se podría caer el cluster.
Configura fallback a instancias por demanda si no hay spot: sube el precio, pero la carga no se afecta.
Activa autoscaling: a medida que crece el trabajo, aumenta la cantidad de nodos automáticamente.

¿Cuándo elegir EMR frente a Glue?

Si en Glue hay límite de 100 DPUs y el job es grande: divide el job en partes más pequeñas.
O usa EMR para más capacidad: ganarás escala, pero aumentan la carga de información y la administración del entorno.

¿Quieres compartir cómo organizas tus steps o qué configuraciones incluyes en tus Bootstrap Actions? Comenta tus experiencias y dudas para ayudar a otros a optimizar EMR.

Comentarios

Juan David Cajamarca Acuña

student•

EMR = Elastic Map Reduce.

Cuando hablemos de EMR, pensemos en un clúster en el cual podemos correr cargas de trabajo muy grandes; es obvio que al ser un clúster tendremos unas instancias dedicadas, mayor administración sobre nuestro clúster y mayor flexibilidad.

EMR es un servicio que nos permite crear clústers que por detrás serán instancias EC2 basadas en Hadoop; en estos clústers podremos ejecutar diferentes cargas de trabajo. Estas cargas de trabajo pueden ser MapReduce, Spark, Pig, Presto, Hive, Impala, Flink, TensorFlow, Zeppelin, diferentes y muchas alternativas de Open Source pueden correr en estos proyectos, y cuando configuremos el clúster podremos seleccionar cuáles de ellos necesitamos.

Este servicio nos provee integraciones con diferentes servicios de AWS como S3, RedShift, DynamoDB y Kinesis.

En el clúster desplegado por este servicio, podemos correr cualquier tipo de tareas basadas en Spark; es decir, podríamos correr los ETLs que hacemos en Glue, pero cambiarían algunas cosas en la configuración debido a que Glue utiliza dynamic frames (son más propios de AWS para manejar Glue) mientras que EMR usa otro concepto que es data frames que es más propio de Spark. Habiendo dicho esto, podríamos también hacer aquí transformaciones, y podríamos conectarnos a Notebooks para consultar nuestra información desde EMR.

Conceptos

Bootstrap actions: Al momento de desplegar el clúster, podemos especificar ciertas acciones que necesitemos que se ejecuten al inicio; acciones como ejecuciones de scripts particulares, cambiar los puertos de conexión, o agregarle configuraciones muy personalizadas al clúster. Estas tareas se ejecutan antes de que el clúster esté completamente productivo.
Steps: Nos permiten ejecutar nuestras cargas de trabajo en los clústers de EMR de forma ordenada.
Clúster: Está compuesto de un Master Node, quien orquestará a los otros Nodes; Core Nodes que se encargan de distribuir la información cuando usamos un sistema de archivos como HDFS (Sistema de archivos distribuido), y Task Nodes que son los encargados del procesamiento. <imagen>

Recomendaciones

A nivel de instancias, utilizar instancias tipo Spot para los Core Nodes y los Task Nodes.
El Master Node no debe ser desplegado en una instancia Spot.

Es así como EMR es un servicio muy importante donde podemos correr cargas de trabajo gigantescas, porque tenemos la libertad de crear las instancias, elegir el tipo y la cantidad.

En situaciones como que en Glue hay un límite de 100 DPUs, pero nuestro job es muy grande, AWS recomienda dividir nuestro job en jobs más pequeños para no consumir tantas DPUs o trabajar con EMR en donde tenemos más capacidad pero nuestra carga de información y nuestra carga administrativa aumentará.

Mario Alexander Vargas Celis

student•

AWS EMR (Elastic MapReduce)

AWS Elastic MapReduce (EMR) es un servicio en la nube que facilita el procesamiento de grandes volúmenes de datos utilizando frameworks de Big Data como Apache Spark, Hadoop, Hive, Presto, HBase y Flink. Se usa principalmente para análisis de datos, machine learning y procesamiento ETL.

🚀 Características clave de AWS EMR

Escalabilidad automática: Ajusta la capacidad de los clusters según la demanda.
Soporte para múltiples frameworks: Hadoop, Spark, Hive, Presto, Flink, etc.
Integración con AWS: Se conecta fácilmente con S3, RDS, DynamoDB, Redshift y otros servicios.
Administración simplificada: AWS gestiona la configuración y el mantenimiento de los clusters.
Pago por uso: Paga solo por los recursos utilizados.

📌 Arquitectura de EMR

Un clúster de EMR está compuesto por tres tipos de nodos:

Master Node: Controla la ejecución del clúster y distribuye tareas.
Core Nodes: Procesan los datos y almacenan información en HDFS.
Task Nodes (opcional): Solo ejecutan tareas sin almacenar datos.

💻 Pasos para crear un clúster EMR en AWS

1️⃣ Configuración inicial

Ve a la consola de AWS y busca Amazon EMR.
Haz clic en "Create cluster".

2️⃣ Elegir un método de despliegue

EMR on EC2: Cluster en instancias EC2.
EMR on EKS: Cluster gestionado en Kubernetes.
EMR Serverless: Ejecución sin necesidad de administrar servidores.

3️⃣ Configurar el clúster

Nombre del clúster: Ej. mi-cluster-emr.
Versión de EMR: Ej. 6.9.0 (con Apache Spark, Hadoop, etc.).
Aplicaciones: Selecciona los frameworks que necesitas (Spark, Hive, HBase, Presto, etc.).
Tipo de instancias EC2: Ej. m5.xlarge (depende de la carga de trabajo).
Cantidad de nodos:
- 1 Master Node
- 2+ Core Nodes (según el tamaño del clúster)

4️⃣ Configurar almacenamiento

S3: Para almacenar los datos de entrada y salida.
HDFS: Sistema de archivos distribuido dentro del clúster.

5️⃣ Configurar networking

Selecciona la VPC, subred y grupo de seguridad.

6️⃣ Opciones avanzadas

Auto-terminación: Configura si el clúster debe apagarse tras completar la tarea.
Spot Instances: Reduce costos usando instancias Spot.
IAM Roles: Define permisos para acceder a S3, Glue, DynamoDB, etc.

7️⃣ Lanzar el clúster

Revisa la configuración y haz clic en "Create cluster".

📊 Ejecutar trabajos en EMR

1️⃣ Desde la consola AWS

Ve a Clusters EMR > Actions > Submit Step.
Elige el tipo de trabajo (Spark, Hive, Hadoop, etc.).
Sube el código o referencia un archivo en S3.

2️⃣ Desde AWS CLI

Ejecutar un script PySpark en EMR:

aws emr add-steps --cluster-id j-XXXX \ --steps Type=Spark,Name="MySparkJob",ActionOnFailure=CONTINUE,Args=[--deploy-mode,client,--master,yarn,s3://mi-bucket/scripts/job.py]

3️⃣ Con Jupyter Notebook en EMR

Activa EMR Notebooks para ejecutar código interactivo en un Notebook Jupyter.

🛠 Integraciones con otros servicios de AWS

✅ S3: Almacenamiento de datos de entrada y salida. ✅ Glue: Catálogo de datos y transformación ETL. ✅ Athena: Consulta de datos sin servidores en S3. ✅ Redshift: Integración con data warehouses. ✅ CloudWatch: Monitoreo y logs del clúster.

📌 Casos de uso de EMR

✅ Análisis de datos masivos: Logs, sensores IoT, datos de redes sociales. ✅ ETL: Extracción, transformación y carga de grandes volúmenes de datos. ✅ Machine Learning: Entrenamiento de modelos con Spark MLlib. ✅ Procesamiento en tiempo real: Con Apache Flink o Spark Streaming.

💰 Costos de AWS EMR

Basado en pago por hora según el tipo de instancia EC2 y el número de nodos.
Puedes ahorrar usando Spot Instances o EMR Serverless.

💡 Simula los costos en la calculadora de AWS: 🔗 AWS Pricing Calculator

🎯 Conclusión

AWS EMR es una solución poderosa y escalable para procesar Big Data en la nube con Spark, Hadoop y otros frameworks. Su facilidad de integración con S3, Glue, Redshift y otros servicios lo hace ideal para empresas que manejan grandes volúmenes de información.

Guillerm Mendoza Tello

student•

se puede iniciar y apagar el servicio de EMR ? al igual que el EC2? para evitar costos innecesarios.

Milton Andrés Sanabria

student•

Asi es Guillerm

Usuario anónimo

user•

Elastic MapReduce o EMR es un clúster en el cual podemos correr cargas muy grandes de trabajo.

Usuario anónimo

user•

Estos clusters son instancias de EC2 basadas en Hadoop. Provee interacción con otros servicios de AWS como S3, RedShift, DynamoDB y Kinesis. Contamos con acciones Bootstrap, estos son scripts que se van a ejecutar al iniciar un clúster. Podemos ejecutar de manera ordenada distintos scripts utilizando Step.

Usuario anónimo

user•

Muy interesante el tema, hay palabras que aun no son del todo el dominio del tema, pero se logra entender.

john ct

student•

es muy potente EMR Amazon EMR is a web service that makes it easy to process large amounts of data efficiently. Amazon EMR uses Hadoop processing combined with several AWS products to do such tasks as web indexing, data mining, log file analysis, machine learning, scientific simulation, and data warehousing.

john ct

student•

divide big jobs into smaller ones. better performance

Qué es EMR y cuándo usarlo

Bienvenida e introducción al curso

Big Data en la Nube: Análisis, Transformación y Seguridad

Big Data en Cloud desde origen a visualización

Por qué big data en cloud es más eficiente

Extracción vs ingesta en proyectos big data

Comparativa de AWS y GCP para proyectos BigData

Arquitecturas

Arquitectura Lambda: 3 capas para datos en tiempo real

Arquitectura capa: el tiempo real como ventaja

Cómo funciona la arquitectura batch

Extracción de información

Cómo mover datos a cloud con SDK y CLI

Python y boto3 para listar buckets S3

Boto3: inicializar clients de AWS en Python

API Gateway como puerta de big data

Storage Gateway: puerta entre on-premise y S3

AWS Kinesis: streaming masivo de datos

Cómo crear Kinesis Data Stream en AWS

Despliegue automatizado de Kinesis con CloudFormation

Cómo Kinesis Firehose entrega datos en tiempo real

Configuración de Kinesis Firehose en AWS

Configuración Básica de Amazon Kinesis Firehose en AWS

MSK vs Kinesis: cuál elegir en AWS

Creación de clúster AWS MSK desde la consola

Transformación de Información

Cómo AWS Glue transforma datos en la nube

Instalación de Apache Zeppelin paso a paso

Configurar developer endpoint de AWS Glue con Zeppelin

Conexión de Apache Zeppelin con AWS

Configurar AWS Glue Crawler para poblar catálogo

Configuración de Developer Endpoint en AWS Glue

Cómo configurar AWS Glue ETL desde S3 a Parquet