Crear tu primer cluster de AWS EMR
Clase 30 de 52 • Curso de Big Data en AWS
Contenido del curso
Arquitecturas
Extracción de información
- 9

Cómo mover datos a cloud con SDK y CLI
02:21 min - 10

Python y boto3 para listar buckets S3
10:16 min - 11

Boto3: inicializar clients de AWS en Python
03:56 min - 12

API Gateway como puerta de big data
03:40 min - 13

Storage Gateway: puerta entre on-premise y S3
03:13 min - 14

AWS Kinesis: streaming masivo de datos
05:53 min - 15

Cómo crear Kinesis Data Stream en AWS
06:50 min - 16

Despliegue automatizado de Kinesis con CloudFormation
10:42 min - 17

Cómo Kinesis Firehose entrega datos en tiempo real
03:27 min - 18

Configuración de Kinesis Firehose en AWS
05:45 min - 19
Configuración Básica de Amazon Kinesis Firehose en AWS
02:53 min - 20

MSK vs Kinesis: cuál elegir en AWS
03:42 min - 21

Creación de clúster AWS MSK desde la consola
07:21 min
Transformación de Información
- 22

Cómo AWS Glue transforma datos en la nube
06:33 min - 23

Instalación de Apache Zeppelin paso a paso
04:49 min - 24

Configurar developer endpoint de AWS Glue con Zeppelin
05:38 min - 25

Conexión de Apache Zeppelin con AWS
08:29 min - 26

Configurar AWS Glue Crawler para poblar catálogo
08:15 min - 27

Configuración de Developer Endpoint en AWS Glue
08:00 min - 28

Cómo configurar AWS Glue ETL desde S3 a Parquet
10:23 min - 29

Qué es EMR y cuándo usarlo
05:30 min - 30

Crear tu primer cluster de AWS EMR
Viendo ahora - 31

Conectar Apache Zeppelin a EMR
03:18 min - 32

EMR automatizado con CloudFormation
06:32 min - 33

AWS Lambda para proyectos de big data
07:02 min - 34

Lambdas en big data: real time y batch
04:54 min - 35

Configuración de AWS Lambda para Big Data
07:16 min
Carga de Información
Consumo de información
Seguridad, Orquestación y Automatización
Clase pública
Aprende a crear un clúster de AWS EMR desde cero con seguridad, eficiencia y control. Aquí verás cómo elegir la versión adecuada, configurar steps con argumentos, dimensionar instancias y activar opciones de operación como CloudWatch, KMS y security groups. Todo con un enfoque práctico y claro.
¿Cómo configurar la versión y aplicaciones en AWS EMR?
Seleccionar correctamente la versión define qué herramientas tendrás disponibles. La elección impacta directamente tu flujo de trabajo y compatibilidad con librerías.
¿Qué versión elegir y por qué?
- Revisa cambios entre versiones: herramientas incluidas y retiradas.
- Ejemplo: versión reciente con TensorFlow 12.0 y Zeppelin 0.8.
- Ejemplo: en 5.4 hay Zeppelin 7.0 y no está TensorFlow.
- Para el ejercicio: EMR 5.20 con Hadoop, Spark 2.4 y Zeppelin.
- Criterio clave: elige según las herramientas que necesites.
¿Cómo cargar configuraciones y metadatos?
- Activa metadatos para tablas de Spark.
- Define configuración de software en JSON.
- Incluye acciones de bootstrap para personalizar el arranque.
¿Cómo definir steps y argumentos?
- Agrega steps de forma gráfica.
- Especifica argumentos: usa etiquetas como PRD o STG para ambientes.
- Indica la ubicación del script de la aplicación.
- Manejo de finalización del step:
- Terminar el clúster si falla.
- Cancelar y esperar acción manual.
- Continuar con el siguiente step si falla.
¿Cómo dimensionar instancias y auto escalamiento?
La topología y el escalado determinan costo y rendimiento. Configura nodos, tipos de instancia y reglas de crecimiento con intención.
¿Qué tipos de nodos e instancias usar?
- Modos de provisión: instancias uniformes o por flotas.
- Nodos: master, core y task.
- Ajusta el tipo de instancia desde la interfaz.
- Ejemplo de laboratorio: 1 master y 2 core con M1 medium. Sin nodos task.
- Estrategia de compra: bajo demanda o spot.
¿Cómo configurar auto escalamiento por memoria?
- Límites: mínimo 2 nodos y máximo 10 nodos.
- Escalado hacia arriba: cuando memoria disponible < 30%, agrega 1 o 2 instancias por periodo.
- Escalado hacia abajo: cuando memoria disponible > 75%, elimina 2 instancias.
- Regla fija: nunca bajar del mínimo configurado.
- Nota práctica: se puede dejar sin configurar y operar bajo demanda.
¿Dónde guardar logs y cómo etiquetar?
- Logs: se crea una carpeta por defecto y otra de Elastic Map Reduce dentro.
- Agrega etiquetas para organizar recursos.
- Define acciones de arranque adicionales si lo requieres.
¿Cómo asegurar, lanzar y operar el clúster?
Antes de crear, define el acceso, permisos y seguridad. Luego monitorea y itera desde la consola con total visibilidad.
¿Cómo acceder por SSH y web?
- Llave de acceso: selecciona una para habilitar conexión SSH.
- Sin llave: el clúster ejecuta trabajos, pero no podrás hacer SSH.
- Acceso a Zeppelin: habilita conexión web en el security group.
¿Qué permisos, cifrado y seguridad aplicar?
- Permisos: se crean tres roles predeterminados con lo necesario para EMR.
- Cifrado: integración con KMS disponible.
- Grupos de seguridad de EC2: personaliza puertos para instancias master y core.
¿Cómo monitorear, depurar y replicar?
- Vista general: conexiones, ID de clúster, versión, roles y estado de nodos.
- Red: subred y zona de disponibilidad.
- Aplicaciones: lista de componentes instalados.
- Monitorización: métricas con CloudWatch a nivel de hardware.
- Escala en caliente: agrega o quita instancias desde la consola.
- Eventos: historial útil para detectar errores y hacer debugging.
- Steps: existe un step por defecto; puedes añadir más en ejecución.
- Cambios: aplica nuevas configuraciones agregando un JSON y acciones de arranque.
- Reproducibilidad: exporta el comando para ejecutar desde la CLI y recrear el clúster.
¿Tienes dudas sobre versiones, steps o auto escalamiento en EMR? Cuéntame en los comentarios y trabajamos una solución juntos.