Conectar Apache Zeppelin a EMR
Clase 31 de 52 • Curso de Big Data en AWS
Contenido del curso
Arquitecturas
Extracción de información
- 9

Cómo mover datos a cloud con SDK y CLI
02:21 min - 10

Python y boto3 para listar buckets S3
10:16 min - 11

Boto3: inicializar clients de AWS en Python
03:56 min - 12

API Gateway como puerta de big data
03:40 min - 13

Storage Gateway: puerta entre on-premise y S3
03:13 min - 14

AWS Kinesis: streaming masivo de datos
05:53 min - 15

Cómo crear Kinesis Data Stream en AWS
06:50 min - 16

Despliegue automatizado de Kinesis con CloudFormation
10:42 min - 17

Cómo Kinesis Firehose entrega datos en tiempo real
03:27 min - 18

Configuración de Kinesis Firehose en AWS
05:45 min - 19
Configuración Básica de Amazon Kinesis Firehose en AWS
02:53 min - 20

MSK vs Kinesis: cuál elegir en AWS
03:42 min - 21

Creación de clúster AWS MSK desde la consola
07:21 min
Transformación de Información
- 22

Cómo AWS Glue transforma datos en la nube
06:33 min - 23

Instalación de Apache Zeppelin paso a paso
04:49 min - 24

Configurar developer endpoint de AWS Glue con Zeppelin
05:38 min - 25

Conexión de Apache Zeppelin con AWS
08:29 min - 26

Configurar AWS Glue Crawler para poblar catálogo
08:15 min - 27

Configuración de Developer Endpoint en AWS Glue
08:00 min - 28

Cómo configurar AWS Glue ETL desde S3 a Parquet
10:23 min - 29

Qué es EMR y cuándo usarlo
05:30 min - 30

Crear tu primer cluster de AWS EMR
09:01 min - 31

Conectar Apache Zeppelin a EMR
Viendo ahora - 32

EMR automatizado con CloudFormation
06:32 min - 33

AWS Lambda para proyectos de big data
07:02 min - 34

Lambdas en big data: real time y batch
04:54 min - 35

Configuración de AWS Lambda para Big Data
07:16 min
Carga de Información
Consumo de información
Seguridad, Orquestación y Automatización
Clase pública
Conecta y administra Apache Zeppelin sobre AWS EMR con pasos claros: abre el puerto correcto en los grupos de seguridad del master node, usa el DNS público para acceder por navegador y aplica prácticas de seguridad con subred privada, balanceador y dominio en Route 53. Verás cómo validar Zeppelin en el puerto 8890 y, si necesitas visibilidad de Spark, activar el Spark History Server en 18080.
¿Cómo habilitar la conexión web a Zeppelin en EMR?
Para habilitar el acceso web, primero identifica que la conexión no esté activa y luego ajusta los grupos de seguridad del master node. Al abrir el puerto de Zeppelin, el clúster detecta el cambio y habilita el acceso web. Si no responde de inmediato, prueba directo con el DNS público del master y el puerto.
¿Dónde ajustar el security group del master node?
- Entra a la consola de EMR.
- Ubica el clúster y abre el grupo de seguridad del master node.
- Ve a Inbound Rules.
- Agrega una regla para TCP en el puerto 8890.
- Configura el origen abierto temporalmente para pruebas.
- Guarda los cambios y espera unos segundos.
¿Cómo probar el acceso por DNS y puerto 8890?
- Copia el master public DNS del clúster.
- Pega en el navegador: DNS-del-master:8890.
- Verifica que cargue Apache Zeppelin ejecutándose en EMR.
- Si aún no carga, revisa que la regla inbound esté activa.
¿Qué direcciones y puertos usar para Zeppelin y Spark?
El acceso a Zeppelin es vía el DNS público del master y su puerto. Para diagnóstico y visualización de trabajos de Spark, puedes habilitar el servicio histórico si tu entorno usa YARN.
- Zeppelin: master public DNS y puerto 8890.
- Spark History Server: puerto 18080.
- Requisito común: abrir los puertos necesarios en el grupo de seguridad.
- Nota operativa: al abrir puertos, el clúster activa la conexión web correspondiente.
¿Qué prácticas de seguridad implementar al exponer EMR y Zeppelin?
Exponer servicios web del clúster requiere controles. La recomendación es separar redes, poner un punto de entrada controlado y reforzar autenticación en la app.
- Ejecutar EMR en subred privada.
- Usar balanceador de carga en la subred pública.
- Configurar certificado de seguridad con Route 53 y un dominio.
- Conectarse a través del balanceador y el dominio.
- En Zeppelin, usar el archivo jiro.ini para configurar autenticación e integrar con directorio activo.
- Limitar orígenes en las reglas inbound y cerrar puertos no usados.
Conceptos y habilidades clave mencionados: grupos de seguridad, inbound rules, master node, master public DNS, puerto 8890, Spark History Server 18080, YARN, subred privada, balanceador de carga, Route 53, archivo jiro.ini para autenticación. Estos elementos permiten habilitar acceso, observar trabajos y elevar la seguridad sin agregar complejidad innecesaria.
¿Tienes dudas o quieres compartir tu configuración de acceso a Zeppelin en EMR? Deja tu comentario y conversemos sobre mejoras y buenas prácticas.