Conectar Apache Zeppelin a EMR

Clase 31 de 52Curso de Big Data en AWS

Resumen

Conecta y administra Apache Zeppelin sobre AWS EMR con pasos claros: abre el puerto correcto en los grupos de seguridad del master node, usa el DNS público para acceder por navegador y aplica prácticas de seguridad con subred privada, balanceador y dominio en Route 53. Verás cómo validar Zeppelin en el puerto 8890 y, si necesitas visibilidad de Spark, activar el Spark History Server en 18080.

¿Cómo habilitar la conexión web a Zeppelin en EMR?

Para habilitar el acceso web, primero identifica que la conexión no esté activa y luego ajusta los grupos de seguridad del master node. Al abrir el puerto de Zeppelin, el clúster detecta el cambio y habilita el acceso web. Si no responde de inmediato, prueba directo con el DNS público del master y el puerto.

¿Dónde ajustar el security group del master node?

  • Entra a la consola de EMR.
  • Ubica el clúster y abre el grupo de seguridad del master node.
  • Ve a Inbound Rules.
  • Agrega una regla para TCP en el puerto 8890.
  • Configura el origen abierto temporalmente para pruebas.
  • Guarda los cambios y espera unos segundos.

¿Cómo probar el acceso por DNS y puerto 8890?

  • Copia el master public DNS del clúster.
  • Pega en el navegador: DNS-del-master:8890.
  • Verifica que cargue Apache Zeppelin ejecutándose en EMR.
  • Si aún no carga, revisa que la regla inbound esté activa.

¿Qué direcciones y puertos usar para Zeppelin y Spark?

El acceso a Zeppelin es vía el DNS público del master y su puerto. Para diagnóstico y visualización de trabajos de Spark, puedes habilitar el servicio histórico si tu entorno usa YARN.

  • Zeppelin: master public DNS y puerto 8890.
  • Spark History Server: puerto 18080.
  • Requisito común: abrir los puertos necesarios en el grupo de seguridad.
  • Nota operativa: al abrir puertos, el clúster activa la conexión web correspondiente.

¿Qué prácticas de seguridad implementar al exponer EMR y Zeppelin?

Exponer servicios web del clúster requiere controles. La recomendación es separar redes, poner un punto de entrada controlado y reforzar autenticación en la app.

  • Ejecutar EMR en subred privada.
  • Usar balanceador de carga en la subred pública.
  • Configurar certificado de seguridad con Route 53 y un dominio.
  • Conectarse a través del balanceador y el dominio.
  • En Zeppelin, usar el archivo jiro.ini para configurar autenticación e integrar con directorio activo.
  • Limitar orígenes en las reglas inbound y cerrar puertos no usados.

Conceptos y habilidades clave mencionados: grupos de seguridad, inbound rules, master node, master public DNS, puerto 8890, Spark History Server 18080, YARN, subred privada, balanceador de carga, Route 53, archivo jiro.ini para autenticación. Estos elementos permiten habilitar acceso, observar trabajos y elevar la seguridad sin agregar complejidad innecesaria.

¿Tienes dudas o quieres compartir tu configuración de acceso a Zeppelin en EMR? Deja tu comentario y conversemos sobre mejoras y buenas prácticas.