Conexión de Apache Zeppelin con AWS

Clase 25 de 52 • Curso de Big Data en AWS

Resumen

Aprende a conectar tu entorno local con un developer endpoint para ejecutar ETLs con Spark, Python y Scala desde Apache Zeppelin. Aquí verás cómo preparar el interpreter, autenticar por SSH con tu llave privada y crear un túnel estable hacia localhost:9007 para consultar datos en AWS de forma interactiva.

¿Cómo preparar Apache Zeppelin para conectar con el developer endpoint?

Antes de cualquier conexión, valida que el provisioning status del developer endpoint esté ready y abre sus datos de conexión. Luego, en tu Apache Zeppelin local, ajusta el interpreter de Spark para que “hable” con el endpoint en la nube.

¿Qué propiedades de Spark revisar en el interpreter?

Entra a Anonymous > Interpreter y abre el interpreter de Spark con Edit.
Verifica la propiedad master como yarn client. Debe estar así.
Si existen, elimina las propiedades spark.executor.memory y spark.driver.memory.

¿Cómo redirigir al puerto 9007 en localhost?

Activa la opción: Connect to Existing Process.
En host escribe: localhost.
En puerto escribe: 9007.
Haz clic en save para guardar los cambios.

Con esto, tu Zeppelin local queda configurado para comunicarse con el Zeppelin del developer endpoint.

¿Qué comandos SSH permiten trabajar con Python y Scala?

Desde la consola de Gloo, copia los comandos mostrados para conectarte por SSH. El primero abre una consola para Python y el segundo para Scala. En ambos, debes reemplazar la llave por tu llave privada creada, por ejemplo Platzi Llave.

¿Cómo autenticar con la llave privada?

Ubícate en el directorio donde está tu llave privada. Usa un listado de archivos para verificarla.
Si no estás en esa ruta, especifica la opción indicada para la clave privada (se menciona “la k”) con la ruta completa.
Ejecuta el comando SSH y autoriza la conexión cuando te lo solicite.

¿Qué permite la consola interactiva de Python y Scala?

Ejecutar ETLs paso a paso en Spark para validarlos antes de producción.
Hacer debugging y troubleshooting línea a línea.
Visualizar mensajes de warning de Spark y seguir el estado de ejecución.

Si eliges Scala, verás la “pantallita” de Scala lista para correr tus comandos.

¿Cómo crear el túnel y ejecutar ETLs desde Zeppelin?

Para trabajar desde tu notebook local contra datos en AWS, crea un túnel SSH para el interpreter. Este comando permanece activo: no “termina”, porque mantiene la conexión entre tu localhost y el developer endpoint.

¿Cómo crear el túnel SSH para el intérprete?

Copia el comando completo de túnel desde la consola del developer endpoint.
Reemplaza la llave por tu Platzi Llave.
Ejecuta el comando; déjalo corriendo para sostener el túnel.

¿Cómo ejecutar notebooks de Spark contra AWS desde Zeppelin?

En Zeppelin crea una nota nueva, por ejemplo: “platzi nuevo”.
Selecciona el interpreter Spark previamente configurado.
Ejecuta tus celdas y observa resultados que consultan datos en AWS.
Aprovecha SQL, Spark y Scala para consultas, gráficas y análisis.

¿Qué habilidades y conceptos aplicas?

Developer endpoint: entorno gestionado en la nube listo para recibir conexiones.
Provisioning status ready: indicador de que el endpoint está disponible.
Apache Zeppelin y Spark interpreter: interfaz y motor para ETLs y análisis.
Configuración master yarn client: define el modo de conexión de Spark.
Propiedades de Spark: manejo de spark.executor.memory y spark.driver.memory cuando existan.
SSH con llave privada: autenticación usando la llave “Platzi Llave”.
Túnel a localhost:9007: Connect to Existing Process para enlazar intérpretes.
ETLs con Python y Scala: ejecución interactiva, validación y depuración.
Gloo: consola desde la que se copian los comandos de conexión.

¿Tienes dudas sobre la configuración o quieres compartir tu flujo de trabajo de ETLs en Zeppelin? Cuéntame en comentarios y afinamos juntos los pasos.

Walter Lopez

student•

Si quieren cerrar el intérprete de Spark y la sesión de SSH que iniciaron en este video es con la función exit() o Ctrl+D.

Manuel Roa Ojeda

student•

Amigo, si estan usando windows, arroja problemas al momento de ingresar la llave publica ssh.

Se debe pusar putty para crear las ssh.

Dejo aquí la documentación usada, para mas referencia.

https://docs.aws.amazon.com/es_es/glue/latest/dg/dev-endpoint-tutorial-prerequisites.html

Usuario anónimo

user•

Gracias

Andres Camilo Graciano Higuita

student•

Antes de conectar Zeppelin al endpoint, valida los puertos abiertos y permisos en el Security Group de AWS para evitar errores de conexión.

Manuel Roa Ojeda

student•

esto seria lo mismo que usar boto3, pero en local cierto ?

Jhon Valencia

student•

Hola, esta conexion al developer endpoint tambien se puede con jupyter?

Mario Alexander Vargas Celis

student•

Para conectar tu Developer Endpoint de AWS Glue con un Zeppelin Endpoint, sigue estos pasos:

1. Crear un Developer Endpoint en AWS Glue

Antes de conectar Apache Zeppelin, asegúrate de que tienes un Developer Endpoint de AWS Glue activo.

Accede a la consola de AWS Glue.
Ve a "Developer Endpoints" en el menú lateral.
Crea un nuevo Developer Endpoint, asegurándote de:
- Seleccionar la versión correcta de Glue.
- Especificar una VPC, subred y grupo de seguridad compatibles con tu Apache Zeppelin.
- Activar el acceso SSH si necesitas conexión remota.
Una vez creado, copia la dirección del endpoint para usarla más adelante.

2. Configurar Apache Zeppelin en EC2

Si no tienes un servidor Zeppelin configurado, puedes lanzar una instancia EC2 y configurarlo manualmente o utilizar EMR:

Opción 1: Instalar Zeppelin en una EC2 manualmente

Lanza una instancia EC2 (Amazon Linux o Ubuntu recomendado).
Conéctate a la instancia y ejecuta:sudo yum update -y wget tar -xvzf zeppelin-*.tgz cd zeppelin-* ./bin/zeppelin-daemon.sh start
Asegúrate de abrir el puerto 8080 en los grupos de seguridad para acceder a Zeppelin en tu navegador.

Opción 2: Configurar Zeppelin en un clúster EMR

En la consola de Amazon EMR, crea un nuevo clúster con:
- Apache Spark habilitado.
- Apache Zeppelin activado en la configuración.
Espera a que el clúster se inicialice y obtén la URL de Zeppelin desde la consola de EMR.

3. Conectar AWS Glue con Zeppelin

Ahora que tienes Zeppelin y tu Developer Endpoint, sigue estos pasos:

Abre Apache Zeppelin en tu navegador.
Ve a "Interpreter" en la barra de configuración.
Agrega un nuevo interpreter para PySpark y configúralo con:
- Master: yarn
- glue.endpoint: La dirección de tu Developer Endpoint en AWS Glue.
- AWS Credentials: Configura tus credenciales si es necesario.
Guarda los cambios y reinicia Zeppelin.

4. Validar la Conexión

Ejecuta el siguiente código en un nuevo notebook en Zeppelin para probar la conexión con AWS Glue:

sc.listFiles()

Si todo está bien, deberías ver una lista de archivos accesibles desde tu Glue Developer Endpoint.

¡Listo! Ahora puedes ejecutar consultas interactivas en Zeppelin usando AWS Glue. 🚀

Mario Alexander Vargas Celis

student•

AWS eliminó los Developer Endpoints en AWS Glue a partir de noviembre de 2023 y recomienda usar AWS Glue Interactive Sessions como alternativa.

¿Qué hacer ahora?

Si antes usabas un Developer Endpoint para conectarte a Zeppelin, ahora puedes hacerlo de dos maneras:

1. Usar AWS Glue Interactive Sessions (Recomendado)

AWS Glue ahora permite sesiones interactivas en Notebooks Jupyter y Zeppelin sin necesidad de un Developer Endpoint.

Pasos para usar Glue Interactive Sessions en Zeppelin

Configura Zeppelin en una instancia EC2 o Amazon EMR
- Si no tienes Zeppelin instalado, sigue los pasos en la documentación oficial de Zeppelin.
- Si usas Amazon EMR, habilita Zeppelin en la configuración del clúster.
Habilita AWS Glue Interactive Sessions en Zeppelin
- Abre Zeppelin y ve a Interpreter.
- Crea un nuevo intérprete con la siguiente configuración:Name: glue Interpreter Group: spark zeppelin.spark.useHiveContext: true zeppelin.pyspark.python: python3 spark.hadoop.fs.s3.impl: org.apache.hadoop.fs.s3a.S3AFileSystem
- Guarda y reinicia Zeppelin.
Conéctate a Glue y prueba la sesión
- Abre un nuevo Notebook en Zeppelin.
- Ejecuta el siguiente código para probar la conexión con AWS Glue:import sys from awsglue.context import GlueContext from pyspark.context import SparkContext
  
  sc = SparkContext() glueContext = GlueContext(sc)
  
  print(glueContext)
- Si todo funciona correctamente, podrás ejecutar transformaciones en AWS Glue desde Zeppelin.

2. Usar AWS Glue Studio Notebooks

Si solo necesitas un entorno interactivo para procesar datos con Glue, ahora AWS recomienda usar Glue Studio Notebooks en la consola de AWS.

Cómo usar Glue Studio Notebooks

Ve a la consola de AWS Glue.
Crea un nuevo Job y elige la opción Notebook en vez de Script.
Ejecuta código en tiempo real usando AWS Glue sin necesidad de Zeppelin o Developer Endpoints.

Conclusión

Si usabas Developer Endpoints → Usa AWS Glue Interactive Sessions en Zeppelin.
Si quieres un entorno nativo de AWS → Usa AWS Glue Studio Notebooks.

Así puedes seguir trabajando con AWS Glue sin necesidad de los Developer Endpoints. 🚀

Raul Alfonso Rodriguez Lopez

student•

buenas… si comienzo a usar este servicio (Zeppelin), como serian los cobros al usarlo con AWS ??

LUIS GERARDO CAMBAL BARAHONA

student•

Gracias, pude conectar mi zeppelin local con la nube

john ct

student•

interesante

john ct

student•

apache zeppelin > localhost:8080

john ct

student•

type spark> then edit marter:> yarn-client

john ct

student•

if there is a spark. executor.memory properly, delete it by choosing the x in the action column if there is aspark.driver.memory property, delete it by choosing the x in the action column

john ct

student•

usar CLI para comandos 1- conexion de zeppelin con dev endpoint 2 usar scala y python 3 mayor analitica usar los ETL extract transform and Loads

Conexión de Apache Zeppelin con AWS

Bienvenida e introducción al curso

Big Data en la Nube: Análisis, Transformación y Seguridad

Big Data en Cloud desde origen a visualización

Por qué big data en cloud es más eficiente

Extracción vs ingesta en proyectos big data

Comparativa de AWS y GCP para proyectos BigData

Arquitecturas

Arquitectura Lambda: 3 capas para datos en tiempo real

Arquitectura capa: el tiempo real como ventaja

Cómo funciona la arquitectura batch

Extracción de información

Cómo mover datos a cloud con SDK y CLI

Python y boto3 para listar buckets S3

Boto3: inicializar clients de AWS en Python

API Gateway como puerta de big data

Storage Gateway: puerta entre on-premise y S3

AWS Kinesis: streaming masivo de datos

Cómo crear Kinesis Data Stream en AWS

Despliegue automatizado de Kinesis con CloudFormation

Cómo Kinesis Firehose entrega datos en tiempo real

Configuración de Kinesis Firehose en AWS

Configuración Básica de Amazon Kinesis Firehose en AWS

MSK vs Kinesis: cuál elegir en AWS

Creación de clúster AWS MSK desde la consola

Transformación de Información

Cómo AWS Glue transforma datos en la nube

Instalación de Apache Zeppelin paso a paso

Configurar developer endpoint de AWS Glue con Zeppelin

Conexión de Apache Zeppelin con AWS

Configurar AWS Glue Crawler para poblar catálogo

Configuración de Developer Endpoint en AWS Glue

Cómo configurar AWS Glue ETL desde S3 a Parquet

Qué es EMR y cuándo usarlo

Crear tu primer cluster de AWS EMR

Conectar Apache Zeppelin a EMR

EMR automatizado con CloudFormation

AWS Lambda para proyectos de big data

Lambdas en big data: real time y batch

Configuración de AWS Lambda para Big Data

Carga de Información

Cómo Athena consulta datos en S3 con SQL

Cómo funciona AWS Athena con S3

Redshift vs Athena: cuándo usar cada uno

Configuración de cluster Redshift en AWS

AWS Lake Formation automatiza tu data lake

Consumo de información

Cómo dimensionar shards de Elasticsearch en AWS

Cómo crear un clúster Elasticsearch en AWS

Cómo funciona Kibana con Elasticsearch

QuickSight: el BI en cloud de AWS

Configuración completa de QuickSight en AWS

Seguridad, Orquestación y Automatización

5 reglas de seguridad para Big Data en AWS

Cómo AWS Macie protege datos en S3

Configuración de AWS Macie en 5 pasos

Apache Airflow vs Step Functions para ETL

Despliegue de Apache Airflow en GCP

Arquitecturas batch y streaming en AWS

Clase pública

Las cinco B de big data explicadas