Conexión y configuración de Apache Zeppelin para ETL en AWS

Clase 25 de 52 • Curso de Big Data en AWS

Resumen

¿Cómo configurar Apache Zeppelin para un developer endpoint?

Conectar tu entorno de desarrollo local a un Developer Endpoint en AWS puede ser un poco desafiante si no se tiene experiencia previa, pero con estos pasos podrás configurarlo adecuadamente y sacar el máximo provecho a la capacidad de procesamiento de datos en la nube.

Primero, debes asegurarte de que tu developer endpoint esté en estado "ready". Desde el panel de conexión en AWS, toma nota de la dirección y detalles que necesitarás para hacer la conexión desde tu entorno local, Apache Zeppelin.

¿Cómo configurar el interpreter de Spark en Zeppelin?

Para trabajar con Spark desde Apache Zeppelin, lo que necesitas hacer es muy sencillo. Sigue estos pasos:

Abre Apache Zeppelin y dirígete a la sección de Interpreters.
Busca el interpreter para Spark y selecciona Edit.
Configura la propiedad master en yarn client. Si en las propiedades aparece Spark executor memory o Spark driver memory, elimínalas.
Configura un redireccionamiento de puerto al 9007 de localhost. Selecciona connect to existing process y establece localhost como host por el puerto 9007.

¿Cómo conectar Apache Zeppelin local con el developer endpoint?

El siguiente paso es establecer la conexión SSH. Esto implica abrir un túnel entre tu máquina local y el developer endpoint. Aquí cómo:

Dirígete a la consola de AWS Glue y copia el comando SSH proporcionado.
Reemplaza la llave por tu llave privada local, asegurándote de especificar la ruta si no estás en el directorio correcto.
Ejecuta el comando en tu consola. Esto iniciará una conexión que permitirá ejecutar comandos en el endpoint.
Abre un nuevo comando SSH para trabajar con Scala. La mecánica es igual que el anterior, asegurándote de usar la llave correcta.

¿Cómo usar Apache Zeppelin para visualizar y analizar datos?

Después de establecer la conexión y verificar la ejecución de comandos básicos, puedes comenzar a utilizar la poderosa interfaz de Apache Zeppelin para realizar análisis más complejos.

Crea un nuevo notebook en Zeppelin y selecciona Spark como interpreter.
Ejecuta comandos y observa el resultado gráfico directamente desde tu notebook, apalancándote en la infraestructura en la nube para consultar y analizar la data en AWS.

Con este proceso, básicamente estás armando un entorno de trabajo robusto donde pueden analizarse grandes volúmenes de datos, permitiendo un análisis en tiempo real y un testing eficaz antes de pasar cualquier desarrollo a producción.

¿Listo para experimentar más con tus datos en la nube? ¡Continúa explorando y no dejes de aprender! El mundo de la transformación de datos es vasto y siempre hay algo nuevo por descubrir.

Walter Lopez

student•

Si quieren cerrar el intérprete de Spark y la sesión de SSH que iniciaron en este video es con la función exit() o Ctrl+D.

Manuel Roa Ojeda

student•

Amigo, si estan usando windows, arroja problemas al momento de ingresar la llave publica ssh.

Se debe pusar putty para crear las ssh.

Dejo aquí la documentación usada, para mas referencia.

https://docs.aws.amazon.com/es_es/glue/latest/dg/dev-endpoint-tutorial-prerequisites.html

Usuario anónimo

user•

Gracias

Andres Camilo Graciano Higuita

student•

Antes de conectar Zeppelin al endpoint, valida los puertos abiertos y permisos en el Security Group de AWS para evitar errores de conexión.

Manuel Roa Ojeda

student•

esto seria lo mismo que usar boto3, pero en local cierto ?

Jhon Valencia

student•

Hola, esta conexion al developer endpoint tambien se puede con jupyter?

Mario Alexander Vargas Celis

student•

Para conectar tu Developer Endpoint de AWS Glue con un Zeppelin Endpoint, sigue estos pasos:

1. Crear un Developer Endpoint en AWS Glue

Antes de conectar Apache Zeppelin, asegúrate de que tienes un Developer Endpoint de AWS Glue activo.

Accede a la consola de AWS Glue.
Ve a "Developer Endpoints" en el menú lateral.
Crea un nuevo Developer Endpoint, asegurándote de:
- Seleccionar la versión correcta de Glue.
- Especificar una VPC, subred y grupo de seguridad compatibles con tu Apache Zeppelin.
- Activar el acceso SSH si necesitas conexión remota.
Una vez creado, copia la dirección del endpoint para usarla más adelante.

2. Configurar Apache Zeppelin en EC2

Si no tienes un servidor Zeppelin configurado, puedes lanzar una instancia EC2 y configurarlo manualmente o utilizar EMR:

Opción 1: Instalar Zeppelin en una EC2 manualmente

Lanza una instancia EC2 (Amazon Linux o Ubuntu recomendado).
Conéctate a la instancia y ejecuta:sudo yum update -y wget https://downloads.apache.org/zeppelin/zeppelin-0.10.1-bin-netinst.tgz tar -xvzf zeppelin-*.tgz cd zeppelin-* ./bin/zeppelin-daemon.sh start
Asegúrate de abrir el puerto 8080 en los grupos de seguridad para acceder a Zeppelin en tu navegador.

Opción 2: Configurar Zeppelin en un clúster EMR

En la consola de Amazon EMR, crea un nuevo clúster con:
- Apache Spark habilitado.
- Apache Zeppelin activado en la configuración.
Espera a que el clúster se inicialice y obtén la URL de Zeppelin desde la consola de EMR.

3. Conectar AWS Glue con Zeppelin

Ahora que tienes Zeppelin y tu Developer Endpoint, sigue estos pasos:

Abre Apache Zeppelin en tu navegador.
Ve a "Interpreter" en la barra de configuración.
Agrega un nuevo interpreter para PySpark y configúralo con:
- Master: yarn
- glue.endpoint: La dirección de tu Developer Endpoint en AWS Glue.
- AWS Credentials: Configura tus credenciales si es necesario.
Guarda los cambios y reinicia Zeppelin.

4. Validar la Conexión

Ejecuta el siguiente código en un nuevo notebook en Zeppelin para probar la conexión con AWS Glue:

sc.listFiles()

Si todo está bien, deberías ver una lista de archivos accesibles desde tu Glue Developer Endpoint.

¡Listo! Ahora puedes ejecutar consultas interactivas en Zeppelin usando AWS Glue. 🚀

Mario Alexander Vargas Celis

student•

AWS eliminó los Developer Endpoints en AWS Glue a partir de noviembre de 2023 y recomienda usar AWS Glue Interactive Sessions como alternativa.

¿Qué hacer ahora?

Si antes usabas un Developer Endpoint para conectarte a Zeppelin, ahora puedes hacerlo de dos maneras:

1. Usar AWS Glue Interactive Sessions (Recomendado)

AWS Glue ahora permite sesiones interactivas en Notebooks Jupyter y Zeppelin sin necesidad de un Developer Endpoint.

Pasos para usar Glue Interactive Sessions en Zeppelin

Configura Zeppelin en una instancia EC2 o Amazon EMR
- Si no tienes Zeppelin instalado, sigue los pasos en la documentación oficial de Zeppelin.
- Si usas Amazon EMR, habilita Zeppelin en la configuración del clúster.
Habilita AWS Glue Interactive Sessions en Zeppelin
- Abre Zeppelin y ve a Interpreter.
- Crea un nuevo intérprete con la siguiente configuración:Name: glue Interpreter Group: spark zeppelin.spark.useHiveContext: true zeppelin.pyspark.python: python3 spark.hadoop.fs.s3.impl: org.apache.hadoop.fs.s3a.S3AFileSystem
- Guarda y reinicia Zeppelin.
Conéctate a Glue y prueba la sesión
- Abre un nuevo Notebook en Zeppelin.
- Ejecuta el siguiente código para probar la conexión con AWS Glue:import sys from awsglue.context import GlueContext from pyspark.context import SparkContext
  
  sc = SparkContext() glueContext = GlueContext(sc)
  
  print(glueContext)
- Si todo funciona correctamente, podrás ejecutar transformaciones en AWS Glue desde Zeppelin.

2. Usar AWS Glue Studio Notebooks

Si solo necesitas un entorno interactivo para procesar datos con Glue, ahora AWS recomienda usar Glue Studio Notebooks en la consola de AWS.

Cómo usar Glue Studio Notebooks

Ve a la consola de AWS Glue.
Crea un nuevo Job y elige la opción Notebook en vez de Script.
Ejecuta código en tiempo real usando AWS Glue sin necesidad de Zeppelin o Developer Endpoints.

Conclusión

Si usabas Developer Endpoints → Usa AWS Glue Interactive Sessions en Zeppelin.
Si quieres un entorno nativo de AWS → Usa AWS Glue Studio Notebooks.

Así puedes seguir trabajando con AWS Glue sin necesidad de los Developer Endpoints. 🚀

Raul Alfonso Rodriguez Lopez

student•

buenas… si comienzo a usar este servicio (Zeppelin), como serian los cobros al usarlo con AWS ??

LUIS GERARDO CAMBAL BARAHONA

student•

Gracias, pude conectar mi zeppelin local con la nube

john ct

student•

interesante

john ct

student•

apache zeppelin > localhost:8080

john ct

student•

type spark> then edit marter:> yarn-client

john ct

student•

if there is a spark. executor.memory properly, delete it by choosing the x in the action column if there is aspark.driver.memory property, delete it by choosing the x in the action column

john ct

student•

usar CLI para comandos 1- conexion de zeppelin con dev endpoint 2 usar scala y python 3 mayor analitica usar los ETL extract transform and Loads