Conexión de Apache Zeppelin con AWS
Clase 25 de 52 • Curso de Big Data en AWS
Contenido del curso
Arquitecturas
Extracción de información
- 9

Cómo mover datos a cloud con SDK y CLI
02:21 min - 10

Python y boto3 para listar buckets S3
10:16 min - 11

Boto3: inicializar clients de AWS en Python
03:56 min - 12

API Gateway como puerta de big data
03:40 min - 13

Storage Gateway: puerta entre on-premise y S3
03:13 min - 14

AWS Kinesis: streaming masivo de datos
05:53 min - 15

Cómo crear Kinesis Data Stream en AWS
06:50 min - 16

Despliegue automatizado de Kinesis con CloudFormation
10:42 min - 17

Cómo Kinesis Firehose entrega datos en tiempo real
03:27 min - 18

Configuración de Kinesis Firehose en AWS
05:45 min - 19
Configuración Básica de Amazon Kinesis Firehose en AWS
02:53 min - 20

MSK vs Kinesis: cuál elegir en AWS
03:42 min - 21

Creación de clúster AWS MSK desde la consola
07:21 min
Transformación de Información
- 22

Cómo AWS Glue transforma datos en la nube
06:33 min - 23

Instalación de Apache Zeppelin paso a paso
04:49 min - 24

Configurar developer endpoint de AWS Glue con Zeppelin
05:38 min - 25

Conexión de Apache Zeppelin con AWS
Viendo ahora - 26

Configurar AWS Glue Crawler para poblar catálogo
08:15 min - 27

Configuración de Developer Endpoint en AWS Glue
08:00 min - 28

Cómo configurar AWS Glue ETL desde S3 a Parquet
10:23 min - 29

Qué es EMR y cuándo usarlo
05:30 min - 30

Crear tu primer cluster de AWS EMR
09:01 min - 31

Conectar Apache Zeppelin a EMR
03:18 min - 32

EMR automatizado con CloudFormation
06:32 min - 33

AWS Lambda para proyectos de big data
07:02 min - 34

Lambdas en big data: real time y batch
04:54 min - 35

Configuración de AWS Lambda para Big Data
07:16 min
Carga de Información
Consumo de información
Seguridad, Orquestación y Automatización
Clase pública
Aprende a conectar tu entorno local con un developer endpoint para ejecutar ETLs con Spark, Python y Scala desde Apache Zeppelin. Aquí verás cómo preparar el interpreter, autenticar por SSH con tu llave privada y crear un túnel estable hacia localhost:9007 para consultar datos en AWS de forma interactiva.
¿Cómo preparar Apache Zeppelin para conectar con el developer endpoint?
Antes de cualquier conexión, valida que el provisioning status del developer endpoint esté ready y abre sus datos de conexión. Luego, en tu Apache Zeppelin local, ajusta el interpreter de Spark para que “hable” con el endpoint en la nube.
¿Qué propiedades de Spark revisar en el interpreter?
- Entra a Anonymous > Interpreter y abre el interpreter de Spark con Edit.
- Verifica la propiedad master como yarn client. Debe estar así.
- Si existen, elimina las propiedades spark.executor.memory y spark.driver.memory.
¿Cómo redirigir al puerto 9007 en localhost?
- Activa la opción: Connect to Existing Process.
- En host escribe: localhost.
- En puerto escribe: 9007.
- Haz clic en save para guardar los cambios.
Con esto, tu Zeppelin local queda configurado para comunicarse con el Zeppelin del developer endpoint.
¿Qué comandos SSH permiten trabajar con Python y Scala?
Desde la consola de Gloo, copia los comandos mostrados para conectarte por SSH. El primero abre una consola para Python y el segundo para Scala. En ambos, debes reemplazar la llave por tu llave privada creada, por ejemplo Platzi Llave.
¿Cómo autenticar con la llave privada?
- Ubícate en el directorio donde está tu llave privada. Usa un listado de archivos para verificarla.
- Si no estás en esa ruta, especifica la opción indicada para la clave privada (se menciona “la k”) con la ruta completa.
- Ejecuta el comando SSH y autoriza la conexión cuando te lo solicite.
¿Qué permite la consola interactiva de Python y Scala?
- Ejecutar ETLs paso a paso en Spark para validarlos antes de producción.
- Hacer debugging y troubleshooting línea a línea.
- Visualizar mensajes de warning de Spark y seguir el estado de ejecución.
Si eliges Scala, verás la “pantallita” de Scala lista para correr tus comandos.
¿Cómo crear el túnel y ejecutar ETLs desde Zeppelin?
Para trabajar desde tu notebook local contra datos en AWS, crea un túnel SSH para el interpreter. Este comando permanece activo: no “termina”, porque mantiene la conexión entre tu localhost y el developer endpoint.
¿Cómo crear el túnel SSH para el intérprete?
- Copia el comando completo de túnel desde la consola del developer endpoint.
- Reemplaza la llave por tu Platzi Llave.
- Ejecuta el comando; déjalo corriendo para sostener el túnel.
¿Cómo ejecutar notebooks de Spark contra AWS desde Zeppelin?
- En Zeppelin crea una nota nueva, por ejemplo: “platzi nuevo”.
- Selecciona el interpreter Spark previamente configurado.
- Ejecuta tus celdas y observa resultados que consultan datos en AWS.
- Aprovecha SQL, Spark y Scala para consultas, gráficas y análisis.
¿Qué habilidades y conceptos aplicas?
- Developer endpoint: entorno gestionado en la nube listo para recibir conexiones.
- Provisioning status ready: indicador de que el endpoint está disponible.
- Apache Zeppelin y Spark interpreter: interfaz y motor para ETLs y análisis.
- Configuración master yarn client: define el modo de conexión de Spark.
- Propiedades de Spark: manejo de spark.executor.memory y spark.driver.memory cuando existan.
- SSH con llave privada: autenticación usando la llave “Platzi Llave”.
- Túnel a localhost:9007: Connect to Existing Process para enlazar intérpretes.
- ETLs con Python y Scala: ejecución interactiva, validación y depuración.
- Gloo: consola desde la que se copian los comandos de conexión.
¿Tienes dudas sobre la configuración o quieres compartir tu flujo de trabajo de ETLs en Zeppelin? Cuéntame en comentarios y afinamos juntos los pasos.