Configurar developer endpoint de AWS Glue con Zeppelin
Clase 24 de 52 • Curso de Big Data en AWS
Contenido del curso
Arquitecturas
Extracción de información
- 9

Cómo mover datos a cloud con SDK y CLI
02:21 min - 10

Python y boto3 para listar buckets S3
10:16 min - 11

Boto3: inicializar clients de AWS en Python
03:56 min - 12

API Gateway como puerta de big data
03:40 min - 13

Storage Gateway: puerta entre on-premise y S3
03:13 min - 14

AWS Kinesis: streaming masivo de datos
05:53 min - 15

Cómo crear Kinesis Data Stream en AWS
06:50 min - 16

Despliegue automatizado de Kinesis con CloudFormation
10:42 min - 17

Cómo Kinesis Firehose entrega datos en tiempo real
03:27 min - 18

Configuración de Kinesis Firehose en AWS
05:45 min - 19
Configuración Básica de Amazon Kinesis Firehose en AWS
02:53 min - 20

MSK vs Kinesis: cuál elegir en AWS
03:42 min - 21

Creación de clúster AWS MSK desde la consola
07:21 min
Transformación de Información
- 22

Cómo AWS Glue transforma datos en la nube
06:33 min - 23

Instalación de Apache Zeppelin paso a paso
04:49 min - 24

Configurar developer endpoint de AWS Glue con Zeppelin
Viendo ahora - 25

Conexión de Apache Zeppelin con AWS
08:29 min - 26

Configurar AWS Glue Crawler para poblar catálogo
08:15 min - 27

Configuración de Developer Endpoint en AWS Glue
08:00 min - 28

Cómo configurar AWS Glue ETL desde S3 a Parquet
10:23 min - 29

Qué es EMR y cuándo usarlo
05:30 min - 30

Crear tu primer cluster de AWS EMR
09:01 min - 31

Conectar Apache Zeppelin a EMR
03:18 min - 32

EMR automatizado con CloudFormation
06:32 min - 33

AWS Lambda para proyectos de big data
07:02 min - 34

Lambdas en big data: real time y batch
04:54 min - 35

Configuración de AWS Lambda para Big Data
07:16 min
Carga de Información
Consumo de información
Seguridad, Orquestación y Automatización
Clase pública
Conecta tu entorno local de Apache Zeppelin con datos en AWS usando un developer endpoint de AWS Glue. Aquí verás el flujo completo: desde Glue Notebooks hasta la generación y carga de la llave pública SSH, con parámetros clave como DPUs, rol de IAM y opciones de red.
¿Cómo crear un developer endpoint en AWS Glue con Zeppelin Notebook?
Para usar Zeppelin con Glue, se inicia en la consola de AWS. La ruta es clara y evita confusiones con SageMaker, que está orientado a machine learning.
- Entra a la consola de AWS y busca Glue.
- En el menú izquierdo, abre Notebooks.
- Verás dos opciones: SageMaker Notebooks y Zeppelin. Para este caso, elige Zeppelin.
- Clic en “Create a Zeppelin Notebook”. Serás llevado a developer endpoints.
- Clic en Add Endpoint y nómbralo, por ejemplo: devplazzy.
- Asigna un IAM role con permisos sobre Glue y S3. Si no existe, usa “Create IAM Role” desde la interfaz.
¿Qué rol de IAM y permisos se necesitan?
El rol debe permitir acceso a los servicios de Glue y a los buckets de S3 donde está la data. La interfaz de AWS permite crearlo en el momento y luego seleccionarlo para el endpoint.
¿Cómo definir DPUs y librerías desde S3?
- Para developer endpoints se recomienda una capacidad de cómputo pequeña para no consumir muchos recursos. En el ejemplo se usan 5 DPUs.
- Puedes referenciar librerías de Python alojadas en S3 para cargarlas en el endpoint. También se mencionan librerías basadas en “hard”.
¿Qué opciones de red usar: VPC o configuración genérica?
La red puede dejarse con información genérica para conectarte de forma directa. Sin embargo, si tu organización usa entornos segmentados, puedes elegir una VPC, su tipo de conexión y la subred específica.
- El despliegue en VPC aplica cuando tienes ambientes públicos y privados y necesitas controlar el networking.
- Si no hay requerimientos especiales, continúa con la configuración por defecto y avanza al siguiente paso.
¿Cómo generar y cargar la llave SSH para el endpoint?
Para conectar tu Zeppelin local al developer endpoint, se requiere una llave pública. Se genera localmente y se carga la parte pública en Glue Notebooks; la llave privada se quedará en tu equipo para la conexión.
¿Qué comandos usar en consola para crear las llaves?
En la consola local, partiendo desde el directorio de Zeppelin, se sube un nivel y se generan las llaves:
# moverse un directorio arriba
d
cd ..
# listar para verificar ubicación
ls
# generar las llaves pública y privada
ssh-keygen
# cuando lo solicite, ingresa el nombre: plazyyave
# no es necesario agregar más datos
# verificar archivos generados
ls
# deberías ver: plazyyave (privada) y plazyyave.pub (pública)
# ver el contenido de la llave pública
vim plazyyave.pub
- Copia el contenido completo de plazyyave.pub.
- En el developer endpoint, pega la llave pública en el campo correspondiente.
- Alternativa: usa la opción Upload y selecciona el archivo público desde la carpeta donde lo creaste.
¿Cómo finalizar el alta del endpoint y conectar?
- Tras pegar o subir la llave pública, continúa con “Next” y luego “Finish”.
- El servicio iniciará el aprovisionamiento del developer endpoint.
- Para conectarte más adelante al endpoint, usarás la llave privada que quedó en tu equipo.
¿Qué habilidades y conceptos aplicas aquí?
- Configuración de Glue Notebooks con Zeppelin para análisis desde entorno local.
- Asignación de IAM role con permisos de Glue y S3.
- Ajuste de DPUs para optimizar recursos, ejemplo con 5 DPUs.
- Carga de librerías de Python desde S3 al endpoint.
- Elección de VPC y subred cuando hay segmentación de red.
- Generación y uso de llaves SSH: pública para Glue, privada para la conexión.
¿Te resultó útil esta guía práctica para unir Zeppelin y AWS Glue? Comparte tus dudas o experiencias en los comentarios.