Configuración de Developer Endpoint en AWS Glue
Clase 27 de 52 • Curso de Big Data en AWS
Contenido del curso
Arquitecturas
Extracción de información
- 9

Cómo mover datos a cloud con SDK y CLI
02:21 min - 10

Python y boto3 para listar buckets S3
10:16 min - 11

Boto3: inicializar clients de AWS en Python
03:56 min - 12

API Gateway como puerta de big data
03:40 min - 13

Storage Gateway: puerta entre on-premise y S3
03:13 min - 14

AWS Kinesis: streaming masivo de datos
05:53 min - 15

Cómo crear Kinesis Data Stream en AWS
06:50 min - 16

Despliegue automatizado de Kinesis con CloudFormation
10:42 min - 17

Cómo Kinesis Firehose entrega datos en tiempo real
03:27 min - 18

Configuración de Kinesis Firehose en AWS
05:45 min - 19
Configuración Básica de Amazon Kinesis Firehose en AWS
02:53 min - 20

MSK vs Kinesis: cuál elegir en AWS
03:42 min - 21

Creación de clúster AWS MSK desde la consola
07:21 min
Transformación de Información
- 22

Cómo AWS Glue transforma datos en la nube
06:33 min - 23

Instalación de Apache Zeppelin paso a paso
04:49 min - 24

Configurar developer endpoint de AWS Glue con Zeppelin
05:38 min - 25

Conexión de Apache Zeppelin con AWS
08:29 min - 26

Configurar AWS Glue Crawler para poblar catálogo
08:15 min - 27

Configuración de Developer Endpoint en AWS Glue
Viendo ahora - 28

Cómo configurar AWS Glue ETL desde S3 a Parquet
10:23 min - 29

Qué es EMR y cuándo usarlo
05:30 min - 30

Crear tu primer cluster de AWS EMR
09:01 min - 31

Conectar Apache Zeppelin a EMR
03:18 min - 32

EMR automatizado con CloudFormation
06:32 min - 33

AWS Lambda para proyectos de big data
07:02 min - 34

Lambdas en big data: real time y batch
04:54 min - 35

Configuración de AWS Lambda para Big Data
07:16 min
Carga de Información
Consumo de información
Seguridad, Orquestación y Automatización
Clase pública
Aprende a configurar y validar un flujo ETL en AWS Glue con un enfoque práctico y claro. Desde el túnel al developer endpoint hasta la verificación con Zepelin y PySpark, se muestran los pasos clave para leer datos desde S3 usando el Glue Catalog y preparar la transformación final.
¿Cómo se prepara el entorno de AWS Glue para el ETL?
Para iniciar, se identifica el archivo ETL.PY en el repositorio del curso. Esa será la tarea de transformación. Antes de ejecutarla, se valida la conexión a S3 mediante el developer endpoint.
- Abrir AWS Glue y ubicar el developer endpoint en la consola.
- Copiar el comando que crea el túnel remoto al intérprete.
- Ejecutarlo con la llave privada para conectar el Zepelin local al developer endpoint.
- Abrir Zepelin, actualizar y entrar al notebook creado, llamado Platzi nuevo.
- Confirmar que la consola sigue activa y que la data de S3 está sincronizada.
- Basarse en ejemplos públicos de AWS para los comandos de validación.
¿Qué es Glue Context y para qué sirve?
Se crea el Glue Context para establecer la conexión y traer las librerías necesarias. Con esto, se habilitan los comandos posteriores que interactúan con los datos registrados en el Glue Catalog.
¿Qué valida la conexión con S3 y Glue Catalog?
La validación se hace cargando una tabla de la base de datos en Glue Catalog y realizando un conteo con su esquema. Inicialmente se prepara el comando para crear un dynamic frame desde la base Legislators, pero se ajusta al nombre real: Platzi DB.
- Cambiar el origen a Platzi DB en el comando.
- Usar la tabla persons_json como tabla de entrada.
- Ejecutar un count para imprimir la cantidad de registros.
- Imprimir también el esquema para confirmar los campos detectados.
¿Cómo corregir el error de ejecución en Zepelin?
Si la ejecución falla, se corrige incluyendo el bloque previo que importa todas las librerías y especificando el intérprete de PySpark en Zepelin antes de importar. Así, el entorno reconoce correctamente los comandos de Glue.
- Pegar primero el bloque de librerías.
- Indicar explícitamente que se usará PySpark como intérprete.
- Ejecutar de nuevo el conteo y la impresión del esquema.
¿Qué resultados confirman la conexión?
Tras conectarse a la metadata y al developer endpoint, se obtiene el resultado esperado: un conteo de 1961 registros en la tabla persons_json y la impresión del esquema. Esto demuestra que el Glue Context, el dynamic frame y el Glue Catalog están operando correctamente sobre los datos fuente en S3.
¿Cómo hacer troubleshooting con PySpark por SSH?
Además de Zepelin, es posible ejecutar los mismos comandos desde la consola conectándose por SSH al developer endpoint y usando PySpark. Esta ruta facilita un debugging más profundo porque muestra errores y salidas detalladas en tiempo real.
- Conectarse por SSH al developer endpoint.
- Abrir PySpark y ejecutar los comandos línea a línea.
- Observar errores y salidas para identificar causas y ajustar rápido.
Con la validación lista, el siguiente paso es crear el ETL de transformación para tomar la data leída, transformarla y escribirla en otro bucket listo para consulta. ¿Qué parte te resultó más útil o qué problema te gustaría probar con este flujo? Deja tu comentario y seguimos mejorando el proceso juntos.