Configuración de Developer Endpoint en AWS Glue

Clase 27 de 52 • Curso de Big Data en AWS

Resumen

Aprende a configurar y validar un flujo ETL en AWS Glue con un enfoque práctico y claro. Desde el túnel al developer endpoint hasta la verificación con Zepelin y PySpark, se muestran los pasos clave para leer datos desde S3 usando el Glue Catalog y preparar la transformación final.

¿Cómo se prepara el entorno de AWS Glue para el ETL?

Para iniciar, se identifica el archivo ETL.PY en el repositorio del curso. Esa será la tarea de transformación. Antes de ejecutarla, se valida la conexión a S3 mediante el developer endpoint.

Abrir AWS Glue y ubicar el developer endpoint en la consola.
Copiar el comando que crea el túnel remoto al intérprete.
Ejecutarlo con la llave privada para conectar el Zepelin local al developer endpoint.
Abrir Zepelin, actualizar y entrar al notebook creado, llamado Platzi nuevo.
Confirmar que la consola sigue activa y que la data de S3 está sincronizada.
Basarse en ejemplos públicos de AWS para los comandos de validación.

¿Qué es Glue Context y para qué sirve?

Se crea el Glue Context para establecer la conexión y traer las librerías necesarias. Con esto, se habilitan los comandos posteriores que interactúan con los datos registrados en el Glue Catalog.

¿Qué valida la conexión con S3 y Glue Catalog?

La validación se hace cargando una tabla de la base de datos en Glue Catalog y realizando un conteo con su esquema. Inicialmente se prepara el comando para crear un dynamic frame desde la base Legislators, pero se ajusta al nombre real: Platzi DB.

Cambiar el origen a Platzi DB en el comando.
Usar la tabla persons_json como tabla de entrada.
Ejecutar un count para imprimir la cantidad de registros.
Imprimir también el esquema para confirmar los campos detectados.

¿Cómo corregir el error de ejecución en Zepelin?

Si la ejecución falla, se corrige incluyendo el bloque previo que importa todas las librerías y especificando el intérprete de PySpark en Zepelin antes de importar. Así, el entorno reconoce correctamente los comandos de Glue.

Pegar primero el bloque de librerías.
Indicar explícitamente que se usará PySpark como intérprete.
Ejecutar de nuevo el conteo y la impresión del esquema.

¿Qué resultados confirman la conexión?

Tras conectarse a la metadata y al developer endpoint, se obtiene el resultado esperado: un conteo de 1961 registros en la tabla persons_json y la impresión del esquema. Esto demuestra que el Glue Context, el dynamic frame y el Glue Catalog están operando correctamente sobre los datos fuente en S3.

¿Cómo hacer troubleshooting con PySpark por SSH?

Además de Zepelin, es posible ejecutar los mismos comandos desde la consola conectándose por SSH al developer endpoint y usando PySpark. Esta ruta facilita un debugging más profundo porque muestra errores y salidas detalladas en tiempo real.

Conectarse por SSH al developer endpoint.
Abrir PySpark y ejecutar los comandos línea a línea.
Observar errores y salidas para identificar causas y ajustar rápido.

Con la validación lista, el siguiente paso es crear el ETL de transformación para tomar la data leída, transformarla y escribirla en otro bucket listo para consulta. ¿Qué parte te resultó más útil o qué problema te gustaría probar con este flujo? Deja tu comentario y seguimos mejorando el proceso juntos.

Manuel Roa Ojeda

student•

Estimados estoy utulizando jupyter Notebook para hacer las consultas, es una interfaz generada por AWS, y por el momento todo anda bien, es muy simple configurar, mucho mas que zepellin, en mi opinión.

Les dejo la documentación.

https://docs.aws.amazon.com/es_es/glue/latest/dg/dev-endpoint-tutorial-sage.html

Walter Lopez

student•

Si al momento de intentar conectar el Zeppelin con el Endpoint les sale un error en la consola de connection refused, en mi caso lo solucioné creando el endpoint en la consola de Glue en las opciones de Security configuration, script libraries, and job parameters en la casilla de Glue Version seleccioné Spark 2.2, Python 2 (Glue Version 0.9).

john ct

student•

interesante

john ct

student•

que otra aplicacion aparte de zeppelin apache podriamos usar y q sea compatible con aws glue

Emmanuel Corral Marco

student•

glue studio

Manuel Roa Ojeda

student•

@czam01 , podemos hacer las consultas desde aws cloud9 hacia glue ? si se puede envias la documentación para intentar de esa modalidad, gracias,

Emmanuel Corral Marco

student•

se puede, pero cloud9 se ejecuta en una maquina de aws por lo que te consume recursos y dinero, mi recomendación es que uses el zeppelin con un entorno de glue en local, O en caso de solo testear scripts, desde la propia consola de aws y desarrollar en vs code.

Evelia Lopez Rueda

student•

Hola. intente correr los servicios con tanto con sage maker y en un jupter notebook y me aparecia este mensaje No module named awsglue.transforms alguien podria ayudarme para poder correr los modulos de AWS?

Pedro Ortiz

student•

He estado haciendo las prácticas que haces en los videos. Sin embargo, amazon me ha estado cobrando por el servicio, y me ha estado cobrando mucho. Yo tenía entendido que los ejercicios que estabamos hacoendo estaban dentro de la capa gratuita o al menos que no iba a superar un par de dolares puesto que no estamos automatizando un proyecto grande. ¿Sabes que puedo haber pasado? @czam01 gracias

Diego Forero

Team Platzi•

Hola, recuerda que todo depende de lo que estes corriendo, la capa gratuita por ejemplo cubre solo una instancia t2.micro corriendo todo el mes 24/7, pero si inicias una instancia diferente a esa te va a realizar un cobro porque ya no esta en la capa gratuita, esto pasa igual con los demás servicios.

Carlos Andrés Zambrano Barrera

teacher•

De acuerdo, debes apagar todos los servicios apenas los utilices. Con la capa gratuita no es siempre suficiente. Te recomendaría crear una alerta de billing https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/monitor_estimated_charges_with_cloudwatch.html

Mario Alexander Vargas Celis

student•

Para ejecutar tu primer ETL (Extract, Transform, Load) en AWS Glue, sigue estos pasos:

1️⃣ Crear un Job en AWS Glue

Accede a AWS Glue desde la consola de AWS.
En el menú izquierdo, selecciona "Jobs" y haz clic en "Create job".
Configura:
- Nombre del Job: Un nombre descriptivo.
- IAM Role: Un rol con permisos para acceder a S3 y Glue.
- Tipo de script: Python o Scala.
- Ubicación del código: Puedes escribirlo en la consola o almacenarlo en S3.

2️⃣ Escribir el código del ETL

Ejemplo en Python usando AWS Glue DynamicFrames:

import sys from awsglue.transforms import * from awsglue.utils import getResolvedOptions from pyspark.context import SparkContext from awsglue.context import GlueContext from awsglue.job import Job

# Inicializar contexto de Glue args = getResolvedOptions(sys.argv, ['JOB_NAME']) sc = SparkContext() glueContext = GlueContext(sc) spark = glueContext.spark_session job = Job(glueContext) job.init(args['JOB_NAME'], args)

# Extraer datos desde S3 datasource = glueContext.create_dynamic_frame.from_options( format_options={"multiline": True}, connection_type="s3", format="json", connection_options={"paths": ["s3://mi-bucket/input/"], "recurse": True}, )

# Transformar datos transformed_df = datasource.toDF() transformed_df = transformed_df.withColumnRenamed("old_column", "new_column")

# Cargar datos a S3 output_dyf = DynamicFrame.fromDF(transformed_df, glueContext, "output_dyf") glueContext.write_dynamic_frame.from_options( frame=output_dyf, connection_type="s3", connection_options={"path": "s3://mi-bucket/output/"}, format="parquet" )

job.commit()

3️⃣ Ejecutar el Job

Guarda el script en S3 o en el editor de Glue.
En la consola de AWS Glue, selecciona el Job creado.
Haz clic en "Run Job" y monitorea su ejecución en "Runs".

4️⃣ Monitorear la Ejecución

Ve a AWS Glue → Jobs → Runs para ver el estado del Job.
Revisa AWS CloudWatch Logs para depurar errores.

📌 Opcional: Automatiza la ejecución con AWS Lambda o AWS Step Functions si deseas que el ETL corra periódicamente. 🚀

Saul Burgos

student•

Si alguien tiene problemas con los permisos en los roles aqui esta la solucion

Manuel Roa Ojeda

student•

Documentación de AWS

https://docs.aws.amazon.com/es_es/glue/latest/dg/aws-glue-programming-python-samples-legislators.html

Usuario anónimo

user•

Tengo inconvenientes en esta etapa, me muestra un error que no se como solucionar:

Traceback (most recent call last): File "/tmp/zeppelin_pyspark-251077969990790142.py", line 364, in <module> code = compile('\n'.join(stmts), '<stdin>', 'exec', ast.PyCF_ONLY_AST, 1) File "<stdin>", line 11 print "Count: ", persons.count() ^ SyntaxError: invalid syntax

Amylkar Urrea Montoya

student•

Puede ser que tienes python 3 y debas meter lo que esta en print dentro de paréntesis.

Ivan Acosta

student•

Muy buen ejemplo.!

Configuración de Developer Endpoint en AWS Glue

Bienvenida e introducción al curso

Big Data en la Nube: Análisis, Transformación y Seguridad

Big Data en Cloud desde origen a visualización

Por qué big data en cloud es más eficiente

Extracción vs ingesta en proyectos big data

Comparativa de AWS y GCP para proyectos BigData

Arquitecturas

Arquitectura Lambda: 3 capas para datos en tiempo real

Arquitectura capa: el tiempo real como ventaja

Cómo funciona la arquitectura batch

Extracción de información

Cómo mover datos a cloud con SDK y CLI

Python y boto3 para listar buckets S3

Boto3: inicializar clients de AWS en Python

API Gateway como puerta de big data

Storage Gateway: puerta entre on-premise y S3

AWS Kinesis: streaming masivo de datos

Cómo crear Kinesis Data Stream en AWS

Despliegue automatizado de Kinesis con CloudFormation

Cómo Kinesis Firehose entrega datos en tiempo real

Configuración de Kinesis Firehose en AWS

Configuración Básica de Amazon Kinesis Firehose en AWS

MSK vs Kinesis: cuál elegir en AWS

Creación de clúster AWS MSK desde la consola

Transformación de Información

Cómo AWS Glue transforma datos en la nube

Instalación de Apache Zeppelin paso a paso

Configurar developer endpoint de AWS Glue con Zeppelin

Conexión de Apache Zeppelin con AWS

Configurar AWS Glue Crawler para poblar catálogo

Configuración de Developer Endpoint en AWS Glue

Cómo configurar AWS Glue ETL desde S3 a Parquet

Qué es EMR y cuándo usarlo

Crear tu primer cluster de AWS EMR

Conectar Apache Zeppelin a EMR

EMR automatizado con CloudFormation

AWS Lambda para proyectos de big data

Lambdas en big data: real time y batch

Configuración de AWS Lambda para Big Data

Carga de Información

Cómo Athena consulta datos en S3 con SQL

Cómo funciona AWS Athena con S3

Redshift vs Athena: cuándo usar cada uno

Configuración de cluster Redshift en AWS

AWS Lake Formation automatiza tu data lake

Consumo de información

Cómo dimensionar shards de Elasticsearch en AWS

Cómo crear un clúster Elasticsearch en AWS

Cómo funciona Kibana con Elasticsearch

QuickSight: el BI en cloud de AWS

Configuración completa de QuickSight en AWS

Seguridad, Orquestación y Automatización

5 reglas de seguridad para Big Data en AWS

Cómo AWS Macie protege datos en S3

Configuración de AWS Macie en 5 pasos

Apache Airflow vs Step Functions para ETL

Despliegue de Apache Airflow en GCP

Arquitecturas batch y streaming en AWS

Clase pública

Las cinco B de big data explicadas