Cómo AWS Glue transforma datos en la nube

Clase 22 de 52 • Curso de Big Data en AWS

Resumen

Impulsa la transformación de datos en la nube con autoridad: con AWS Glue puedes extraer, transformar y cargar información de forma completamente administrada, pagando solo por el tiempo de ejecución y la capacidad usada. Aquí se explica cómo convertir datos crudos en tablas útiles, habilitar consultas con Athena y alimentar analítica con Amazon Redshift y EMR.

¿Qué es AWS Glue y por qué usarlo para ETL en la nube?

AWS Glue es un servicio de ETL (extracción, transformación y carga) que abstrae el clúster y el sistema operativo. Tú defines las tareas, las envías y el servicio ejecuta la “magia” de transformar, limpiar y convertir datos para otros sistemas o plataformas de visualización.

Servicio completamente administrado. Sin gestionar clúster ni SO.
Lenguajes soportados. Python, Spark y Scala para construir la lógica de transformación.
Pago por uso. Facturación por tiempo de ejecución y por unidades de capacidad.
Catálogo de metadatos integrado. El Glue Catalog alimenta servicios como Athena para consultas SQL.

¿Con qué fuentes y servicios se integra?

Puedes conectar AWS Glue a bases de datos relacionales, no relacionales y a almacenamiento por objetos como S3. Tras la transformación, los datos pueden escribirse en esos mismos destinos y habilitar consumo desde:

Athena usando el Glue Catalog para consultas SQL.
Amazon Redshift para análisis de datos a escala.
EMR para cadenas de ETL más amplias u otros procesos.

¿Cómo crear cadenas y orquestar ETL?

Se pueden encadenar trabajos: al finalizar una transformación, iniciar otra y así formar una cadena de ETL. Esto permite construir vistas agregadas paso a paso y alimentar múltiples consumidores con datos ya organizados.

¿Cómo funcionan el Glue Catalog, los crawlers y los classifiers?

El Glue Catalog es un almacén de metadatos que describe dónde está la información y cómo leerla. Cada cuenta de AWS tiene un Glue Catalog por defecto, y otros servicios lo consultan para localizar y acceder a datos crudos o transformados.

Crawlers. Escanean la fuente, identifican esquemas y crean entradas en el catálogo.
Classifiers. Ayudan a interpretar formatos complejos; por ejemplo, proporcionar un JSON de ejemplo para clasificar estructuras anidadas.
Beneficio clave. Un solo catálogo centralizado para ubicar datasets y facilitar consultas y visualizaciones.

¿Qué significan las DPU y cómo optimizar costos y rendimiento?

Las DPU (unidades de procesamiento de datos) definen la capacidad asignada a un job. Ajustarlas impacta en tiempos y costos.

Definición de capacidad. 1 DPU = 4 vCPU + 16 GB de RAM.
Mínimo para pruebas. En developer endpoint, el mínimo por ejecución es 2 DPU.
Escalado por tamaño del job. Si un job tarda demasiado, aumenta las DPU.
Impacto en facturación. Más DPU = más costo, pues la factura depende del tiempo de ejecución y de la capacidad usada.

¿Qué caso práctico ilustra su uso?

Imagina datos crudos de una aplicación financiera: pagos, retiros en cajero y compras. Con AWS Glue puedes organizar tablas por proceso (pagos, retiros, transferencias) y luego crear un ETL adicional que agregue esas tres en una tabla con la visión completa del usuario.

Organización. Tablas separadas por tipo de transacción.
Agregación. Un ETL que consolida todo en una vista unificada del usuario.
Orquestación. Varios ETL encadenados para transformar, agregar y publicar datos listos para decisiones.

¿Tienes un escenario de transformación de datos que quieras potenciar con AWS Glue? Cuéntalo en los comentarios y comparte qué fuentes y destinos estás integrando.

Usuario anónimo

user•

Deberian tener una sociedad con aws educate para brindar a cada estudiante $200 en creditos de AWS como en otras plataformas de formación

Usuario anónimo

user•

Comparto tu idea, porque la mayoria de la practicas deben tener tarjeta de crédito, y no existe ningún servicio gratis como lo mencionan o no explicaron adecuadamente sobre los "gratis"

john ct

student•

por eso se debe desintalar todo lo que uno configure dentro de aws console y evitar cobros

Usuario anónimo

user•

Algunas características de Glue:

Servicio totalmente administrado para implementar ETL (Extract, Transform, Load). Provee un contexto para trabajar basados en Python, Spark y Scala. Se encarga de crear catálogos de metadatos para que otros servicios puedan consultar la información. Utiliza unidades de procesamiento llamadas DPU equivalente a 4 vCPU y 16GB RAM. Los Crawler van a escanear e identificar la información para ponerla en el catálogo. Los Classifier van a clasificar la data para ponerla en el catálogo.

Francy Pineda

student•

La nueva funcionalidad de Glue para medir calidad de datos "Data Quality" es una buena opcion cuando no se puede pagar herramientas costosas.

Emmanuel Sosa Reyes

student•

En caso de que se necesite conectarse a un CRM para extraer información de los clientes para un proyecto con AWS Personalize, ¿se debería usar Glue para esto? ¿Cómo conecto Glue al CRM para extraer los datos? ¿O qué herramienta sería la adecuada? No se desea hacer streaming de los datos en tiempo real.

Julio Cesar Reyes Velasco

student•

si en tu crm tienes archivos csv, me imagino q seria crm -> aws connector -> s3 -> glue

El conector seria el propuesto o cualquiera q sea compatible entre tu crm y aws s3

Israel Fuentes

student•

Pregunta rapida, cuando creo una instancia en EC2 e intento algunos comandos de aws glue, todos me salen con error "Connect Timeout Error". Step Functions, SNS funcionan sin problemas solamente me sucede con Gluie...¿sabran porque?

Mario Alexander Vargas Celis

student•

AWS Glue: Servicio ETL sin Servidor en AWS

AWS Glue es un servicio serverless de AWS que facilita la extracción, transformación y carga (ETL) de datos en entornos de Big Data. Permite integrar fuentes como S3, RDS, Redshift, DynamoDB, y más, sin necesidad de administrar infraestructura.

🚀 Componentes Principales de AWS Glue

1️⃣ Catálogo de Datos (Glue Data Catalog)

Un repositorio centralizado donde se almacenan metadatos sobre fuentes de datos. 📌 Compatible con Athena, Redshift, EMR y otros servicios de AWS.

2️⃣ Crawlers (Rastreador de Datos)

Detectan automáticamente esquemas y estructura de datos almacenados en S3, RDS, DynamoDB, etc.

🔹 Ejemplo de ejecución en AWS CLI

aws glue start-crawler --name MiCrawler

3️⃣ Jobs de ETL

Permiten escribir scripts en Python o Scala para transformar y mover datos.

🔹 Ejemplo de un Job en PySpark

import sys from awsglue.transforms import * from awsglue.utils import getResolvedOptions from awsglue.context import GlueContext from pyspark.context import SparkContext

sc = SparkContext() glueContext = GlueContext(sc)

datasource = glueContext.create_dynamic_frame.from_catalog( database="mi_base", table_name="mi_tabla" )

transformed_df = datasource.toDF().filter("columna1 IS NOT NULL")

glueContext.write_dynamic_frame.from_options( frame=transformed_df, connection_type="s3", connection_options={"path": "s3://mi-bucket/output/"}, format="parquet" )

4️⃣ Triggers y Workflows

Permiten automatizar la ejecución de Glue Jobs en base a eventos o programación.

🔥 Casos de Uso

✅ Data Lakes → Integración con S3, Redshift, Athena. ✅ ETL con Big Data → Transformación de datos en Spark sin infraestructura. ✅ Migración de Bases de Datos → Mover datos entre DynamoDB, RDS, S3, Redshift. ✅ Procesamiento en Streaming → Con Kinesis Data Streams.

📌 Integración con otros Servicios de AWS

🔹 Amazon S3 → Almacena datasets y resultados de ETL. 🔹 AWS Athena → Permite consultas SQL sobre datos procesados. 🔹 AWS Redshift → Carga datos transformados en un DWH. 🔹 Amazon RDS/DynamoDB → Extrae y carga datos desde bases de datos relacionales o NoSQL.

Jose Suarez

student•

Glue lo vamos a usar cuando queremos hacer transformación de la información. Glue organiza la información cruda en tablas.

Usuario anónimo

user•

Dentro de este módulo vamos a ver las herramientas que proporciona la nube de AWS para poder transformar nuestra data.

Mabel Soto

student•

Hola, es posible dejar disponible un mismo Glue Catalog para distintas cuentas de AWS ?

Usuario anónimo

user•

Servicio administrado, Servicio de ETL. Glue Catalogo: Un almacén de metadatos Crawler: Escanear, identificar y poner la data en el catalogo. Classifier: Especificar un jeson para identificar la data y lo puede hacer basándose en un ejemplo.

Usuario anónimo

user•

gracias

john ct

student•

AWS Glue is a fully managed ETL (extract, transform, and load) service that makes it simple and cost-effective to categorize your data, clean it, enrich it, and move it reliably between various data stores. AWS Glue consists of a central data repository known as the AWS Glue Data Catalog, an ETL engine that automatically generates Python code, and a flexible scheduler that handles dependency resolution, job monitoring, and retries. AWS Glue is serverless, so there's no infrastructure to set up or manage. Use the AWS Glue console to discover your data, transform it, and make it available for search and querying. You can also use the AWS Glue API operations to interface with AWS Glue

john ct

student•

AWS Glue is designed to work with semi-structured data. It introduces a component called a dynamic frame, which you can use in your ETL scripts. A dynamic frame is similar to an Apache Spark dataframe, which is a data abstraction used to organize data into rows and columns, except that each record is self-describing so no schema is required initially. With dynamic frames, you get schema flexibility and a set of advanced transformations specifically designed for dynamic frames. You can convert between dynamic frames and Spark dataframes, so that you can take advantage of both AWS Glue and Spark transformations to do the kinds of analysis that you want.

john ct

student•

Cuando usar Glue? AWS Glue simplifies many tasks when you are building a data warehouse or data lake:

Discovers and catalogs metadata about your data stores into a central catalog. You can process semi-structured data, such as clickstream or process logs.

Populates the AWS Glue Data Catalog with table definitions from scheduled crawler programs. Crawlers call classifier logic to infer the schema, format, and data types of your data. This metadata is stored as tables in the AWS Glue Data Catalog and used in the authoring process of your ETL jobs.

Generates ETL scripts to transform, flatten, and enrich your data from source to target.

Detects schema changes and adapts based on your preferences.

Triggers your ETL jobs based on a schedule or event. You can initiate jobs automatically to move your data into your data warehouse or data lake. Triggers can be used to create a dependency flow between jobs.

Gathers runtime metrics to monitor the activities of your data warehouse or data lake.

Handles errors and retries automatically.

Scales resources, as needed, to run your jobs.

john ct

student•

You can use AWS Glue when you run serverless queries against your Amazon S3 data lake.

john ct

student•

You can create event-driven ETL pipelines with AWS Glue. You can run your ETL jobs as soon as new data becomes available in Amazon S3 by invoking your AWS Glue ETL jobs from an AWS Lambda function. You can also register this new dataset in the AWS Glue Data Catalog as part of your ETL jobs.

Ivan Acosta

student•

Un tool más dentro del abanico de opciones de servicios administrados que tiene AWS.! Excelente.

Arturo Munoz Cantor

student•

Servicios administrados de AWS.

Cómo AWS Glue transforma datos en la nube

Bienvenida e introducción al curso

Big Data en la Nube: Análisis, Transformación y Seguridad

Big Data en Cloud desde origen a visualización

Por qué big data en cloud es más eficiente

Extracción vs ingesta en proyectos big data

Comparativa de AWS y GCP para proyectos BigData

Arquitecturas

Arquitectura Lambda: 3 capas para datos en tiempo real

Arquitectura capa: el tiempo real como ventaja

Cómo funciona la arquitectura batch

Extracción de información

Cómo mover datos a cloud con SDK y CLI

Python y boto3 para listar buckets S3

Boto3: inicializar clients de AWS en Python

API Gateway como puerta de big data

Storage Gateway: puerta entre on-premise y S3

AWS Kinesis: streaming masivo de datos

Cómo crear Kinesis Data Stream en AWS

Despliegue automatizado de Kinesis con CloudFormation

Cómo Kinesis Firehose entrega datos en tiempo real

Configuración de Kinesis Firehose en AWS

Configuración Básica de Amazon Kinesis Firehose en AWS

MSK vs Kinesis: cuál elegir en AWS

Creación de clúster AWS MSK desde la consola

Transformación de Información

Cómo AWS Glue transforma datos en la nube

Instalación de Apache Zeppelin paso a paso

Configurar developer endpoint de AWS Glue con Zeppelin

Conexión de Apache Zeppelin con AWS

Configurar AWS Glue Crawler para poblar catálogo

Configuración de Developer Endpoint en AWS Glue

Cómo configurar AWS Glue ETL desde S3 a Parquet

Qué es EMR y cuándo usarlo

Crear tu primer cluster de AWS EMR

Conectar Apache Zeppelin a EMR

EMR automatizado con CloudFormation

AWS Lambda para proyectos de big data

Lambdas en big data: real time y batch

Configuración de AWS Lambda para Big Data

Carga de Información

Cómo Athena consulta datos en S3 con SQL

Cómo funciona AWS Athena con S3

Redshift vs Athena: cuándo usar cada uno

Configuración de cluster Redshift en AWS

AWS Lake Formation automatiza tu data lake

Consumo de información

Cómo dimensionar shards de Elasticsearch en AWS

Cómo crear un clúster Elasticsearch en AWS

Cómo funciona Kibana con Elasticsearch

QuickSight: el BI en cloud de AWS

Configuración completa de QuickSight en AWS

Seguridad, Orquestación y Automatización

5 reglas de seguridad para Big Data en AWS

Cómo AWS Macie protege datos en S3

Configuración de AWS Macie en 5 pasos

Apache Airflow vs Step Functions para ETL

Despliegue de Apache Airflow en GCP

Arquitecturas batch y streaming en AWS

Clase pública

Las cinco B de big data explicadas