Cómo AWS Glue transforma datos en la nube
Clase 22 de 52 • Curso de Big Data en AWS
Contenido del curso
Arquitecturas
Extracción de información
- 9

Cómo mover datos a cloud con SDK y CLI
02:21 min - 10

Python y boto3 para listar buckets S3
10:16 min - 11

Boto3: inicializar clients de AWS en Python
03:56 min - 12

API Gateway como puerta de big data
03:40 min - 13

Storage Gateway: puerta entre on-premise y S3
03:13 min - 14

AWS Kinesis: streaming masivo de datos
05:53 min - 15

Cómo crear Kinesis Data Stream en AWS
06:50 min - 16

Despliegue automatizado de Kinesis con CloudFormation
10:42 min - 17

Cómo Kinesis Firehose entrega datos en tiempo real
03:27 min - 18

Configuración de Kinesis Firehose en AWS
05:45 min - 19
Configuración Básica de Amazon Kinesis Firehose en AWS
02:53 min - 20

MSK vs Kinesis: cuál elegir en AWS
03:42 min - 21

Creación de clúster AWS MSK desde la consola
07:21 min
Transformación de Información
- 22

Cómo AWS Glue transforma datos en la nube
Viendo ahora - 23

Instalación de Apache Zeppelin paso a paso
04:49 min - 24

Configurar developer endpoint de AWS Glue con Zeppelin
05:38 min - 25

Conexión de Apache Zeppelin con AWS
08:29 min - 26

Configurar AWS Glue Crawler para poblar catálogo
08:15 min - 27

Configuración de Developer Endpoint en AWS Glue
08:00 min - 28

Cómo configurar AWS Glue ETL desde S3 a Parquet
10:23 min - 29

Qué es EMR y cuándo usarlo
05:30 min - 30

Crear tu primer cluster de AWS EMR
09:01 min - 31

Conectar Apache Zeppelin a EMR
03:18 min - 32

EMR automatizado con CloudFormation
06:32 min - 33

AWS Lambda para proyectos de big data
07:02 min - 34

Lambdas en big data: real time y batch
04:54 min - 35

Configuración de AWS Lambda para Big Data
07:16 min
Carga de Información
Consumo de información
Seguridad, Orquestación y Automatización
Clase pública
Impulsa la transformación de datos en la nube con autoridad: con AWS Glue puedes extraer, transformar y cargar información de forma completamente administrada, pagando solo por el tiempo de ejecución y la capacidad usada. Aquí se explica cómo convertir datos crudos en tablas útiles, habilitar consultas con Athena y alimentar analítica con Amazon Redshift y EMR.
¿Qué es AWS Glue y por qué usarlo para ETL en la nube?
AWS Glue es un servicio de ETL (extracción, transformación y carga) que abstrae el clúster y el sistema operativo. Tú defines las tareas, las envías y el servicio ejecuta la “magia” de transformar, limpiar y convertir datos para otros sistemas o plataformas de visualización.
- Servicio completamente administrado. Sin gestionar clúster ni SO.
- Lenguajes soportados. Python, Spark y Scala para construir la lógica de transformación.
- Pago por uso. Facturación por tiempo de ejecución y por unidades de capacidad.
- Catálogo de metadatos integrado. El Glue Catalog alimenta servicios como Athena para consultas SQL.
¿Con qué fuentes y servicios se integra?
Puedes conectar AWS Glue a bases de datos relacionales, no relacionales y a almacenamiento por objetos como S3. Tras la transformación, los datos pueden escribirse en esos mismos destinos y habilitar consumo desde:
- Athena usando el Glue Catalog para consultas SQL.
- Amazon Redshift para análisis de datos a escala.
- EMR para cadenas de ETL más amplias u otros procesos.
¿Cómo crear cadenas y orquestar ETL?
Se pueden encadenar trabajos: al finalizar una transformación, iniciar otra y así formar una cadena de ETL. Esto permite construir vistas agregadas paso a paso y alimentar múltiples consumidores con datos ya organizados.
¿Cómo funcionan el Glue Catalog, los crawlers y los classifiers?
El Glue Catalog es un almacén de metadatos que describe dónde está la información y cómo leerla. Cada cuenta de AWS tiene un Glue Catalog por defecto, y otros servicios lo consultan para localizar y acceder a datos crudos o transformados.
- Crawlers. Escanean la fuente, identifican esquemas y crean entradas en el catálogo.
- Classifiers. Ayudan a interpretar formatos complejos; por ejemplo, proporcionar un JSON de ejemplo para clasificar estructuras anidadas.
- Beneficio clave. Un solo catálogo centralizado para ubicar datasets y facilitar consultas y visualizaciones.
¿Qué significan las DPU y cómo optimizar costos y rendimiento?
Las DPU (unidades de procesamiento de datos) definen la capacidad asignada a un job. Ajustarlas impacta en tiempos y costos.
- Definición de capacidad. 1 DPU = 4 vCPU + 16 GB de RAM.
- Mínimo para pruebas. En developer endpoint, el mínimo por ejecución es 2 DPU.
- Escalado por tamaño del job. Si un job tarda demasiado, aumenta las DPU.
- Impacto en facturación. Más DPU = más costo, pues la factura depende del tiempo de ejecución y de la capacidad usada.
¿Qué caso práctico ilustra su uso?
Imagina datos crudos de una aplicación financiera: pagos, retiros en cajero y compras. Con AWS Glue puedes organizar tablas por proceso (pagos, retiros, transferencias) y luego crear un ETL adicional que agregue esas tres en una tabla con la visión completa del usuario.
- Organización. Tablas separadas por tipo de transacción.
- Agregación. Un ETL que consolida todo en una vista unificada del usuario.
- Orquestación. Varios ETL encadenados para transformar, agregar y publicar datos listos para decisiones.
¿Tienes un escenario de transformación de datos que quieras potenciar con AWS Glue? Cuéntalo en los comentarios y comparte qué fuentes y destinos estás integrando.