Configurar AWS Glue Crawler para poblar catálogo

Curso de Big Data en AWS

Contenido del curso

Bienvenida e introducción al curso

Arquitecturas

Extracción de información

Transformación de Información

Carga de Información

Consumo de información

Seguridad, Orquestación y Automatización

Clase pública

52
Las cinco B de big data explicadas
01:44 min

Tomar examen

Configurar AWS Glue Crawler para poblar catálogo

Resumen

Aprende, paso a paso, a preparar la capa de datos para tu primer ETL en AWS con un flujo claro: crear buckets S3, ejecutar un Crawler en Glue para poblar el Glue Catalog y validar con Athena. Tras configurar Apache Zeppelin y el developer endpoint, aquí se consolida la base para transformar datos crudos en estructuras consultables.

¿Cómo preparar el entorno en AWS para el ETL?

Primero se entra a la consola de AWS y se abre el servicio de Glue. Se trabaja con un repositorio de GitHub provisto para el laboratorio y con dos buckets S3: uno de origen con datos crudos y otro de destino para la data transformada. Esta separación permite mantener control del linaje y facilitar validaciones.

¿Qué incluye el repositorio de GitHub?

Archivo principal: ETL.py para la fase de transformación posterior.
Carpeta JSON: varios archivos .json grandes usados como data de ejemplo.

¿Cómo organizar el almacenamiento en S3?

Crear el bucket origen: origen-platzi.
Crear el bucket destino: target-platzi.
Cargar los .json del repositorio al bucket origen.

¿Qué es el Glue Crawler y cómo llena el Glue Catalog?

Un Crawler recorre el bucket de origen, detecta archivos y su estructura, y registra metadatos en el Glue Catalog. El Glue Catalog es un catálogo de metadatos persistente: guarda ubicación en S3, esquemas y tablas para que otros servicios consulten la data sin moverla.

¿Cómo configurar el Crawler?

Ir a Glue, sección Crawlers, y crear uno nuevo: Platzi Crawler.
Opciones clave: descripción opcional; sin configuración de security inicial; classifiers opcionales para esquemas particulares; sin agrupar múltiples S3.
Data store: S3 con un path al bucket origen seleccionado.
Exclusiones: sin patrones de exclusión.
Múltiples orígenes: no se agregan otros por ahora.
Rol de IAM: seleccionar uno existente que termina en “Platzi” o crearlo.
Programación: ejecución on demand para correr manualmente.
Base de datos en el catálogo: crear PlatziDB.
Prefijo: ninguno; opciones avanzadas por defecto.
Finalizar y ejecutar: el status inicia como Starting y continúa hasta completar.

¿Qué resultados esperar al ejecutar?

Recorre el bucket origen e infiere esquemas de los archivos .json.
Crea tablas en el Glue Catalog dentro de la database PlatziDB.
En este ejercicio reporta: creó seis tablas.
Cada archivo JSON relevante se refleja como una tabla consultable.

¿Cómo consultar la data con Athena y planear la transformación?

El Glue Catalog habilita a servicios como Athena para consultar datos en S3. Al abrir Athena, se selecciona PlatziDB y se observan las tablas creadas desde la data cruda. Como están sin ordenar ni normalizar, la siguiente fase consiste en transformarlas y escribir resultados en el bucket destino.

¿Qué habilidades y conceptos quedan claros?

Identificar data origen en S3 y separarla de la data objetivo.
“Crawlear la data” con un Crawler para poblar metadatos.
Entender el rol del Glue Catalog como punto central de esquemas.
Configurar un rol de IAM adecuado para Glue.
Programar ejecuciones on demand según necesidades.
Usar Athena para consultas sobre S3 a través del catálogo.
Preparar la base para la transformación con ETL.py y reexponer resultados en el catálogo.

¿Quieres que profundicemos en la transformación y mejores prácticas de esquemas en Glue y Athena? Deja tus dudas o comentarios y seguimos construyendo el pipeline juntos.

Mario Alexander Vargas Celis

Estudiante

Para crear nuestro primer ETL (Extract, Transform, Load) con Crawling en AWS Glue, sigue estos pasos:

1. Configurar AWS Glue y Crear un Crawler

Paso 1: Crear una Base de Datos en Glue

Inicia sesión en la consola de AWS.
Ve a AWS Glue > Catálogo de Datos > Bases de datos.
Haz clic en Agregar Base de Datos.
Ingresa un nombre, por ejemplo: mi_etl_db, y guarda los cambios.

Paso 2: Crear un Crawler

Ve a AWS Glue > Crawlers.
Haz clic en Crear Crawler.
Ingresa un nombre, por ejemplo: crawler_etl.
En Orígenes de datos, selecciona:
- S3 si tienes archivos en un bucket.
- JDBC si vas a extraer datos desde una base de datos relacional.
Agrega la ruta del bucket de S3 o la conexión JDBC.
En Rol de IAM, selecciona un rol con permisos de AWS Glue y S3.
En Destino, elige la base de datos mi_etl_db.
Configura la frecuencia de ejecución (manual o automática).
Guarda y ejecuta el Crawler.

2. Transformación de Datos con AWS Glue ETL

Paso 3: Crear un Trabajo ETL

Ve a AWS Glue > Trabajos.
Haz clic en Agregar trabajo.
En Nombre, coloca etl_transformacion.
En Tipo, selecciona ETL con script de Python o Spark.
En Rol de IAM, selecciona el mismo rol del Crawler.
En Origen de datos, elige la tabla creada por el Crawler.
En Destino, selecciona:
- S3 (para almacenar datos transformados).
- JDBC (si deseas cargar en una base de datos relacional).
Guarda los cambios y edita el script de transformación.

3. Código de Transformación en PySpark

Ejemplo de transformación con PySpark:

import sys from awsglue.transforms import * from awsglue.utils import getResolvedOptions from awsglue.context import GlueContext from pyspark.context import SparkContext from awsglue.dynamicframe import DynamicFrame

# Crear contexto de Glue sc = SparkContext() glueContext = GlueContext(sc) spark = glueContext.spark_session

# Cargar datos desde Glue Data Catalog datasource = glueContext.create_dynamic_frame.from_catalog(database="mi_etl_db", table_name="mi_tabla")

# Transformación: Filtrar datos nulos transformed_data = DropNullFields.apply(frame=datasource)

# Guardar en S3 en formato Parquet glueContext.write_dynamic_frame.from_options( frame=transformed_data, connection_type="s3", connection_options={"path": "s3://mi-bucket-transformado/"}, format="parquet" )

4. Cargar los Datos en un Destino

Después de ejecutar el trabajo ETL, los datos transformados estarán en el destino configurado (S3, RDS, Redshift, etc.).

5. Ejecutar y Monitorear el ETL

Ve a AWS Glue > Trabajos.
Selecciona etl_transformacion y haz clic en Ejecutar.
Monitorea el estado en Historial de Ejecución.

🎯 ¡Listo! Has creado tu primer ETL con AWS Glue y Crawling. 🚀

Raul Alfonso Rodriguez Lopez

Milton Andrés Sanabria

john ct

Usuario anónimo

User

Mario Alejandro Barrera Gonzalez

Juan camilo truillo galvis

Jose Suarez

Alexander Bolaño Cervantes

Carlos Andrés Zambrano Barrera

Profesor

oscar ramirez anaya

Jhon Alexander Bravo

Darvin Orozco

Santiago Ortiz Ceballos

Oscar Velez

Eduardo Sánchez Villegas

Configurar AWS Glue Crawler para poblar catálogo

Bienvenida e introducción al curso

Big Data en la Nube: Análisis, Transformación y Seguridad

Big Data en Cloud desde origen a visualización

Por qué big data en cloud es más eficiente

Extracción vs ingesta en proyectos big data

Comparativa de AWS y GCP para proyectos BigData

Arquitecturas

Arquitectura Lambda: 3 capas para datos en tiempo real

Arquitectura capa: el tiempo real como ventaja

Cómo funciona la arquitectura batch

Extracción de información

Cómo mover datos a cloud con SDK y CLI

Python y boto3 para listar buckets S3

Boto3: inicializar clients de AWS en Python

API Gateway como puerta de big data

Storage Gateway: puerta entre on-premise y S3

AWS Kinesis: streaming masivo de datos

Cómo crear Kinesis Data Stream en AWS

Despliegue automatizado de Kinesis con CloudFormation

Cómo Kinesis Firehose entrega datos en tiempo real

Configuración de Kinesis Firehose en AWS

Configuración Básica de Amazon Kinesis Firehose en AWS

MSK vs Kinesis: cuál elegir en AWS

Creación de clúster AWS MSK desde la consola

Transformación de Información

Cómo AWS Glue transforma datos en la nube

Instalación de Apache Zeppelin paso a paso

Configurar developer endpoint de AWS Glue con Zeppelin

Conexión de Apache Zeppelin con AWS