Configurar AWS Glue Crawler para poblar catálogo

Clase 26 de 52 • Curso de Big Data en AWS

Resumen

Aprende, paso a paso, a preparar la capa de datos para tu primer ETL en AWS con un flujo claro: crear buckets S3, ejecutar un Crawler en Glue para poblar el Glue Catalog y validar con Athena. Tras configurar Apache Zeppelin y el developer endpoint, aquí se consolida la base para transformar datos crudos en estructuras consultables.

¿Cómo preparar el entorno en AWS para el ETL?

Primero se entra a la consola de AWS y se abre el servicio de Glue. Se trabaja con un repositorio de GitHub provisto para el laboratorio y con dos buckets S3: uno de origen con datos crudos y otro de destino para la data transformada. Esta separación permite mantener control del linaje y facilitar validaciones.

¿Qué incluye el repositorio de GitHub?

Archivo principal: ETL.py para la fase de transformación posterior.
Carpeta JSON: varios archivos .json grandes usados como data de ejemplo.

¿Cómo organizar el almacenamiento en S3?

Crear el bucket origen: origen-platzi.
Crear el bucket destino: target-platzi.
Cargar los .json del repositorio al bucket origen.

¿Qué es el Glue Crawler y cómo llena el Glue Catalog?

Un Crawler recorre el bucket de origen, detecta archivos y su estructura, y registra metadatos en el Glue Catalog. El Glue Catalog es un catálogo de metadatos persistente: guarda ubicación en S3, esquemas y tablas para que otros servicios consulten la data sin moverla.

¿Cómo configurar el Crawler?

Ir a Glue, sección Crawlers, y crear uno nuevo: Platzi Crawler.
Opciones clave: descripción opcional; sin configuración de security inicial; classifiers opcionales para esquemas particulares; sin agrupar múltiples S3.
Data store: S3 con un path al bucket origen seleccionado.
Exclusiones: sin patrones de exclusión.
Múltiples orígenes: no se agregan otros por ahora.
Rol de IAM: seleccionar uno existente que termina en “Platzi” o crearlo.
Programación: ejecución on demand para correr manualmente.
Base de datos en el catálogo: crear PlatziDB.
Prefijo: ninguno; opciones avanzadas por defecto.
Finalizar y ejecutar: el status inicia como Starting y continúa hasta completar.

¿Qué resultados esperar al ejecutar?

Recorre el bucket origen e infiere esquemas de los archivos .json.
Crea tablas en el Glue Catalog dentro de la database PlatziDB.
En este ejercicio reporta: creó seis tablas.
Cada archivo JSON relevante se refleja como una tabla consultable.

¿Cómo consultar la data con Athena y planear la transformación?

El Glue Catalog habilita a servicios como Athena para consultar datos en S3. Al abrir Athena, se selecciona PlatziDB y se observan las tablas creadas desde la data cruda. Como están sin ordenar ni normalizar, la siguiente fase consiste en transformarlas y escribir resultados en el bucket destino.

¿Qué habilidades y conceptos quedan claros?

Identificar data origen en S3 y separarla de la data objetivo.
“Crawlear la data” con un Crawler para poblar metadatos.
Entender el rol del Glue Catalog como punto central de esquemas.
Configurar un rol de IAM adecuado para Glue.
Programar ejecuciones on demand según necesidades.
Usar Athena para consultas sobre S3 a través del catálogo.
Preparar la base para la transformación con ETL.py y reexponer resultados en el catálogo.

¿Quieres que profundicemos en la transformación y mejores prácticas de esquemas en Glue y Athena? Deja tus dudas o comentarios y seguimos construyendo el pipeline juntos.

Comentarios

Raul Alfonso Rodriguez Lopez

student•

buenas… si comienzo a usar este servicio (Zeppelin), como serian los cobros al usarlo con AWS ??

Milton Andrés Sanabria

student•

¡Ten cuidado al usar los endpoints estos te generan un cobro considerable! usan minimo dos DPU para poder correr.

john ct

student•

recuerden desinstalar todo lo configurado en este demo s3 y demas services AWS no perdona el charging of services y se los carga a su Tarjeta de credito.

john ct

student•

services usados S3, Glue Athena

used files 6 uploaded them in S3 and connected with gluecatlogue creating a crawler where a Db was created with 6 tables

Usuario anónimo

user•

Por el momento hallo mucha similitud con los servicios o herramientas ETL de bases de datos, la principal diferencia es la nube. La ventaja de Amazon sin duda es el manejo de alta concurrencia, volumen de datos, seguridad y casos de uso. Pero viendo todo desde una perspectiva general, no importa las herramientas de datos, siempre manejaremos ETL, almacenamiento, lenguajes de consulta y todo desemboca en herramientas de visualización con el fin de entregar datos para análisis: descriptivo, prescriptivo y predictivo (este ultimo se pueden aplicar técnicas de ML). Muy interesante, pero hay que identificar muy bien las necesidades para decidir si realmente es necesario usar estos servicios.

Mario Alejandro Barrera Gonzalez

student•

Los enlaces de los archivos de clase ya no sirven. Seria conveniente que actualicen los cursos, hay unos que se grabaron desde 2020 y hay bastantes cambios y nuevas funcionalidades.

Juan camilo truillo galvis

student•

Muy feliz con este curso,aunque le falta un poco de actualizacion, ya que la consola de AWS ha cambiado, pero la informacion dada en este curso y los anteriores vale oro

Jose Suarez

student•

El Crawling es una tarea que va a ir a nuestro bucket de S3, identifica la data y lo coloca en el Glue catalog

Alexander Bolaño Cervantes

student•

Estuve intentando añadir varios Crawler con diferentes tipos de datos JSON , CSV incluyendo el del ejercicio que aquí mencionan , pero he tenido problemas por que mi rastreador no me detecta los datos CSV y por ende no me crea las tablas, a su vez el ejercicio de este capitulo ,me genera las tablas y al momento de ir al servicio de Athena para ver una vista de previa de ellas aparecen vacías , la pregunta es la siguiente: Que tan importante es configurar los clasificadores del esquema de datos antes de agregar el rastreador para leer todo tipo de data , por que la ventaja que debe ofrecer el servicio es precisamente inferir la estructura y el tipo de datos ???????

Carlos Andrés Zambrano Barrera

teacher•

Si te das cuenta en los ejemplos no usamos classifiers... mira los logs del crawler, puede que haya un problema de permisos para que consulte la data en s3.

oscar ramirez anaya

student•

Me podrias compartir un link con la documentación de creación crawling usando la conexion jdbc por favor

Carlos Andrés Zambrano Barrera

teacher•

Mira... https://docs.aws.amazon.com/es_es/glue/latest/dg/add-crawler.html

El crawler identifica una estructura de datos en S3, la conexión la haces es a athena no al crawler.

Athena y JDBC --> https://docs.aws.amazon.com/es_es/athena/latest/ug/connect-with-jdbc.html

Jhon Alexander Bravo

student•

cuando ejecuto el Crawler me muestra el siguiente mensaje de error: User: arn:aws:sts::143731252304:assumed-role/AwsGlueRoleService/AWS-Crawler is not authorized to perform: logs:PutLogEvents on resource: arn:aws:logs:us-east-2:143731252304:log-group:/aws-glue/crawlers:log-stream:crawler_01 (Service: AWSLogs; Status Code: 400; Error Code: AccessDeniedException; Request ID: edce86a2-b0cd-11e9-afea-6d1c479152fe). For more information, see Setting up IAM Permissions in the Developer Guide (http://docs.aws.amazon.com/glue/latest/dg/getting-started-access.html).

Por lo que dice, debe ser mi IAM rol, pero, que permisos debo crear ? que no genere costo?

Darvin Orozco

student•

¿Has seleccionado el rol de IAM que el profesor ha indicado en ésta clase? También te podría funcionar crear un nuevo rol dedicado a ese servicio. Saludos.

Mario Alexander Vargas Celis

student•

Para crear nuestro primer ETL (Extract, Transform, Load) con Crawling en AWS Glue, sigue estos pasos:

1. Configurar AWS Glue y Crear un Crawler

Paso 1: Crear una Base de Datos en Glue

Inicia sesión en la consola de AWS.
Ve a AWS Glue > Catálogo de Datos > Bases de datos.
Haz clic en Agregar Base de Datos.
Ingresa un nombre, por ejemplo: mi_etl_db, y guarda los cambios.

Paso 2: Crear un Crawler

Ve a AWS Glue > Crawlers.
Haz clic en Crear Crawler.
Ingresa un nombre, por ejemplo: crawler_etl.
En Orígenes de datos, selecciona:
- S3 si tienes archivos en un bucket.
- JDBC si vas a extraer datos desde una base de datos relacional.
Agrega la ruta del bucket de S3 o la conexión JDBC.
En Rol de IAM, selecciona un rol con permisos de AWS Glue y S3.
En Destino, elige la base de datos mi_etl_db.
Configura la frecuencia de ejecución (manual o automática).
Guarda y ejecuta el Crawler.

2. Transformación de Datos con AWS Glue ETL

Paso 3: Crear un Trabajo ETL

Ve a AWS Glue > Trabajos.
Haz clic en Agregar trabajo.
En Nombre, coloca etl_transformacion.
En Tipo, selecciona ETL con script de Python o Spark.
En Rol de IAM, selecciona el mismo rol del Crawler.
En Origen de datos, elige la tabla creada por el Crawler.
En Destino, selecciona:
- S3 (para almacenar datos transformados).
- JDBC (si deseas cargar en una base de datos relacional).
Guarda los cambios y edita el script de transformación.

3. Código de Transformación en PySpark

Ejemplo de transformación con PySpark:

import sys from awsglue.transforms import * from awsglue.utils import getResolvedOptions from awsglue.context import GlueContext from pyspark.context import SparkContext from awsglue.dynamicframe import DynamicFrame

# Crear contexto de Glue sc = SparkContext() glueContext = GlueContext(sc) spark = glueContext.spark_session

# Cargar datos desde Glue Data Catalog datasource = glueContext.create_dynamic_frame.from_catalog(database="mi_etl_db", table_name="mi_tabla")

# Transformación: Filtrar datos nulos transformed_data = DropNullFields.apply(frame=datasource)

# Guardar en S3 en formato Parquet glueContext.write_dynamic_frame.from_options( frame=transformed_data, connection_type="s3", connection_options={"path": "s3://mi-bucket-transformado/"}, format="parquet" )

4. Cargar los Datos en un Destino

Después de ejecutar el trabajo ETL, los datos transformados estarán en el destino configurado (S3, RDS, Redshift, etc.).

5. Ejecutar y Monitorear el ETL

Ve a AWS Glue > Trabajos.
Selecciona etl_transformacion y haz clic en Ejecutar.
Monitorea el estado en Historial de Ejecución.

🎯 ¡Listo! Has creado tu primer ETL con AWS Glue y Crawling. 🚀

Santiago Ortiz Ceballos

student•

Upload RAW data to S3 and setup the data catalog

Oscar Velez

student•

Tuve inconvenientes cuando los archivos se encuentran en el mismo directorio, de esta manera se creaban las tablas en Glue catalog pero desde Athena me retornaba cero registros.

Para resolverlo, encontré en internet que es buena practica un folder por archivo, volví a ejecutarlo y funcionó correctamente

Jose Suarez

student•

Cada json de origen lo crea como una tabla

Jose Suarez

student•

El origen de la data en Crawler puede ser, un bucket en S3, una DynamoDB o una conexión tipo JDBC.

Jose Suarez

student•

Classifier para identificar una estructura particular en nuestra data y la pueda leer de forma adecuada.

Jose Suarez

student•

Glue Catalog es un catalogo de metadatos persistente, es decir tiene información de donde esta la data almacenada y que estructura tiene para que otros servicios mediante ese catalogo puedan acceder a esa información.

Usuario anónimo

user•

Gracias

Eduardo Sánchez Villegas

student•

Al pasar un tiempo, han cambiado las políticas de Amazon y ahora dejan el bucket privado o sin una política sin restricción.

No es la mejor solución, pero si en el bucket de S3 agregan la siguiente policy funcionará:

{
    "Version": "2012-10-17",
    "Id": "Policyesv",
    "Statement": [
        {
            "Sid": "Statement1",
            "Effect": "Allow",
            "Principal": "*",
            "Action": "s3:GetObject",
            "Resource": "arn:aws:s3:::origen-platzi-esv/*"
        }
    ]
}

Se darán cuenta si les ocurre el problema cuando ejecutan bajo demanda siguiendo el tutorial de Carlos Zambrano, pero no les actualiza las 6 tablas.

Deben cambiar en la policy en el campo "Resource" lo que este en "origen-platzi-esv" por el nombre del origen que ustedes hayan colocado.

Configurar AWS Glue Crawler para poblar catálogo

Bienvenida e introducción al curso

Big Data en la Nube: Análisis, Transformación y Seguridad

Big Data en Cloud desde origen a visualización

Por qué big data en cloud es más eficiente

Extracción vs ingesta en proyectos big data

Comparativa de AWS y GCP para proyectos BigData

Arquitecturas

Arquitectura Lambda: 3 capas para datos en tiempo real

Arquitectura capa: el tiempo real como ventaja

Cómo funciona la arquitectura batch

Extracción de información

Cómo mover datos a cloud con SDK y CLI

Python y boto3 para listar buckets S3

Boto3: inicializar clients de AWS en Python

API Gateway como puerta de big data

Storage Gateway: puerta entre on-premise y S3

AWS Kinesis: streaming masivo de datos

Cómo crear Kinesis Data Stream en AWS

Despliegue automatizado de Kinesis con CloudFormation

Cómo Kinesis Firehose entrega datos en tiempo real

Configuración de Kinesis Firehose en AWS

Configuración Básica de Amazon Kinesis Firehose en AWS

MSK vs Kinesis: cuál elegir en AWS

Creación de clúster AWS MSK desde la consola

Transformación de Información

Cómo AWS Glue transforma datos en la nube

Instalación de Apache Zeppelin paso a paso

Configurar developer endpoint de AWS Glue con Zeppelin

Conexión de Apache Zeppelin con AWS

Configurar AWS Glue Crawler para poblar catálogo

Configuración de Developer Endpoint en AWS Glue

Cómo configurar AWS Glue ETL desde S3 a Parquet

Qué es EMR y cuándo usarlo

Crear tu primer cluster de AWS EMR

Conectar Apache Zeppelin a EMR

EMR automatizado con CloudFormation

AWS Lambda para proyectos de big data

Lambdas en big data: real time y batch

Configuración de AWS Lambda para Big Data

Carga de Información

Cómo Athena consulta datos en S3 con SQL

Cómo funciona AWS Athena con S3

Redshift vs Athena: cuándo usar cada uno

Configuración de cluster Redshift en AWS

AWS Lake Formation automatiza tu data lake

Consumo de información

Cómo dimensionar shards de Elasticsearch en AWS

Cómo crear un clúster Elasticsearch en AWS

Cómo funciona Kibana con Elasticsearch

QuickSight: el BI en cloud de AWS

Configuración completa de QuickSight en AWS

Seguridad, Orquestación y Automatización

5 reglas de seguridad para Big Data en AWS

Cómo AWS Macie protege datos en S3

Configuración de AWS Macie en 5 pasos

Apache Airflow vs Step Functions para ETL

Despliegue de Apache Airflow en GCP

Arquitecturas batch y streaming en AWS

Clase pública

Las cinco B de big data explicadas