Creación de un ETL con AWS Glue: Crawlers y Catalogación de Datos

Clase 26 de 52 • Curso de Big Data en AWS

Resumen

¿Cómo crear tu primer ETL con Apache Zeppelin y AWS Glue?

Iniciar en el mundo de la integración de datos y ETL (Extract, Transform, Load) puede ser abrumador, pero con herramientas como Apache Zeppelin y AWS Glue, este proceso se vuelve mucho más manejable. En este contenido, exploraremos cómo crear tu primer ETL y los pasos para craulear la data usando estos potentes servicios.

¿Cómo iniciar con AWS Glue y Apache Zeppelin?

Antes de comenzar, necesitas tener Apache Zeppelin instalado localmente y conectado a tu desarrollador de AWS Glue. Una vez que esto está configurado, el siguiente paso es aprender a crear tu primer ETL en fases. En esta guía, nos enfocaremos en cómo craulear la data inicial para transformación, comenzando por AWS Glue.

¿Qué es un crawler en AWS Glue y cómo se usa?

Un crawler en AWS Glue es una tarea automática que permite identificar y catalogar la data desde un bucket en S3. El proceso es el siguiente:

Crea tu bucket de origen en S3:
- Dirígete a Servicios en la consola de AWS.
- Crea un bucket llamado origen-platzi.
- Sube los archivos descargados desde el repositorio de GitHub en la carpeta JSON.
Configura un nuevo crawler en AWS Glue:
- Accede al servicio Glue en AWS.
- En Crawlers, agrega un nuevo crawler llamado Platzi Crawler.
- Especifica el origen como el bucket de S3 que creaste (origen-platzi).
- Configura el crawler para ejecutarse bajo demanda.
¿Cómo se realiza el proceso de crauleo?
- Ejecuta el crawler para que identifique y catalogue la data JSON en el Glue Catalog.
- El Glue Catalog almacena los metadatos, permitiendo su uso por otros servicios como Athena.

¿Cómo se gestiona el Glue Catalog para tu data?

Una vez que se completa la operación del crawler, este crea tablas a partir de tus archivos JSON en una base de datos dentro del Glue Catalog. Todo el proceso se refleja de la siguiente manera:

Revisa las tablas creadas en el Glue Catalog bajo tu base de datos PlatziDB.
Usa servicios como Athena para consultar estas tablas y entender la estructura y contenido de tu data.

¿Cómo continuar con la transformación de data?

Una vez cargada la data en el Glue Catalog, el siguiente paso es transformarla y visualizarla nuevamente. Este proceso puede realizarse con ETL scripts más avanzados junto con herramientas de consulta como Athena.

Recomendaciones Prácticas

Revisa la documentación de AWS Glue y Apache Zeppelin regularmente, ya que ambos servicios son actualizados frecuentemente con nuevas características.
Explora ejemplos prácticos en GitHub: utilizar repositorios con ejemplos listos puede ayudarte a comprender el proceso completo de ETL.
Ejecuta pruebas en un entorno sandbox para familiarizarte con los errores comunes y comprender cómo solucionarlos antes de implementarlo en producción.

Con estas guías y herramientas, estarás en camino de dominar la ingeniería de datos y explorar las posibilidades vastas que AWS y Apache Zeppelin ofrecen. ¡Sigue profundizando en cada paso, mantén tu curiosidad y expande tus habilidades!

Raul Alfonso Rodriguez Lopez

student•

buenas… si comienzo a usar este servicio (Zeppelin), como serian los cobros al usarlo con AWS ??

Milton Andrés Sanabria

student•

¡Ten cuidado al usar los endpoints estos te generan un cobro considerable! usan minimo dos DPU para poder correr.

john ct

student•

recuerden desinstalar todo lo configurado en este demo s3 y demas services AWS no perdona el charging of services y se los carga a su Tarjeta de credito.

john ct

student•

services usados S3, Glue Athena

used files 6 uploaded them in S3 and connected with gluecatlogue creating a crawler where a Db was created with 6 tables

Usuario anónimo

user•

Por el momento hallo mucha similitud con los servicios o herramientas ETL de bases de datos, la principal diferencia es la nube. La ventaja de Amazon sin duda es el manejo de alta concurrencia, volumen de datos, seguridad y casos de uso. Pero viendo todo desde una perspectiva general, no importa las herramientas de datos, siempre manejaremos ETL, almacenamiento, lenguajes de consulta y todo desemboca en herramientas de visualización con el fin de entregar datos para análisis: descriptivo, prescriptivo y predictivo (este ultimo se pueden aplicar técnicas de ML). Muy interesante, pero hay que identificar muy bien las necesidades para decidir si realmente es necesario usar estos servicios.

Mario Alejandro Barrera Gonzalez

student•

Los enlaces de los archivos de clase ya no sirven. Seria conveniente que actualicen los cursos, hay unos que se grabaron desde 2020 y hay bastantes cambios y nuevas funcionalidades.

Juan camilo truillo galvis

student•

Muy feliz con este curso,aunque le falta un poco de actualizacion, ya que la consola de AWS ha cambiado, pero la informacion dada en este curso y los anteriores vale oro

Jose Suarez

student•

El Crawling es una tarea que va a ir a nuestro bucket de S3, identifica la data y lo coloca en el Glue catalog

Alexander Bolaño Cervantes

student•

Estuve intentando añadir varios Crawler con diferentes tipos de datos JSON , CSV incluyendo el del ejercicio que aquí mencionan , pero he tenido problemas por que mi rastreador no me detecta los datos CSV y por ende no me crea las tablas, a su vez el ejercicio de este capitulo ,me genera las tablas y al momento de ir al servicio de Athena para ver una vista de previa de ellas aparecen vacías , la pregunta es la siguiente: Que tan importante es configurar los clasificadores del esquema de datos antes de agregar el rastreador para leer todo tipo de data , por que la ventaja que debe ofrecer el servicio es precisamente inferir la estructura y el tipo de datos ???????

Carlos Andrés Zambrano Barrera

teacher•

Si te das cuenta en los ejemplos no usamos classifiers... mira los logs del crawler, puede que haya un problema de permisos para que consulte la data en s3.

oscar ramirez anaya

student•

Me podrias compartir un link con la documentación de creación crawling usando la conexion jdbc por favor

Carlos Andrés Zambrano Barrera

teacher•

Mira... https://docs.aws.amazon.com/es_es/glue/latest/dg/add-crawler.html

El crawler identifica una estructura de datos en S3, la conexión la haces es a athena no al crawler.

Athena y JDBC --> https://docs.aws.amazon.com/es_es/athena/latest/ug/connect-with-jdbc.html

Jhon Alexander Bravo

student•

cuando ejecuto el Crawler me muestra el siguiente mensaje de error: User: arn:aws:sts::143731252304:assumed-role/AwsGlueRoleService/AWS-Crawler is not authorized to perform: logs:PutLogEvents on resource: arn:aws:logs:us-east-2:143731252304:log-group:/aws-glue/crawlers:log-stream:crawler_01 (Service: AWSLogs; Status Code: 400; Error Code: AccessDeniedException; Request ID: edce86a2-b0cd-11e9-afea-6d1c479152fe). For more information, see Setting up IAM Permissions in the Developer Guide (http://docs.aws.amazon.com/glue/latest/dg/getting-started-access.html).

Por lo que dice, debe ser mi IAM rol, pero, que permisos debo crear ? que no genere costo?

Darvin Orozco

student•

¿Has seleccionado el rol de IAM que el profesor ha indicado en ésta clase? También te podría funcionar crear un nuevo rol dedicado a ese servicio. Saludos.

Mario Alexander Vargas Celis

student•

Para crear nuestro primer ETL (Extract, Transform, Load) con Crawling en AWS Glue, sigue estos pasos:

1. Configurar AWS Glue y Crear un Crawler

Paso 1: Crear una Base de Datos en Glue

Inicia sesión en la consola de AWS.
Ve a AWS Glue > Catálogo de Datos > Bases de datos.
Haz clic en Agregar Base de Datos.
Ingresa un nombre, por ejemplo: mi_etl_db, y guarda los cambios.

Paso 2: Crear un Crawler

Ve a AWS Glue > Crawlers.
Haz clic en Crear Crawler.
Ingresa un nombre, por ejemplo: crawler_etl.
En Orígenes de datos, selecciona:
- S3 si tienes archivos en un bucket.
- JDBC si vas a extraer datos desde una base de datos relacional.
Agrega la ruta del bucket de S3 o la conexión JDBC.
En Rol de IAM, selecciona un rol con permisos de AWS Glue y S3.
En Destino, elige la base de datos mi_etl_db.
Configura la frecuencia de ejecución (manual o automática).
Guarda y ejecuta el Crawler.

2. Transformación de Datos con AWS Glue ETL

Paso 3: Crear un Trabajo ETL

Ve a AWS Glue > Trabajos.
Haz clic en Agregar trabajo.
En Nombre, coloca etl_transformacion.
En Tipo, selecciona ETL con script de Python o Spark.
En Rol de IAM, selecciona el mismo rol del Crawler.
En Origen de datos, elige la tabla creada por el Crawler.
En Destino, selecciona:
- S3 (para almacenar datos transformados).
- JDBC (si deseas cargar en una base de datos relacional).
Guarda los cambios y edita el script de transformación.

3. Código de Transformación en PySpark

Ejemplo de transformación con PySpark:

import sys from awsglue.transforms import * from awsglue.utils import getResolvedOptions from awsglue.context import GlueContext from pyspark.context import SparkContext from awsglue.dynamicframe import DynamicFrame

# Crear contexto de Glue sc = SparkContext() glueContext = GlueContext(sc) spark = glueContext.spark_session

# Cargar datos desde Glue Data Catalog datasource = glueContext.create_dynamic_frame.from_catalog(database="mi_etl_db", table_name="mi_tabla")

# Transformación: Filtrar datos nulos transformed_data = DropNullFields.apply(frame=datasource)

# Guardar en S3 en formato Parquet glueContext.write_dynamic_frame.from_options( frame=transformed_data, connection_type="s3", connection_options={"path": "s3://mi-bucket-transformado/"}, format="parquet" )

4. Cargar los Datos en un Destino

Después de ejecutar el trabajo ETL, los datos transformados estarán en el destino configurado (S3, RDS, Redshift, etc.).

5. Ejecutar y Monitorear el ETL

Ve a AWS Glue > Trabajos.
Selecciona etl_transformacion y haz clic en Ejecutar.
Monitorea el estado en Historial de Ejecución.

🎯 ¡Listo! Has creado tu primer ETL con AWS Glue y Crawling. 🚀

Santiago Ortiz Ceballos

student•

Upload RAW data to S3 and setup the data catalog

Oscar Velez

student•

Tuve inconvenientes cuando los archivos se encuentran en el mismo directorio, de esta manera se creaban las tablas en Glue catalog pero desde Athena me retornaba cero registros.

Para resolverlo, encontré en internet que es buena practica un folder por archivo, volví a ejecutarlo y funcionó correctamente

Jose Suarez

student•

Cada json de origen lo crea como una tabla

Jose Suarez

student•

El origen de la data en Crawler puede ser, un bucket en S3, una DynamoDB o una conexión tipo JDBC.

Jose Suarez

student•

Classifier para identificar una estructura particular en nuestra data y la pueda leer de forma adecuada.

Jose Suarez

student•

Glue Catalog es un catalogo de metadatos persistente, es decir tiene información de donde esta la data almacenada y que estructura tiene para que otros servicios mediante ese catalogo puedan acceder a esa información.

Usuario anónimo

user•

Gracias

Eduardo Sánchez Villegas

student•

Al pasar un tiempo, han cambiado las políticas de Amazon y ahora dejan el bucket privado o sin una política sin restricción.

No es la mejor solución, pero si en el bucket de S3 agregan la siguiente policy funcionará:

{
    "Version": "2012-10-17",
    "Id": "Policyesv",
    "Statement": [
        {
            "Sid": "Statement1",
            "Effect": "Allow",
            "Principal": "*",
            "Action": "s3:GetObject",
            "Resource": "arn:aws:s3:::origen-platzi-esv/*"
        }
    ]
}

Se darán cuenta si les ocurre el problema cuando ejecutan bajo demanda siguiendo el tutorial de Carlos Zambrano, pero no les actualiza las 6 tablas.

Deben cambiar en la policy en el campo "Resource" lo que este en "origen-platzi-esv" por el nombre del origen que ustedes hayan colocado.

Creación de un ETL con AWS Glue: Crawlers y Catalogación de Datos

Bienvenida e introducción al curso

Big Data en la Nube: Análisis, Transformación y Seguridad

Transformación de Datos en Cloud: Automatización y Seguridad

Big Data en la Nube: Escalabilidad, Automatización y Eficiencia

Almacenamiento y Procesamiento de Datos en la Nube

Comparativa de AWS y GCP para proyectos BigData

Arquitecturas

Arquitectura Lambda para Procesamiento de Datos en la Nube

Arquitectura Capa: Procesamiento de Datos en Tiempo Real

Arquitectura Batch: Procesamiento de Datos Histórico en la Nube

Extracción de información

Extracción de Datos a la Nube: Estrategias y Herramientas

Uso de Python y AWS Cloud9 para Proyectos de Big Data

Uso de Boto3 para Servicios AWS en Python

Integración de AWS API Gateway en Proyectos de Big Data

Uso de Storage Gateway para Integración de Datos en la Nube

Procesamiento de Datos en Tiempo Real con AWS Kinesis Data Stream

Creación de Kinesis Data Streams en AWS

Despliegue de Kinesis con AWS CloudFormation

Entrega y Transformación de Datos con Kinesis Firehose en AWS

Configuración de Kinesis Firehose en AWS paso a paso

Configuración Básica de Amazon Kinesis Firehose en AWS

AWS MSK: Implementación y Gestión de Apache Kafka en la Nube

Despliegue de Clúster MSK en AWS paso a paso

Transformación de Información

Transformación de Datos con AWS Glue: ETL y Catálogo de Metadatos

Instalación y Configuración de Apache Zeppelin para AWS Glue

Configuración de Developer Endpoint en AWS Glue para Apache Zeppelin

Conexión y configuración de Apache Zeppelin para ETL en AWS