- 1
Big Data en la Nube: Análisis, Transformación y Seguridad
00:40 - 2

Transformación de Datos en Cloud: Automatización y Seguridad
01:32 - 3

Big Data en la Nube: Escalabilidad, Automatización y Eficiencia
04:30 - 4

Almacenamiento y Procesamiento de Datos en la Nube
04:09 - 5
Comparativa de AWS y GCP para proyectos BigData
01:17
Creación y Ejecución de ETL con AWS Glue y S3
Clase 28 de 52 • Curso de Big Data en AWS
Contenido del curso
- 9

Extracción de Datos a la Nube: Estrategias y Herramientas
02:21 - 10

Uso de Python y AWS Cloud9 para Proyectos de Big Data
10:16 - 11

Uso de Boto3 para Servicios AWS en Python
03:56 - 12

Integración de AWS API Gateway en Proyectos de Big Data
03:40 - 13

Uso de Storage Gateway para Integración de Datos en la Nube
03:13 - 14

Procesamiento de Datos en Tiempo Real con AWS Kinesis Data Stream
05:53 - 15

Creación de Kinesis Data Streams en AWS
06:50 - 16

Despliegue de Kinesis con AWS CloudFormation
10:42 - 17

Entrega y Transformación de Datos con Kinesis Firehose en AWS
03:27 - 18

Configuración de Kinesis Firehose en AWS paso a paso
05:45 - 19
Configuración Básica de Amazon Kinesis Firehose en AWS
02:53 - 20

AWS MSK: Implementación y Gestión de Apache Kafka en la Nube
03:42 - 21

Despliegue de Clúster MSK en AWS paso a paso
07:21
- 22

Transformación de Datos con AWS Glue: ETL y Catálogo de Metadatos
06:33 - 23

Instalación y Configuración de Apache Zeppelin para AWS Glue
04:49 - 24

Configuración de Developer Endpoint en AWS Glue para Apache Zeppelin
05:38 - 25

Conexión y configuración de Apache Zeppelin para ETL en AWS
08:29 - 26

Creación de un ETL con AWS Glue: Crawlers y Catalogación de Datos
08:15 - 27

Configuración y Ejecución de ETL en AWS Glue paso a paso
08:00 - 28

Creación y Ejecución de ETL con AWS Glue y S3
10:23 - 29

Procesamiento de Datos con EMR en AWS
05:30 - 30

Creación de un clúster EMR en AWS paso a paso
09:01 - 31

Conexión y Configuración de Zeppelin en Clúster EMR
03:18 - 32

Automatización de Clústeres EMR con Plantillas de CloudFormation
06:32 - 33

AWS Lambda en Proyectos de Big Data en Tiempo Real
07:02 - 34

Uso de Lambda en Arquitecturas de Big Data Real Time y Batch
04:54 - 35

Configuración de Funciones Lambda para Big Data en AWS
07:16
- 36

Consultas SQL en Big Data con AWS Athena y S3
04:50 - 37

Consultas SQL en S3 con AWS Athena y Glue Catalog
04:05 - 38

AWS Redshift: Almacenamiento y Análisis de Datos Masivos
06:37 - 39

Configuración de Amazon Redshift en AWS paso a paso
05:05 - 40

Lake Formation: Automatización y Seguridad en Gestión de Data Lakes
06:20
- 46

Seguridad en Big Data con AWS: Cifrado, Permisos y Monitoreo
03:51 - 47

Seguridad de Datos en AWS con Amazon Macie
07:32 - 48

Habilitación y Configuración de AWS Macie para Gestión de Datos Seguros
06:16 - 49

Orquestación de ETLs con Apache Airflow y Python en Big Data
04:27 - 50

Despliegue y Orquestación de Tareas con Google Cloud Composer
10:03 - 51

Arquitecturas de Big Data en Cloud: Batch y Tiempo Real
05:53
¿Cómo crear y gestionar un Job en AWS Glue?
Al trabajar con grandes volúmenes de datos, la transformación de los mismos es clave. Amazon Web Services (AWS) Glue permite automatizar y escalar estas tareas de transformación mediante sus Jobs. Descubre cómo configurar y ejecutar un Job de ETL usando Glue y sigue paso a paso para optimizar tus datos.
¿Qué es un Job en AWS Glue?
Un Job en AWS Glue es un componente encargado de transformar datos. Son procesos que consisten en código de transformación que manipula los datos según se requiera. Estos son algunos pasos clave para configurar y utilizar un Job de AWS Glue:
-
Creación del Job:
- Accede a la consola de AWS Glue y selecciona "Jobs".
- Haz clic en "Agregar Job" y asigna un nombre, por ejemplo, "Platzi ETL".
- Define el rol de IAM utilizado, como "AWS Glue Service Role Platzi".
- Elige el tipo de ejecución, ya sea Spark o Python Shell. En este caso, seleccionamos Spark.
-
Configuración de Script:
- Proporciona un nuevo script Python para el ETL.
- Aprovecha las propiedades avanzadas para ajustar configuraciones como marcas de trabajo o tiempos de espera.
-
Transformaciones ETL:
- Edita el script Python para definir el Glue Context y especificar detalles del ETL.
- Cambia el nombre de la base de datos y especifica directorios de salida en S3.
¿Cómo realizar transformaciones con Glue?
Para comenzar la transformación de datos, es importante definir al menos tres operaciones básicas:
-
Creación de Dynamic Frames: Son estructuras que permiten a Glue identificar y gestionar orígenes de datos para transformaciones dinámicas.
-
Operaciones de datos:
- Eliminar o renombrar columnas que no son necesarias.
- Uniones (Joins) entre tablas para consolidar información de distintas fuentes.
# Ejemplo de un Join en el script Python de Glue
joined_data = DynamicFrame.fromDF(
memberships_df.join(persons_df, memberships_df.id == persons_df.personid),
glueContext,
"joined_data"
)
- Escritura y Formato:
- Escribe los datos procesados en formato Parquet, que optimiza espacio y rendimiento.
- Define el destino de escritura en S3 y particiona archivos según sea necesario.
¿Cómo automatizar y optimizar la ejecución de Jobs?
Automatizar la ejecución de Jobs es fundamental para optimizar el tiempo y recursos en un entorno profesional:
- Uso de Crawler: Después de transformar los datos, un Crawler actualiza la metadata en AWS Glue Data Catalog.
- Automatización con SDK de AWS: Orquesta ejecuciones automáticamente, maneja errores y asegura reintentos en caso de fallas.
¿Qué sucederá una vez finalizado el Job?
Una vez ejecutado el Job exitosamente, puedas verificar en S3 que los archivos se actualicen según lo previsto.
- Comprueba el estado del job en la consola de AWS Glue. Debe mostrar 'succeeded' si se completó con éxito.
- Verifica la estructuración y calidad de los datos transformados usando servicios como AWS Atena.
Las operaciones realizadas a través de AWS Glue son una vía poderosa y automatizada para manejar grandes volúmenes de datos. Estos pasos proporcionan un marco básico que se puede expandir y personalizar según las características y necesidades de cada proyecto de Big Data. ¡Continúa explorando y aprendiendo para maximizar el potencial de tus proyectos con AWS Glue y más!