- 1
Big Data en la Nube: Análisis, Transformación y Seguridad
00:40 - 2

Transformación de Datos en Cloud: Automatización y Seguridad
01:32 - 3

Big Data en la Nube: Escalabilidad, Automatización y Eficiencia
04:30 - 4

Almacenamiento y Procesamiento de Datos en la Nube
04:09 - 5
Comparativa de AWS y GCP para proyectos BigData
01:17
Configuración y Ejecución de ETL en AWS Glue paso a paso
Clase 27 de 52 • Curso de Big Data en AWS
Contenido del curso
- 9

Extracción de Datos a la Nube: Estrategias y Herramientas
02:21 - 10

Uso de Python y AWS Cloud9 para Proyectos de Big Data
10:16 - 11

Uso de Boto3 para Servicios AWS en Python
03:56 - 12

Integración de AWS API Gateway en Proyectos de Big Data
03:40 - 13

Uso de Storage Gateway para Integración de Datos en la Nube
03:13 - 14

Procesamiento de Datos en Tiempo Real con AWS Kinesis Data Stream
05:53 - 15

Creación de Kinesis Data Streams en AWS
06:50 - 16

Despliegue de Kinesis con AWS CloudFormation
10:42 - 17

Entrega y Transformación de Datos con Kinesis Firehose en AWS
03:27 - 18

Configuración de Kinesis Firehose en AWS paso a paso
05:45 - 19
Configuración Básica de Amazon Kinesis Firehose en AWS
02:53 - 20

AWS MSK: Implementación y Gestión de Apache Kafka en la Nube
03:42 - 21

Despliegue de Clúster MSK en AWS paso a paso
07:21
- 22

Transformación de Datos con AWS Glue: ETL y Catálogo de Metadatos
06:33 - 23

Instalación y Configuración de Apache Zeppelin para AWS Glue
04:49 - 24

Configuración de Developer Endpoint en AWS Glue para Apache Zeppelin
05:38 - 25

Conexión y configuración de Apache Zeppelin para ETL en AWS
08:29 - 26

Creación de un ETL con AWS Glue: Crawlers y Catalogación de Datos
08:15 - 27

Configuración y Ejecución de ETL en AWS Glue paso a paso
08:00 - 28

Creación y Ejecución de ETL con AWS Glue y S3
10:23 - 29

Procesamiento de Datos con EMR en AWS
05:30 - 30

Creación de un clúster EMR en AWS paso a paso
09:01 - 31

Conexión y Configuración de Zeppelin en Clúster EMR
03:18 - 32

Automatización de Clústeres EMR con Plantillas de CloudFormation
06:32 - 33

AWS Lambda en Proyectos de Big Data en Tiempo Real
07:02 - 34

Uso de Lambda en Arquitecturas de Big Data Real Time y Batch
04:54 - 35

Configuración de Funciones Lambda para Big Data en AWS
07:16
- 36

Consultas SQL en Big Data con AWS Athena y S3
04:50 - 37

Consultas SQL en S3 con AWS Athena y Glue Catalog
04:05 - 38

AWS Redshift: Almacenamiento y Análisis de Datos Masivos
06:37 - 39

Configuración de Amazon Redshift en AWS paso a paso
05:05 - 40

Lake Formation: Automatización y Seguridad en Gestión de Data Lakes
06:20
- 46

Seguridad en Big Data con AWS: Cifrado, Permisos y Monitoreo
03:51 - 47

Seguridad de Datos en AWS con Amazon Macie
07:32 - 48

Habilitación y Configuración de AWS Macie para Gestión de Datos Seguros
06:16 - 49

Orquestación de ETLs con Apache Airflow y Python en Big Data
04:27 - 50

Despliegue y Orquestación de Tareas con Google Cloud Composer
10:03 - 51

Arquitecturas de Big Data en Cloud: Batch y Tiempo Real
05:53
¿Cómo conectarse a AWS Glue para ejecutar tareas ETL?
Amazon Glue es un servicio de ETL (extracción, transformación y carga) totalmente administrado que permite a los usuarios preparar y cargar sus datos para análisis. A lo largo de este artículo, exploraremos un escenario práctico sobre cómo configurar un entorno de desarrollo, verificar conexiones y ejecutar tareas de transformación en AWS Glue. Aquí vamos.
¿Cómo configurar un entorno de desarrollo para AWS Glue?
En este caso, el primer paso es asegurarse de que su entorno de desarrollo esté correctamente conectado. Para lograrlo, debemos establecer un túnel SSH al endpoint de desarrollo. Estos son los pasos básicos:
-
Configurar el túnel SSH: Utilice la llave privada y el endpoint de desarrollo proporcionado por AWS Glue. Abra la consola, seleccione el endpoint de desarrollo y copie el comando para iniciar el túnel. Asegúrese de que la llave privada esté disponible y ejecútelo.
-
Verificar la conexión desde Zeppelin: Una vez configurado el túnel, es crucial verificar que tienes sincronización con los datos almacenados en S3. Actualiza tu instancia de Zeppelin y confirma que está conectada con S3.
¿Cómo crear y ejecutar un contexto de Glue?
El siguiente paso después de la configuración del entorno de desarrollo es crear el contexto de Glue, el cual establece la conexión y carga las librerías necesarias para la ejecución de las tareas ETL. Aquí te explicamos cómo hacerlo:
-
Crear el Glue Context: Copia el comando para crear el Glue Context desde los ejemplos proporcionados en los enlaces del curso. Ve a tu interfaz de Zeppelin, pega la información y ejecútala.
-
Crear un Dynamic Frame: Con el Glue Context en marcha, el siguiente comando es crear un Dynamic Frame, que permitirá identificar y manipular los datos desde la base de datos PlatziDB y la tabla 'persons-json'. Esto implica realizar la conexión al catálogo Glue y verificar la cantidad de registros disponibles y su esquema.
¿Cómo corregir errores durante la ejecución de comandos?
Mientras se ejecutan comandos, es posible que te encuentres con errores. A continuación te mostramos cómo abordarlos:
-
Agregar comandos que faltan: Si un comando no se ejecuta correctamente, verifica que todas las librerías necesarias estén importadas. Puedes crear un nuevo bloque en Zeppelin donde especifiques que estás trabajando con PySpark y luego ejecutar el comando completo con todas las librerías.
-
Usar la consola SSH para debugging: Si los errores persisten, puedes intentar conectarte a PySpark a través de SSH. Ejecuta los comandos línea por línea a través de la CLI, lo cual puede facilitar la identificación de errores y otros problemas.
¿Cómo realizar consultás directas para depuración?
Exploremos la opción de conectarse al developer endpoint a través de SSH para hacer un troubleshooting más detallado:
-
Conexión vía SSH: En caso de que encuentres errores al usar Zeppelin, puedes optar por conectarte directamente a PySpark a través de SSH. Una vez conectado, ejecuta las consultas directamente desde la CLI.
-
Validar resultados en la CLI: Ejecutando las consultas de esta manera, tendrás oportunidad de ver los resultados en tiempo real, incluyendo errores o advertencias que puedan surgir durante la ejecución.
Este enfoque te permitirá ejecutar análisis, solucionar errores y planificar los siguientes pasos en la arquitectura de datos de AWS Glue. Sigue explorando e integrando tus datos para maximizar su valor y seguir aprendiendo en el emocionante mundo de la ingeniería de datos.