- 1
Big Data en la Nube: Análisis, Transformación y Seguridad
00:40 - 2

Transformación de Datos en Cloud: Automatización y Seguridad
01:32 - 3

Big Data en la Nube: Escalabilidad, Automatización y Eficiencia
04:30 - 4

Almacenamiento y Procesamiento de Datos en la Nube
04:09 - 5
Comparativa de AWS y GCP para proyectos BigData
01:17
Creación de un ETL con AWS Glue: Crawlers y Catalogación de Datos
Clase 26 de 52 • Curso de Big Data en AWS
Contenido del curso
- 9

Extracción de Datos a la Nube: Estrategias y Herramientas
02:21 - 10

Uso de Python y AWS Cloud9 para Proyectos de Big Data
10:16 - 11

Uso de Boto3 para Servicios AWS en Python
03:56 - 12

Integración de AWS API Gateway en Proyectos de Big Data
03:40 - 13

Uso de Storage Gateway para Integración de Datos en la Nube
03:13 - 14

Procesamiento de Datos en Tiempo Real con AWS Kinesis Data Stream
05:53 - 15

Creación de Kinesis Data Streams en AWS
06:50 - 16

Despliegue de Kinesis con AWS CloudFormation
10:42 - 17

Entrega y Transformación de Datos con Kinesis Firehose en AWS
03:27 - 18

Configuración de Kinesis Firehose en AWS paso a paso
05:45 - 19
Configuración Básica de Amazon Kinesis Firehose en AWS
02:53 - 20

AWS MSK: Implementación y Gestión de Apache Kafka en la Nube
03:42 - 21

Despliegue de Clúster MSK en AWS paso a paso
07:21
- 22

Transformación de Datos con AWS Glue: ETL y Catálogo de Metadatos
06:33 - 23

Instalación y Configuración de Apache Zeppelin para AWS Glue
04:49 - 24

Configuración de Developer Endpoint en AWS Glue para Apache Zeppelin
05:38 - 25

Conexión y configuración de Apache Zeppelin para ETL en AWS
08:29 - 26

Creación de un ETL con AWS Glue: Crawlers y Catalogación de Datos
08:15 - 27

Configuración y Ejecución de ETL en AWS Glue paso a paso
08:00 - 28

Creación y Ejecución de ETL con AWS Glue y S3
10:23 - 29

Procesamiento de Datos con EMR en AWS
05:30 - 30

Creación de un clúster EMR en AWS paso a paso
09:01 - 31

Conexión y Configuración de Zeppelin en Clúster EMR
03:18 - 32

Automatización de Clústeres EMR con Plantillas de CloudFormation
06:32 - 33

AWS Lambda en Proyectos de Big Data en Tiempo Real
07:02 - 34

Uso de Lambda en Arquitecturas de Big Data Real Time y Batch
04:54 - 35

Configuración de Funciones Lambda para Big Data en AWS
07:16
- 36

Consultas SQL en Big Data con AWS Athena y S3
04:50 - 37

Consultas SQL en S3 con AWS Athena y Glue Catalog
04:05 - 38

AWS Redshift: Almacenamiento y Análisis de Datos Masivos
06:37 - 39

Configuración de Amazon Redshift en AWS paso a paso
05:05 - 40

Lake Formation: Automatización y Seguridad en Gestión de Data Lakes
06:20
- 46

Seguridad en Big Data con AWS: Cifrado, Permisos y Monitoreo
03:51 - 47

Seguridad de Datos en AWS con Amazon Macie
07:32 - 48

Habilitación y Configuración de AWS Macie para Gestión de Datos Seguros
06:16 - 49

Orquestación de ETLs con Apache Airflow y Python en Big Data
04:27 - 50

Despliegue y Orquestación de Tareas con Google Cloud Composer
10:03 - 51

Arquitecturas de Big Data en Cloud: Batch y Tiempo Real
05:53
¿Cómo crear tu primer ETL con Apache Zeppelin y AWS Glue?
Iniciar en el mundo de la integración de datos y ETL (Extract, Transform, Load) puede ser abrumador, pero con herramientas como Apache Zeppelin y AWS Glue, este proceso se vuelve mucho más manejable. En este contenido, exploraremos cómo crear tu primer ETL y los pasos para craulear la data usando estos potentes servicios.
¿Cómo iniciar con AWS Glue y Apache Zeppelin?
Antes de comenzar, necesitas tener Apache Zeppelin instalado localmente y conectado a tu desarrollador de AWS Glue. Una vez que esto está configurado, el siguiente paso es aprender a crear tu primer ETL en fases. En esta guía, nos enfocaremos en cómo craulear la data inicial para transformación, comenzando por AWS Glue.
¿Qué es un crawler en AWS Glue y cómo se usa?
Un crawler en AWS Glue es una tarea automática que permite identificar y catalogar la data desde un bucket en S3. El proceso es el siguiente:
-
Crea tu bucket de origen en S3:
- Dirígete a Servicios en la consola de AWS.
- Crea un bucket llamado
origen-platzi. - Sube los archivos descargados desde el repositorio de GitHub en la carpeta JSON.
-
Configura un nuevo crawler en AWS Glue:
- Accede al servicio Glue en AWS.
- En Crawlers, agrega un nuevo crawler llamado
Platzi Crawler. - Especifica el origen como el bucket de S3 que creaste (
origen-platzi). - Configura el crawler para ejecutarse bajo demanda.
-
¿Cómo se realiza el proceso de crauleo?
- Ejecuta el crawler para que identifique y catalogue la data JSON en el Glue Catalog.
- El Glue Catalog almacena los metadatos, permitiendo su uso por otros servicios como Athena.
¿Cómo se gestiona el Glue Catalog para tu data?
Una vez que se completa la operación del crawler, este crea tablas a partir de tus archivos JSON en una base de datos dentro del Glue Catalog. Todo el proceso se refleja de la siguiente manera:
- Revisa las tablas creadas en el Glue Catalog bajo tu base de datos
PlatziDB. - Usa servicios como Athena para consultar estas tablas y entender la estructura y contenido de tu data.
¿Cómo continuar con la transformación de data?
Una vez cargada la data en el Glue Catalog, el siguiente paso es transformarla y visualizarla nuevamente. Este proceso puede realizarse con ETL scripts más avanzados junto con herramientas de consulta como Athena.
Recomendaciones Prácticas
- Revisa la documentación de AWS Glue y Apache Zeppelin regularmente, ya que ambos servicios son actualizados frecuentemente con nuevas características.
- Explora ejemplos prácticos en GitHub: utilizar repositorios con ejemplos listos puede ayudarte a comprender el proceso completo de ETL.
- Ejecuta pruebas en un entorno sandbox para familiarizarte con los errores comunes y comprender cómo solucionarlos antes de implementarlo en producción.
Con estas guías y herramientas, estarás en camino de dominar la ingeniería de datos y explorar las posibilidades vastas que AWS y Apache Zeppelin ofrecen. ¡Sigue profundizando en cada paso, mantén tu curiosidad y expande tus habilidades!