- 1
Big Data en la Nube: Análisis, Transformación y Seguridad
00:40 - 2

Transformación de Datos en Cloud: Automatización y Seguridad
01:32 - 3

Big Data en la Nube: Escalabilidad, Automatización y Eficiencia
04:30 - 4

Almacenamiento y Procesamiento de Datos en la Nube
04:09 - 5
Comparativa de AWS y GCP para proyectos BigData
01:17
Despliegue y Orquestación de Tareas con Google Cloud Composer
Clase 50 de 52 • Curso de Big Data en AWS
Contenido del curso
- 9

Extracción de Datos a la Nube: Estrategias y Herramientas
02:21 - 10

Uso de Python y AWS Cloud9 para Proyectos de Big Data
10:16 - 11

Uso de Boto3 para Servicios AWS en Python
03:56 - 12

Integración de AWS API Gateway en Proyectos de Big Data
03:40 - 13

Uso de Storage Gateway para Integración de Datos en la Nube
03:13 - 14

Procesamiento de Datos en Tiempo Real con AWS Kinesis Data Stream
05:53 - 15

Creación de Kinesis Data Streams en AWS
06:50 - 16

Despliegue de Kinesis con AWS CloudFormation
10:42 - 17

Entrega y Transformación de Datos con Kinesis Firehose en AWS
03:27 - 18

Configuración de Kinesis Firehose en AWS paso a paso
05:45 - 19
Configuración Básica de Amazon Kinesis Firehose en AWS
02:53 - 20

AWS MSK: Implementación y Gestión de Apache Kafka en la Nube
03:42 - 21

Despliegue de Clúster MSK en AWS paso a paso
07:21
- 22

Transformación de Datos con AWS Glue: ETL y Catálogo de Metadatos
06:33 - 23

Instalación y Configuración de Apache Zeppelin para AWS Glue
04:49 - 24

Configuración de Developer Endpoint en AWS Glue para Apache Zeppelin
05:38 - 25

Conexión y configuración de Apache Zeppelin para ETL en AWS
08:29 - 26

Creación de un ETL con AWS Glue: Crawlers y Catalogación de Datos
08:15 - 27

Configuración y Ejecución de ETL en AWS Glue paso a paso
08:00 - 28

Creación y Ejecución de ETL con AWS Glue y S3
10:23 - 29

Procesamiento de Datos con EMR en AWS
05:30 - 30

Creación de un clúster EMR en AWS paso a paso
09:01 - 31

Conexión y Configuración de Zeppelin en Clúster EMR
03:18 - 32

Automatización de Clústeres EMR con Plantillas de CloudFormation
06:32 - 33

AWS Lambda en Proyectos de Big Data en Tiempo Real
07:02 - 34

Uso de Lambda en Arquitecturas de Big Data Real Time y Batch
04:54 - 35

Configuración de Funciones Lambda para Big Data en AWS
07:16
- 36

Consultas SQL en Big Data con AWS Athena y S3
04:50 - 37

Consultas SQL en S3 con AWS Athena y Glue Catalog
04:05 - 38

AWS Redshift: Almacenamiento y Análisis de Datos Masivos
06:37 - 39

Configuración de Amazon Redshift en AWS paso a paso
05:05 - 40

Lake Formation: Automatización y Seguridad en Gestión de Data Lakes
06:20
- 46

Seguridad en Big Data con AWS: Cifrado, Permisos y Monitoreo
03:51 - 47

Seguridad de Datos en AWS con Amazon Macie
07:32 - 48

Habilitación y Configuración de AWS Macie para Gestión de Datos Seguros
06:16 - 49

Orquestación de ETLs con Apache Airflow y Python en Big Data
04:27 - 50

Despliegue y Orquestación de Tareas con Google Cloud Composer
10:03 - 51

Arquitecturas de Big Data en Cloud: Batch y Tiempo Real
05:53
¿Cómo se despliega un clúster con Apache Airflow en Google Cloud?
Desplegar un clúster de Apache Airflow usando Google Cloud Composer es una poderosa herramienta para orquestar tareas en proyectos de Big Data. Aquí, te guiaré paso a paso por el proceso de creación de un clúster de Airflow y la carga de tus DAGs (Directed Acyclic Graphs) para gestionar eficientemente el flujo de trabajo de tus proyectos.
¿Por qué usar Google Cloud Composer?
Google Cloud Composer es un servicio gestionado que simplifica la creación, configuración y administración de clústeres de Apache Airflow. Esto nos permite concentrarnos en nuestras tareas sin preocuparnos por la infraestructura subyacente.
¿Cómo crear un proyecto en Google Cloud?
- Acceder a la consola de Google Cloud: Primero, inicia sesión en tu consola de Google Cloud.
- Crear un nuevo proyecto: Selecciona "Crear proyecto." Da un nombre a tu proyecto.
- Ir a Google Cloud Composer: Navega hacia el servicio de Google Cloud Composer. Allí comenzarás la configuración de tu clúster de Apache Airflow.
¿Cómo configurar el clúster de Apache Airflow?
- Nombre del clúster: Asigna un nombre, por ejemplo, "Platzi Airflow."
- Cantidad de nodos: La opción predeterminada es de tres nodos. Puedes modificarlo según tus necesidades.
- Selección de región: Escoge una región, como "US Central 1."
- Configuración de instancias y clúster: Personaliza el tipo de instancia y otras configuraciones según los requerimientos de tu proyecto, o déjalo con valores predeterminados.
- Versión de imagen y Python: Selecciona las versiones de imagen (1.9, 1.10, o 1.11) y de Python (2 o 3). Es importante elegir versiones que ofrezcan integraciones estables y sean compatibles con tus librerías y proyectos.
¿Cómo cargar tus DAGs en Google Cloud Storage?
- Acceder a DAGs Folder: Este será el repositorio donde cargarás tus DAGs. Dirígete al "DAGs folder" en el bucket de Google Cloud Storage.
- Cargar archivos DAG: Dentro de la carpeta, carga tus archivos DAG. Puedes descargar un archivo de ejemplo del curso para entender mejor la estructura.
¿Cómo configurar y visualizar DAGs en Apache Airflow?
- Entender los DAGs: Un DAG es una colección de tareas que deben ejecutarse en un orden específico. La estructura permite definir:
- ID de DAG
- Descripción
- Concurrencia
- Intentos de reejecución
- Carga y ejecución de DAGs: Una vez cargado en Apache Airflow, el sistema graficará automáticamente las precedencias entre tareas. Esto proporcionará una vista visual del flujo de trabajo.
- Configuración adicional en DAGs: Puedes personalizar el entorno y las conexiones y definir tareas específicas, como extracción de logs desde CloudWatch a S3 usando Python Operator.
¿Qué más puedes hacer con Apache Airflow?
- Triggers y ejecución programada: Configura tareas para que se ejecuten a intervalos específicos o después de ciertos eventos.
- Monitorear el rendimiento: Examina gráficos de Gantt para ver la duración de tareas, su frecuencia de ejecución y los logs asociados.
- Integraciones: Conéctate a otros servicios como AWS Glue, Athena, o Redshift para gestionar el flujo completo de datos.
Google Cloud Composer ofrece una suite robusta para gestionar flujos de trabajo complejos de Big Data, apoyando a usuarios en la automatización y orquestación eficiente de sus proyectos en la nube. Atrévete a explorar este mundo y optimiza tus tareas de Big Data con confianza.