Bienvenida e introducción al curso

1

Iniciando con Big Data

2

Cloud Computing en proyectos de BigData

3

Introducción al manejo de datos en Cloud

4

Datos en Cloud

5

¬ŅQu√© nube deber√≠a utilizar en mi proyecto de Big Data?

Arquitecturas

6

Arquitecturas Lambda

7

Arquitectura Kappa

8

Arquitectura Batch

Extracción de información

9

Llevar tu información al cloud

10

Demo - Creando nuestro IDE en la nube con Python - Boto3

11

¬ŅC√≥mo usar Boto3?

12

API Gateway

13

Storage Gateway

14

Kinesis Data Streams

15

Configuración de Kinesis Data Streams

16

Demo - Despegando Kinesis con Cloudformation

17

Kinesis Firehose

18

Demo - Configuración de Kinesis Firehose

19

Reto - Configurando Kinesis Firehose

20

AWS - MSK

21

Demo - Despliegue de un cl√ļster con MSK

Transformación de Información

22

AWS - Glue

23

Demo - Instalando Apache Zeppelin

24

Creación del Developer Endpoint

25

Demo - Conectando nuestro developer Endpoint a nuestro Zeppelin Edpoint

26

Demo - Creando nuestro primer ETL - Crawling

27

Demo - Creando nuestro primer ETL - Ejecución

28

Demo - Creando nuestro primer ETL - Carga

29

AWS - EMR

30

Demo - Desplegando nuestro primer cl√ļster con EMR

31

Demo - Conect√°ndonos a Apache Zeppelin en EMR

32

Demo- Despliegue autom√°tico de EMR con cloudformation

33

AWS - Lambda

34

Ejemplos AWS- Lambda

35

Demo - Creando una lambda para BigData

Carga de Información

36

AWS - Athena

37

Demo - Consultando data con Athena

38

AWS - RedShift

39

Demo - Creando nuestro primer cl√ļster de RedShift

40

AWS - Lake Formation

Consumo de información

41

AWS - ElasticSearch

42

Demo - Creando nuestro primer cl√ļster de ElasticSearch

43

AWS - Kibana

44

AWS - QuickSight

45

Demo - Visualizando nuestra data con QuickSight

Seguridad, Orquestación y Automatización

46

Seguridad en los Datos

47

AWS Macie

48

Demo - Configurando AWS Macie

49

Apache Airflow

50

Demo - Creando nuestro primer cl√ļster en Cloud Composer

51

Arquitectura de referencia

Clase p√ļblica

52

¬ŅQu√© es Big Data?

No tienes acceso a esta clase

¬°Contin√ļa aprendiendo! √önete y comienza a potenciar tu carrera

Curso de Big Data en AWS

Curso de Big Data en AWS

Carlos Andrés Zambrano Barrera

Carlos Andrés Zambrano Barrera

Apache Airflow

49/52
Recursos

Apache Airflow te permite automatizar y orquestar todo tu proyecto de Big Data. Algunas características importantes:

  • Permite crear, monitorear y orquestar flujos de trabajo.
  • Los pipeline son configurados usando Python.
  • La estructura b√°sica dentro de Apache Airflow se llama Directed Acyclic Grap (DAG), es un colecci√≥n de todas las tareas que se requieren correr con sus dependencias.

Aportes 7

Preguntas 3

Ordenar por:

¬ŅQuieres ver m√°s aportes, preguntas y respuestas de la comunidad?

o inicia sesión.

platzi tiene un curso de airtflow?

Airflow de Zero a Hero por la Comunidad de Data Engineering LATAM

https://www.youtube.com/watch?v=a3lSQr22RN4

Con este servicio podremos orquestar y automatizar todo un proyecto de BigData.

Características

  • Apache Airflow permite crear, monitorear y orquestar los flujos de trabajo.
  • Los Pipelines son configurados usando Python.
  • Es muy flexible, permite modificaci√≥n de executors, operators y dem√°s entidades dentro de Airflow. Aqu√≠ podemos utilizar scripts de bash, scripts de Python, podemos implementar emails para notificaciones, podemos integrarlo con bases de datos relacionales, a brokers como Redis, a colas, etc.
  • Este servicio es Open Source, por lo cual, se puede implementar en AWS de diferentes formas: trabajarlo con contenedores en AWS o trabajarlo con instancias EC2, pero la mejor opci√≥n es trabajarlo dentro de GCP, a trav√©s de un servicio llamado Cloud Composer que es una integraci√≥n de Apache Airflow totalmente administrado. Esta es la mejor opci√≥n que existe en el mercado para orquestar y automatizar flujos de proyectos de BigData.

Conceptos fundamentales

  • DAG: Directed Acyclic Grap, es una colecci√≥n de todas las tareas de las que se requiere que corran con sus dependencias y relaciones. Es as√≠ como a trav√©s del DAG podemos especificar todo un sistema de dependencias y esas dependencias se pueden ejecutar basados en diferentes sensores.
  • Operator: Describe una tarea que corre independiente de las otras tareas.

Otra buena alternativa para implementar Airflow en cloud es Astronomer.

https://www.astronomer.io/

@czam01 me podrias recomendar algun producto de AWS con el cual pueda hacer trigger de mi worklow con Step Functions?

Apache Airflow te permite automatizar y orquestar todo tu proyecto de Big Data. Algunas características importantes:

Permite crear, monitorear y orquestar flujos de trabajo.
Los pipeline son configurados usando Python.
La estructura básica dentro de Apache Airflow se llama Directed Acyclic Grap (DAG), es un colección de todas las tareas que se requieren correr con sus dependencias.

Apache Airflow bastante potente>
is an open-source workflow management platform. It started at Airbnb in October 2014 as a solution to manage the company’s increasingly complex workflows. Creating Airflow allowed Airbnb to programmatically author and schedule their workflows and monitor them via the built-in Airflow user interface.