Bienvenida e introducci贸n al curso

1

Iniciando con Big Data

2

Cloud Computing en proyectos de BigData

3

Introducci贸n al manejo de datos en Cloud

4

Datos en Cloud

5

驴Qu茅 nube deber铆a utilizar en mi proyecto de Big Data?

Arquitecturas

6

Arquitecturas Lambda

7

Arquitectura Kappa

8

Arquitectura Batch

Extracci贸n de informaci贸n

9

Llevar tu informaci贸n al cloud

10

Demo - Creando nuestro IDE en la nube con Python - Boto3

11

驴C贸mo usar Boto3?

12

API Gateway

13

Storage Gateway

14

Kinesis Data Streams

15

Configuraci贸n de Kinesis Data Streams

16

Demo - Despegando Kinesis con Cloudformation

17

Kinesis Firehose

18

Demo - Configuraci贸n de Kinesis Firehose

19

Reto - Configurando Kinesis Firehose

20

AWS - MSK

21

Demo - Despliegue de un cl煤ster con MSK

Transformaci贸n de Informaci贸n

22

AWS - Glue

23

Demo - Instalando Apache Zeppelin

24

Creaci贸n del Developer Endpoint

25

Demo - Conectando nuestro developer Endpoint a nuestro Zeppelin Edpoint

26

Demo - Creando nuestro primer ETL - Crawling

27

Demo - Creando nuestro primer ETL - Ejecuci贸n

28

Demo - Creando nuestro primer ETL - Carga

29

AWS - EMR

30

Demo - Desplegando nuestro primer cl煤ster con EMR

31

Demo - Conect谩ndonos a Apache Zeppelin en EMR

32

Demo- Despliegue autom谩tico de EMR con cloudformation

33

AWS - Lambda

34

Ejemplos AWS- Lambda

35

Demo - Creando una lambda para BigData

Carga de Informaci贸n

36

AWS - Athena

37

Demo - Consultando data con Athena

38

AWS - RedShift

39

Demo - Creando nuestro primer cl煤ster de RedShift

40

AWS - Lake Formation

Consumo de informaci贸n

41

AWS - ElasticSearch

42

Demo - Creando nuestro primer cl煤ster de ElasticSearch

43

AWS - Kibana

44

AWS - QuickSight

45

Demo - Visualizando nuestra data con QuickSight

Seguridad, Orquestaci贸n y Automatizaci贸n

46

Seguridad en los Datos

47

AWS Macie

48

Demo - Configurando AWS Macie

49

Apache Airflow

50

Demo - Creando nuestro primer cl煤ster en Cloud Composer

51

Arquitectura de referencia

Clase p煤blica

52

驴Qu茅 es Big Data?

A煤n no tienes acceso a esta clase

Crea una cuenta y contin煤a viendo este curso

Curso de Big Data en AWS

Curso de Big Data en AWS

Carlos Andr茅s Zambrano Barrera

Carlos Andr茅s Zambrano Barrera

Demo - Creando nuestro primer ETL - Crawling

26/52
Recursos

Aportes 10

Preguntas 3

Ordenar por:

驴Quieres ver m谩s aportes, preguntas y respuestas de la comunidad? Crea una cuenta o inicia sesi贸n.

buenas鈥 si comienzo a usar este servicio (Zeppelin), como serian los cobros al usarlo con AWS ??

recuerden desinstalar todo lo configurado en este demo s3 y demas services AWS no perdona el charging of services y se los carga a su Tarjeta de credito.

Upload RAW data to S3 and setup the data catalog

Tuve inconvenientes cuando los archivos se encuentran en el mismo directorio, de esta manera se creaban las tablas en Glue catalog pero desde Athena me retornaba cero registros.

Para resolverlo, encontr茅 en internet que es buena practica un folder por archivo, volv铆 a ejecutarlo y funcion贸 correctamente

Cada json de origen lo crea como una tabla

El origen de la data en Crawler puede ser, un bucket en S3, una DynamoDB o una conexi贸n tipo JDBC.

Classifier para identificar una estructura particular en nuestra data y la pueda leer de forma adecuada.

Glue Catalog es un catalogo de metadatos persistente, es decir tiene informaci贸n de donde esta la data almacenada y que estructura tiene para que otros servicios mediante ese catalogo puedan acceder a esa informaci贸n.

El Crawling es una tarea que va a ir a nuestro bucket de S3, identifica la data y lo coloca en el Glue catalog

Al pasar un tiempo, han cambiado las pol铆ticas de Amazon y ahora dejan el bucket privado o sin una pol铆tica sin restricci贸n.

No es la mejor soluci贸n, pero si en el bucket de S3 agregan la siguiente policy funcionar谩:

{
    "Version": "2012-10-17",
    "Id": "Policyesv",
    "Statement": [
        {
            "Sid": "Statement1",
            "Effect": "Allow",
            "Principal": "*",
            "Action": "s3:GetObject",
            "Resource": "arn:aws:s3:::origen-platzi-esv/*"
        }
    ]
}

Se dar谩n cuenta si les ocurre el problema cuando ejecutan bajo demanda siguiendo el tutorial de Carlos Zambrano, pero no les actualiza las 6 tablas.

Deben cambiar en la policy en el campo 鈥淩esource鈥 lo que este en 鈥渙rigen-platzi-esv鈥 por el nombre del origen que ustedes hayan colocado.