Bienvenida e introducci贸n al curso

1

Iniciando con Big Data

2

Cloud Computing en proyectos de BigData

3

Introducci贸n al manejo de datos en Cloud

4

Datos en Cloud

5

驴Qu茅 nube deber铆a utilizar en mi proyecto de Big Data?

Arquitecturas

6

Arquitecturas Lambda

7

Arquitectura Kappa

8

Arquitectura Batch

Extracci贸n de informaci贸n

9

Llevar tu informaci贸n al cloud

10

Demo - Creando nuestro IDE en la nube con Python - Boto3

11

驴C贸mo usar Boto3?

12

API Gateway

13

Storage Gateway

14

Kinesis Data Streams

15

Configuraci贸n de Kinesis Data Streams

16

Demo - Despegando Kinesis con Cloudformation

17

Kinesis Firehose

18

Demo - Configuraci贸n de Kinesis Firehose

19

Reto - Configurando Kinesis Firehose

20

AWS - MSK

21

Demo - Despliegue de un cl煤ster con MSK

Transformaci贸n de Informaci贸n

22

AWS - Glue

23

Demo - Instalando Apache Zeppelin

24

Creaci贸n del Developer Endpoint

25

Demo - Conectando nuestro developer Endpoint a nuestro Zeppelin Edpoint

26

Demo - Creando nuestro primer ETL - Crawling

27

Demo - Creando nuestro primer ETL - Ejecuci贸n

28

Demo - Creando nuestro primer ETL - Carga

29

AWS - EMR

30

Demo - Desplegando nuestro primer cl煤ster con EMR

31

Demo - Conect谩ndonos a Apache Zeppelin en EMR

32

Demo- Despliegue autom谩tico de EMR con cloudformation

33

AWS - Lambda

34

Ejemplos AWS- Lambda

35

Demo - Creando una lambda para BigData

Carga de Informaci贸n

36

AWS - Athena

37

Demo - Consultando data con Athena

38

AWS - RedShift

39

Demo - Creando nuestro primer cl煤ster de RedShift

40

AWS - Lake Formation

Consumo de informaci贸n

41

AWS - ElasticSearch

42

Demo - Creando nuestro primer cl煤ster de ElasticSearch

43

AWS - Kibana

44

AWS - QuickSight

45

Demo - Visualizando nuestra data con QuickSight

Seguridad, Orquestaci贸n y Automatizaci贸n

46

Seguridad en los Datos

47

AWS Macie

48

Demo - Configurando AWS Macie

49

Apache Airflow

50

Demo - Creando nuestro primer cl煤ster en Cloud Composer

51

Arquitectura de referencia

Clase p煤blica

52

驴Qu茅 es Big Data?

No tienes acceso a esta clase

隆Contin煤a aprendiendo! 脷nete y comienza a potenciar tu carrera

Curso de Big Data en AWS

Curso de Big Data en AWS

Carlos Andr茅s Zambrano Barrera

Carlos Andr茅s Zambrano Barrera

AWS - Glue

22/52
Recursos

Dentro de este m贸dulo vamos a ver las herramientas que proporciona la nube de AWS para poder transformar nuestra data.

Algunas caracter铆sticas de Glue:

  • Servicio totalmente administrado para implementar ETL (Extract, Transform, Load).
  • Provee un contexto para trabajar basados en Python, Spark y Scala.
  • Se encarga de crear cat谩logos de metadatos para que otros servicios puedan consultar la informaci贸n.
  • Utiliza unidades de procesamiento llamadas DPU equivalente a 4 vCPU y 16GB RAM.
  • Los Crawler van a escanear e identificar la informaci贸n para ponerla en el cat谩logo.
  • Los Classifier van a clasificar la data para ponerla en el cat谩logo.

Aportes 10

Preguntas 2

Ordenar por:

驴Quieres ver m谩s aportes, preguntas y respuestas de la comunidad?

o inicia sesi贸n.

Algunas caracter铆sticas de Glue:

Servicio totalmente administrado para implementar ETL (Extract, Transform, Load).
Provee un contexto para trabajar basados en Python, Spark y Scala.
Se encarga de crear cat谩logos de metadatos para que otros servicios puedan consultar la informaci贸n.
Utiliza unidades de procesamiento llamadas DPU equivalente a 4 vCPU y 16GB RAM.
Los Crawler van a escanear e identificar la informaci贸n para ponerla en el cat谩logo.
Los Classifier van a clasificar la data para ponerla en el cat谩logo.

La nueva funcionalidad de Glue para medir calidad de datos 鈥淒ata Quality鈥 es una buena opcion cuando no se puede pagar herramientas costosas.

Glue lo vamos a usar cuando queremos hacer transformaci贸n de la informaci贸n. Glue organiza la informaci贸n cruda en tablas.

Dentro de este m贸dulo vamos a ver las herramientas que proporciona la nube de AWS para poder transformar nuestra data.

Hola, es posible dejar disponible un mismo Glue Catalog para distintas cuentas de AWS ?

AWS Glue is a fully managed ETL (extract, transform, and load) service that makes it simple and cost-effective to categorize your data, clean it, enrich it, and move it reliably between various data stores. AWS Glue consists of a central data repository known as the AWS Glue Data Catalog, an ETL engine that automatically generates Python code, and a flexible scheduler that handles dependency resolution, job monitoring, and retries. AWS Glue is serverless, so there鈥檚 no infrastructure to set up or manage. Use the AWS Glue console to discover your data, transform it, and make it available for search and querying. You can also use the AWS Glue API operations to interface with AWS Glue

AWS Glue is designed to work with semi-structured data. It introduces a component called a dynamic frame, which you can use in your ETL scripts. A dynamic frame is similar to an Apache Spark dataframe, which is a data abstraction used to organize data into rows and columns, except that each record is self-describing so no schema is required initially. With dynamic frames, you get schema flexibility and a set of advanced transformations specifically designed for dynamic frames. You can convert between dynamic frames and Spark dataframes, so that you can take advantage of both AWS Glue and Spark transformations to do the kinds of analysis that you want.

Cuando usar Glue?
AWS Glue simplifies many tasks when you are building a data warehouse or data lake:

Discovers and catalogs metadata about your data stores into a central catalog. You can process semi-structured data, such as clickstream or process logs.

Populates the AWS Glue Data Catalog with table definitions from scheduled crawler programs. Crawlers call classifier logic to infer the schema, format, and data types of your data. This metadata is stored as tables in the AWS Glue Data Catalog and used in the authoring process of your ETL jobs.

Generates ETL scripts to transform, flatten, and enrich your data from source to target.

Detects schema changes and adapts based on your preferences.

Triggers your ETL jobs based on a schedule or event. You can initiate jobs automatically to move your data into your data warehouse or data lake. Triggers can be used to create a dependency flow between jobs.

Gathers runtime metrics to monitor the activities of your data warehouse or data lake.

Handles errors and retries automatically.

Scales resources, as needed, to run your jobs.

Un tool m谩s dentro del abanico de opciones de servicios administrados que tiene AWS.! Excelente.

Servicios administrados de AWS.