Bienvenida e introducción al curso

1

Iniciando con Big Data

2

Cloud Computing en proyectos de BigData

3

Introducción al manejo de datos en Cloud

4

Datos en Cloud

5

¿Qué nube debería utilizar en mi proyecto de Big Data?

Arquitecturas

6

Arquitecturas Lambda

7

Arquitectura Kappa

8

Arquitectura Batch

Extracción de información

9

Llevar tu información al cloud

10

Demo - Creando nuestro IDE en la nube con Python - Boto3

11

¿Cómo usar Boto3?

12

API Gateway

13

Storage Gateway

14

Kinesis Data Streams

15

Configuración de Kinesis Data Streams

16

Demo - Despegando Kinesis con Cloudformation

17

Kinesis Firehose

18

Demo - Configuración de Kinesis Firehose

19

Reto - Configurando Kinesis Firehose

20

AWS - MSK

21

Demo - Despliegue de un clúster con MSK

Transformación de Información

22

AWS - Glue

23

Demo - Instalando Apache Zeppelin

24

Creación del Developer Endpoint

25

Demo - Conectando nuestro developer Endpoint a nuestro Zeppelin Edpoint

26

Demo - Creando nuestro primer ETL - Crawling

27

Demo - Creando nuestro primer ETL - Ejecución

28

Demo - Creando nuestro primer ETL - Carga

29

AWS - EMR

30

Demo - Desplegando nuestro primer clúster con EMR

31

Demo - Conectándonos a Apache Zeppelin en EMR

32

Demo- Despliegue automático de EMR con cloudformation

33

AWS - Lambda

34

Ejemplos AWS- Lambda

35

Demo - Creando una lambda para BigData

Carga de Información

36

AWS - Athena

37

Demo - Consultando data con Athena

38

AWS - RedShift

39

Demo - Creando nuestro primer clúster de RedShift

40

AWS - Lake Formation

Consumo de información

41

AWS - ElasticSearch

42

Demo - Creando nuestro primer clúster de ElasticSearch

43

AWS - Kibana

44

AWS - QuickSight

45

Demo - Visualizando nuestra data con QuickSight

Seguridad, Orquestación y Automatización

46

Seguridad en los Datos

47

AWS Macie

48

Demo - Configurando AWS Macie

49

Apache Airflow

50

Demo - Creando nuestro primer clúster en Cloud Composer

51

Arquitectura de referencia

Clase pública

52

¿Qué es Big Data?

Aún no tienes acceso a esta clase

Crea una cuenta y continúa viendo este curso

Curso de Big Data en AWS

Curso de Big Data en AWS

Carlos Andrés Zambrano Barrera

Carlos Andrés Zambrano Barrera

AWS - EMR

29/52
Recursos

Elastic MapReduce o EMR es un clúster en el cual podemos correr cargas muy grandes de trabajo.

  • Estos clusters son instancias de EC2 basadas en Hadoop.
  • Provee interacción con otros servicios de AWS como S3, RedShift, DynamoDB y Kinesis.
  • Contamos con acciones Bootstrap, estos son scripts que se van a ejecutar al iniciar un clúster.
  • Podemos ejecutar de manera ordenada distintos scripts utilizando Step.

Aportes 5

Preguntas 0

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad? Crea una cuenta o inicia sesión.

EMR = Elastic Map Reduce.

Cuando hablemos de EMR, pensemos en un clúster en el cual podemos correr cargas de trabajo muy grandes; es obvio que al ser un clúster tendremos unas instancias dedicadas, mayor administración sobre nuestro clúster y mayor flexibilidad.

EMR es un servicio que nos permite crear clústers que por detrás serán instancias EC2 basadas en Hadoop; en estos clústers podremos ejecutar diferentes cargas de trabajo. Estas cargas de trabajo pueden ser MapReduce, Spark, Pig, Presto, Hive, Impala, Flink, TensorFlow, Zeppelin, diferentes y muchas alternativas de Open Source pueden correr en estos proyectos, y cuando configuremos el clúster podremos seleccionar cuáles de ellos necesitamos.

Este servicio nos provee integraciones con diferentes servicios de AWS como S3, RedShift, DynamoDB y Kinesis.

En el clúster desplegado por este servicio, podemos correr cualquier tipo de tareas basadas en Spark; es decir, podríamos correr los ETLs que hacemos en Glue, pero cambiarían algunas cosas en la configuración debido a que Glue utiliza dynamic frames (son más propios de AWS para manejar Glue) mientras que EMR usa otro concepto que es data frames que es más propio de Spark. Habiendo dicho esto, podríamos también hacer aquí transformaciones, y podríamos conectarnos a Notebooks para consultar nuestra información desde EMR.

Conceptos

  • Bootstrap actions: Al momento de desplegar el clúster, podemos especificar ciertas acciones que necesitemos que se ejecuten al inicio; acciones como ejecuciones de scripts particulares, cambiar los puertos de conexión, o agregarle configuraciones muy personalizadas al clúster. Estas tareas se ejecutan antes de que el clúster esté completamente productivo.
  • Steps: Nos permiten ejecutar nuestras cargas de trabajo en los clústers de EMR de forma ordenada.
  • Clúster: Está compuesto de un Master Node, quien orquestará a los otros Nodes; Core Nodes que se encargan de distribuir la información cuando usamos un sistema de archivos como HDFS (Sistema de archivos distribuido), y Task Nodes que son los encargados del procesamiento.
    <imagen>

Recomendaciones

  • A nivel de instancias, utilizar instancias tipo Spot para los Core Nodes y los Task Nodes.
  • El Master Node no debe ser desplegado en una instancia Spot.

Es así como EMR es un servicio muy importante donde podemos correr cargas de trabajo gigantescas, porque tenemos la libertad de crear las instancias, elegir el tipo y la cantidad.

En situaciones como que en Glue hay un límite de 100 DPUs, pero nuestro job es muy grande, AWS recomienda dividir nuestro job en jobs más pequeños para no consumir tantas DPUs o trabajar con EMR en donde tenemos más capacidad pero nuestra carga de información y nuestra carga administrativa aumentará.

se puede iniciar y apagar el servicio de EMR ? al igual que el EC2? para evitar costos innecesarios.

Elastic MapReduce o EMR es un clúster en el cual podemos correr cargas muy grandes de trabajo.

Estos clusters son instancias de EC2 basadas en Hadoop.
Provee interacción con otros servicios de AWS como S3, RedShift, DynamoDB y Kinesis.
Contamos con acciones Bootstrap, estos son scripts que se van a ejecutar al iniciar un clúster.
Podemos ejecutar de manera ordenada distintos scripts utilizando Step.

es muy potente EMR
Amazon EMR is a web service that makes it easy to process large amounts of data efficiently. Amazon EMR uses Hadoop processing combined with several AWS products to do such tasks as web indexing, data mining, log file analysis, machine learning, scientific simulation, and data warehousing.