Bienvenida e introducción al curso

1

Iniciando con Big Data

2

Cloud Computing en proyectos de BigData

3

Introducción al manejo de datos en Cloud

4

Datos en Cloud

5

¿Qué nube debería utilizar en mi proyecto de Big Data?

Arquitecturas

6

Arquitecturas Lambda

7

Arquitectura Kappa

8

Arquitectura Batch

Extracción de información

9

Llevar tu información al cloud

10

Demo - Creando nuestro IDE en la nube con Python - Boto3

11

¿Cómo usar Boto3?

12

API Gateway

13

Storage Gateway

14

Kinesis Data Streams

15

Configuración de Kinesis Data Streams

16

Demo - Despegando Kinesis con Cloudformation

17

Kinesis Firehose

18

Demo - Configuración de Kinesis Firehose

19

Reto - Configurando Kinesis Firehose

20

AWS - MSK

21

Demo - Despliegue de un clúster con MSK

Transformación de Información

22

AWS - Glue

23

Demo - Instalando Apache Zeppelin

24

Creación del Developer Endpoint

25

Demo - Conectando nuestro developer Endpoint a nuestro Zeppelin Edpoint

26

Demo - Creando nuestro primer ETL - Crawling

27

Demo - Creando nuestro primer ETL - Ejecución

28

Demo - Creando nuestro primer ETL - Carga

29

AWS - EMR

30

Demo - Desplegando nuestro primer clúster con EMR

31

Demo - Conectándonos a Apache Zeppelin en EMR

32

Demo- Despliegue automático de EMR con cloudformation

33

AWS - Lambda

34

Ejemplos AWS- Lambda

35

Demo - Creando una lambda para BigData

Carga de Información

36

AWS - Athena

37

Demo - Consultando data con Athena

38

AWS - RedShift

39

Demo - Creando nuestro primer clúster de RedShift

40

AWS - Lake Formation

Consumo de información

41

AWS - ElasticSearch

42

Demo - Creando nuestro primer clúster de ElasticSearch

43

AWS - Kibana

44

AWS - QuickSight

45

Demo - Visualizando nuestra data con QuickSight

Seguridad, Orquestación y Automatización

46

Seguridad en los Datos

47

AWS Macie

48

Demo - Configurando AWS Macie

49

Apache Airflow

50

Demo - Creando nuestro primer clúster en Cloud Composer

51

Arquitectura de referencia

Clase pública

52

¿Qué es Big Data?

No tienes acceso a esta clase

¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera

Curso de Big Data en AWS

Curso de Big Data en AWS

Carlos Andrés Zambrano Barrera

Carlos Andrés Zambrano Barrera

Datos en Cloud

4/52
Recursos

Hay algunos puntos importantes que debemos tener en cuenta al momento de manejar nuestra data en un servicio en la nube:

  • Debemos seleccionar el servicio que mejor se ajuste a nuestras necesidades de almacenamiento.
  • Lo primero que debemos hacer es extraer de otras fuentes la información que vamos a necesitar.
  • Debemos validar nuestra información, verificar que sea consistente.
  • Verificar los tipos de datos que vamos a extraer.
  • Al momento de realizar pruebas a nuestra información debemos utilizar un subset de la data.

Aportes 9

Preguntas 3

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad?

En los diferentes Cloud Providers y en los diferentes servicios que tenemos a nuestra disposición para almacenar información, tenemos una variedad muy grande; por lo cual, debemos tener en cuenta:

  • Almacenamiento: Debemos seleccionar el mejor servicio que se ajuste a nuestro proyecto.
  • Extracción: Desde el Cloud Provider, nos conectarnos a las distintas fuentes de información y extraemos datos.
  • Ingesta: Podemos hacer que una fuente de datos alimente el Cloud, donde previamente debemos escoger servicios que reciban dicha información para posteriormente procesarla.
  • Validación: Esta es la validación de la información. Debemos proporcionar algunas características bien definidas y unas garantías para que esa información sea precisa y consistente (debemos garantizar la consistencia de la información).
  • Verificación: En esta fase debemos verificar los distintos tipos de datos; debemos enfocarnos en el tipo de dato, su exactitud y que no tenga inconsistencias.
  • Tests: Usualmente en este tipo de proyectos, en donde procesamos grandes masas (volúmenes gigantezcos) de información, siempre debemos hacer pruebas sobre un subset de toda la información, tomando un porcentaje de la información, en donde verificamos que nuestro sistema y arquitectura esté trabajando de la forma correcta: transformando bien, extrayendo bien la información, una visualización correcta, etc.

Una forma muy clara y eficiente de explicar. Gracias.

Si tenemos data sensible no se podrá llevar tan fácilmente a Cloud, como ejemplo tenemos Ley de Protección de Datos (una de los tantas leyes que existen actualmente)

Gracias por explicar de forma tan clara.

video pls…

Debemos seleccionar el servicio que mejor se ajuste a nuestras necesidades de almacenamiento.
Lo primero que debemos hacer es extraer de otras fuentes la información que vamos a necesitar.
Debemos validar nuestra información, verificar que sea consistente.
Verificar los tipos de datos que vamos a extraer.
Al momento de realizar pruebas a nuestra información debemos utilizar un subset de la data.

Excelente explicación, los procesos que siguen los datos, extracción, verificación y validación

Es muy bueno ahora poder tener a la mano tantas tecnologías y sin tener que comprar todo el servidor

Entender cual de los servicios nos va a servir en nuestro proyecto o simulacion