Bienvenida e introducción al curso

1

Iniciando con Big Data

2

Cloud Computing en proyectos de BigData

3

Introducción al manejo de datos en Cloud

4

Datos en Cloud

5

¿Qué nube debería utilizar en mi proyecto de Big Data?

Arquitecturas

6

Arquitecturas Lambda

7

Arquitectura Kappa

8

Arquitectura Batch

Extracción de información

9

Llevar tu información al cloud

10

Demo - Creando nuestro IDE en la nube con Python - Boto3

11

¿Cómo usar Boto3?

12

API Gateway

13

Storage Gateway

14

Kinesis Data Streams

15

Configuración de Kinesis Data Streams

16

Demo - Despegando Kinesis con Cloudformation

17

Kinesis Firehose

18

Demo - Configuración de Kinesis Firehose

19

Reto - Configurando Kinesis Firehose

20

AWS - MSK

21

Demo - Despliegue de un clúster con MSK

Transformación de Información

22

AWS - Glue

23

Demo - Instalando Apache Zeppelin

24

Creación del Developer Endpoint

25

Demo - Conectando nuestro developer Endpoint a nuestro Zeppelin Edpoint

26

Demo - Creando nuestro primer ETL - Crawling

27

Demo - Creando nuestro primer ETL - Ejecución

28

Demo - Creando nuestro primer ETL - Carga

29

AWS - EMR

30

Demo - Desplegando nuestro primer clúster con EMR

31

Demo - Conectándonos a Apache Zeppelin en EMR

32

Demo- Despliegue automático de EMR con cloudformation

33

AWS - Lambda

34

Ejemplos AWS- Lambda

35

Demo - Creando una lambda para BigData

Carga de Información

36

AWS - Athena

37

Demo - Consultando data con Athena

38

AWS - RedShift

39

Demo - Creando nuestro primer clúster de RedShift

40

AWS - Lake Formation

Consumo de información

41

AWS - ElasticSearch

42

Demo - Creando nuestro primer clúster de ElasticSearch

43

AWS - Kibana

44

AWS - QuickSight

45

Demo - Visualizando nuestra data con QuickSight

Seguridad, Orquestación y Automatización

46

Seguridad en los Datos

47

AWS Macie

48

Demo - Configurando AWS Macie

49

Apache Airflow

50

Demo - Creando nuestro primer clúster en Cloud Composer

51

Arquitectura de referencia

Clase pública

52

¿Qué es Big Data?

No tienes acceso a esta clase

¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera

Curso de Big Data en AWS

Curso de Big Data en AWS

Carlos Andrés Zambrano Barrera

Carlos Andrés Zambrano Barrera

AWS - Lake Formation

40/52
Recursos

Este servicio aún no se encuentra disponible al público, pero cuenta con grandes características:

  • Facilita y permite la creación de data lake en cuestión de días.
  • Tiene integración con diferentes fuentes usando JDBC.
  • Va a ejecutar Crawlers.
  • Te va a ayudar con los ETL.
  • Limpia y elimina data duplicada utilizando FindMatch.
  • Optimiza las particiones de S3.
  • Control de permisos por usuario por bases de datos, tablas y columnas.
  • Se puede asignar data owners para control de permisos.
  • Analytics desde otros servicios como EMR y RedShift.

Aportes 8

Preguntas 0

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad?

AWS Lake Formation es un servicio que nos ayuda facilitándonos las tareas de transformación (identificación de información, transformación de información, control de acceso y seguridad) a nuestro Data Lake, y permite adicionalmente integración con otros servicios de AWS.

La promesa principal de este servicio es reducir las cargas y el tiempo de administración de nuestros Data Lakes dentro de AWS.

Características

  • Facilita y permite la creación de un Data Lake en cuestión de días con muy buena seguridad; es decir, integra diferentes servicios del ecosistema de AWS para crear un Data Lake de una forma muy fácil y muy rápida.
  • Tiene integración con diferentes fuentes, hasta On-Premise utilizando JDBC.
  • Identifica los orígenes y crea las tablas basado en su estructura (ejecutando Crawlers); es decir, este servicio nos ayuda a Crawlear la información con los Crawlers de Glue, identificar la información origen y crear el Glue Catalog.
  • Aparte de identificar la información origen, nos ayuda con los ETLs; es decir, este servicio nos ayuda a orquestar el Crawling, el ETL y si luego necesitamos más Crawling, nos ayudará con ello.
  • Limpia y elimina información duplicada utilizando una herramienta de Machine Learning llamada FindMatch, la cual, también optimiza y mejora el rendimiento y tiempo de limpieza.
  • Optimiza las particiones de S3 para consultar más eficientemente la información.
  • Cifrado automático de la información en S3 utilizando SSE-KMS.
  • En cuanto a accesos, tenemos mayor granularidad que en Athena, al tener control de permisos por usuarios por bases de datos, tablas, columnas y campos.
  • A nivel de auditoría, tiene integración nativa con CloudTrail, que es un servicio de AWS que registra todas las llamadas a la API.
  • El cobro de Lake Formation es por cada uno de los servicios integrados a él (Crawling, ETL, Data Catalog, Security Settings & Access Control); Lake Formation como tal no tiene pricing.

Funcionalidades

  • Owners: Se pueden designar Data Owners para controlar permisos por usuarios.
  • Discover: Nos ayuda a descubrir información relevante para implementar análisis utilizando Machine Learning.
  • Insights: Podemos utilizar este servicio e integrarlo nativamente con EMR y RedShift para ejecutar analíticas sobre estos datos.

Ya está disponible el servicio para quien esté interesado, justo estoy por desarrollar un proyecto
https://aws.amazon.com/blogs/aws/aws-lake-formation-now-generally-available/

Servicio altamente prometedor para mucha gestión de seguridad, data prep, etl y reducir las cargas

Este servicio aún no se encuentra disponible al público, pero cuenta con grandes características:

Facilita y permite la creación de data lake en cuestión de días.
Tiene integración con diferentes fuentes usando JDBC.
Va a ejecutar Crawlers.
Te va a ayudar con los ETL.
Limpia y elimina data duplicada utilizando FindMatch.
Optimiza las particiones de S3.
Control de permisos por usuario por bases de datos, tablas y columnas.
Se puede asignar data owners para control de permisos.
Analytics desde otros servicios como EMR y RedShift.

AWS LAke formation pertenece ala categoria de ANalytics>
AWS Lake Formation is a managed service that makes it easy to set up, secure, and manage your data lakes. Lake Formation helps you discover your data sources and catalog, cleanse, and transform the data. You can use Lake Formation to secure and ingest the data in an Amazon Simple Storage Service (Amazon S3) data lake.

Data lake administrators are initially the only AWS Identity and Access Management (IAM) users or roles that can grant Lake Formation permissions on data locations and Data Catalog resources to any principal (including self). For more information about data lake administrator capabilities, see Implicit Lake Formation Permissions.

You can create a data lake administrator using the Lake Formation console or the PutDataLakeSettings operation of the Lake Formation API.

The following permissions are required to create a data lake administrator. The Administrator IAM user has these permissions implicitly.

lakeformation:PutDataLakeSettings

lakeformation:GetDataLakeSettings

• Facilita y permite la creación de un data lake en días con muy buena seguridad.
• Tiene integración con diferentes fuentes, hasta On-premise usando JDBC.
• Identifica los orígenes y crea las tablas basado en su estructura (Crawlers).
• ETL: Después de hacer el Crawl, se encarga de orquestar el ETL en Glue para transformar la data.
• Clean: Limpia y elimina data duplicada utilizando Machine Learning llamado FindMatch.
• Optimización: Optimiza las particiones de S3 para consultar más eficientemente la data.
• Seguridad: Cifrado automático de la data en S3 utilizando SSE-KMS.
• Acceso: Control de permisos por usuarios por bases de datos, tablas y columnas
• Auditoría: Logging a nivel de auditoría registrados en Cloudtrail.
• Owners: Se pueden designar data owners para controlar permisos por usuarios.
• Discover: Descubre data relevante para implementar análisis.
• Insights: Analytics desde otros servicios como EMR y RedShift.

Nuevos Feaures de Lake Formation. Consulte aquí