AWS Lake Formation automatiza tu data lake
Clase 40 de 52 • Curso de Big Data en AWS
Contenido del curso
Arquitecturas
Extracción de información
- 9

Cómo mover datos a cloud con SDK y CLI
02:21 min - 10

Python y boto3 para listar buckets S3
10:16 min - 11

Boto3: inicializar clients de AWS en Python
03:56 min - 12

API Gateway como puerta de big data
03:40 min - 13

Storage Gateway: puerta entre on-premise y S3
03:13 min - 14

AWS Kinesis: streaming masivo de datos
05:53 min - 15

Cómo crear Kinesis Data Stream en AWS
06:50 min - 16

Despliegue automatizado de Kinesis con CloudFormation
10:42 min - 17

Cómo Kinesis Firehose entrega datos en tiempo real
03:27 min - 18

Configuración de Kinesis Firehose en AWS
05:45 min - 19
Configuración Básica de Amazon Kinesis Firehose en AWS
02:53 min - 20

MSK vs Kinesis: cuál elegir en AWS
03:42 min - 21

Creación de clúster AWS MSK desde la consola
07:21 min
Transformación de Información
- 22

Cómo AWS Glue transforma datos en la nube
06:33 min - 23

Instalación de Apache Zeppelin paso a paso
04:49 min - 24

Configurar developer endpoint de AWS Glue con Zeppelin
05:38 min - 25

Conexión de Apache Zeppelin con AWS
08:29 min - 26

Configurar AWS Glue Crawler para poblar catálogo
08:15 min - 27

Configuración de Developer Endpoint en AWS Glue
08:00 min - 28

Cómo configurar AWS Glue ETL desde S3 a Parquet
10:23 min - 29

Qué es EMR y cuándo usarlo
05:30 min - 30

Crear tu primer cluster de AWS EMR
09:01 min - 31

Conectar Apache Zeppelin a EMR
03:18 min - 32

EMR automatizado con CloudFormation
06:32 min - 33

AWS Lambda para proyectos de big data
07:02 min - 34

Lambdas en big data: real time y batch
04:54 min - 35

Configuración de AWS Lambda para Big Data
07:16 min
Carga de Información
Consumo de información
Seguridad, Orquestación y Automatización
Clase pública
Unifica tu estrategia de datos con confianza: Lake Formation promete crear un data lake en días, automatizar tareas complejas y elevar la seguridad y el control de acceso en AWS. Ideal para equipos que necesitan orquestación de ETL, crawling consistente y permisos granulares sin perder velocidad ni trazabilidad.
¿Qué es Lake Formation y por qué acelera tu data lake en AWS?
Este servicio reciente de AWS centraliza y automatiza piezas clave del ecosistema para construir un data lake de forma rápida y sencilla. Integra componentes existentes y elimina fricción operativa para que te concentres en el valor del dato.
- Creación del data lake en cuestión de días.
- Integración vía JDBC con herramientas de terceros.
- Uso de crawlers de Glue para identificar la data origen y crear el Glue Catalog.
- Orquestación de ETL y tareas de crawling adicionales.
- Limpieza de datos apoyada en machine learning con la funcionalidad llamada “Phint Match”.
- Optimización de particiones en S3 para acelerar lecturas sobre datos de origen o transformados.
¿Cómo organiza el ecosistema y la seguridad de datos?
La propuesta combina descubrimiento, transformación y seguridad en un único flujo. Así, no solo reduce tiempos de implementación, también mejora el rendimiento operativo y la gobernanza.
- Seguridad nativa con KMS: cifrado usando llaves administradas por AWS en consultas y procesos.
- Permisos granulares superiores a Athena: además de base de datos y tabla, permite restringir por columna o campo.
- Control de owners: quien crea el lake puede ocultarlo incluso frente a otros usuarios con privilegios altos.
- Auditoría con CloudTrail: registro de todas las acciones de usuario mediante llamadas a la API.
- Fuentes soportadas: bases de datos relacionales, no relacionales y almacenamiento de objetos en S3.
Puntos clave que impactan el rendimiento y la gobernanza:
- Optimización de particiones de S3: reduce tiempos de lectura y costos asociados a escaneo.
- Crawling y catálogo unificados: menos errores al identificar esquemas y más consistencia con el Glue Catalog.
- Limpieza con machine learning: “Phint Match” mejora la calidad y reduce tiempos de procesamiento.
¿Cómo impulsa analítica e insights con EMR y Redshift?
Lake Formation habilita una capa de insights que se integra con EMR y Redshift para ejecutar analítica de forma segura y gobernada. La consulta entra, el servicio orquesta permisos, genera llaves temporales, ejecuta y retorna resultados al motor correspondiente.
- Integración nativa para ejecutar consultas desde EMR o Redshift.
- Descubrimiento de data relevante mediante técnicas de machine learning.
- Consumo por usuarios y herramientas a través de la capa gestionada del data lake.
- Esquema de cobro: pago por el uso de los servicios subyacentes integrados; el servicio como tal no tiene “pricing” propio.
- Estado actual: se encuentra en preview y será lanzado próximamente por AWS.
Beneficios prácticos para equipos de datos:
- Menos carga operativa: automatización del pipeline de punta a punta.
- Mejor seguridad: cifrado y acceso por columna.
- Mayor visibilidad: auditoría completa con CloudTrail.
- Más velocidad: particiones optimizadas en S3 y limpieza eficiente.
- Integración abierta: JDBC para herramientas de terceros.
¿Te gustaría comentar cómo aplicarías estas capacidades en tu organización o qué integraciones necesitas priorizar?