AWS Lake Formation automatiza tu data lake

Curso de Big Data en AWS

Contenido del curso

Bienvenida e introducción al curso

Arquitecturas

Extracción de información

Transformación de Información

Carga de Información

Consumo de información

Seguridad, Orquestación y Automatización

Clase pública

52
Las cinco B de big data explicadas
01:44 min

Tomar examen

AWS Lake Formation automatiza tu data lake

Resumen

Unifica tu estrategia de datos con confianza: Lake Formation promete crear un data lake en días, automatizar tareas complejas y elevar la seguridad y el control de acceso en AWS. Ideal para equipos que necesitan orquestación de ETL, crawling consistente y permisos granulares sin perder velocidad ni trazabilidad.

¿Qué es Lake Formation y por qué acelera tu data lake en AWS?

Este servicio reciente de AWS centraliza y automatiza piezas clave del ecosistema para construir un data lake de forma rápida y sencilla. Integra componentes existentes y elimina fricción operativa para que te concentres en el valor del dato.

Creación del data lake en cuestión de días.
Integración vía JDBC con herramientas de terceros.
Uso de crawlers de Glue para identificar la data origen y crear el Glue Catalog.
Orquestación de ETL y tareas de crawling adicionales.
Limpieza de datos apoyada en machine learning con la funcionalidad llamada “Phint Match”.
Optimización de particiones en S3 para acelerar lecturas sobre datos de origen o transformados.

¿Cómo organiza el ecosistema y la seguridad de datos?

La propuesta combina descubrimiento, transformación y seguridad en un único flujo. Así, no solo reduce tiempos de implementación, también mejora el rendimiento operativo y la gobernanza.

Seguridad nativa con KMS: cifrado usando llaves administradas por AWS en consultas y procesos.
Permisos granulares superiores a Athena: además de base de datos y tabla, permite restringir por columna o campo.
Control de owners: quien crea el lake puede ocultarlo incluso frente a otros usuarios con privilegios altos.
Auditoría con CloudTrail: registro de todas las acciones de usuario mediante llamadas a la API.
Fuentes soportadas: bases de datos relacionales, no relacionales y almacenamiento de objetos en S3.

Puntos clave que impactan el rendimiento y la gobernanza:

Optimización de particiones de S3: reduce tiempos de lectura y costos asociados a escaneo.
Crawling y catálogo unificados: menos errores al identificar esquemas y más consistencia con el Glue Catalog.
Limpieza con machine learning: “Phint Match” mejora la calidad y reduce tiempos de procesamiento.

¿Cómo impulsa analítica e insights con EMR y Redshift?

Lake Formation habilita una capa de insights que se integra con EMR y Redshift para ejecutar analítica de forma segura y gobernada. La consulta entra, el servicio orquesta permisos, genera llaves temporales, ejecuta y retorna resultados al motor correspondiente.

Integración nativa para ejecutar consultas desde EMR o Redshift.
Descubrimiento de data relevante mediante técnicas de machine learning.
Consumo por usuarios y herramientas a través de la capa gestionada del data lake.
Esquema de cobro: pago por el uso de los servicios subyacentes integrados; el servicio como tal no tiene “pricing” propio.
Estado actual: se encuentra en preview y será lanzado próximamente por AWS.

Beneficios prácticos para equipos de datos:

Menos carga operativa: automatización del pipeline de punta a punta.
Mejor seguridad: cifrado y acceso por columna.
Mayor visibilidad: auditoría completa con CloudTrail.
Más velocidad: particiones optimizadas en S3 y limpieza eficiente.
Integración abierta: JDBC para herramientas de terceros.

¿Te gustaría comentar cómo aplicarías estas capacidades en tu organización o qué integraciones necesitas priorizar?

Mario Alexander Vargas Celis

Estudiante

AWS Lake Formation es un servicio que facilita la creación, seguridad y administración de un Data Lake en AWS. Permite centralizar datos desde varias fuentes, establecer controles de acceso detallados y consultarlos mediante servicios como AWS Glue, Athena y Redshift Spectrum.

🚀 Pasos para Configurar AWS Lake Formation

1️⃣ Habilitar Lake Formation

Ve a la consola de AWS Lake Formation.
Haz clic en "Get started".
Selecciona la cuenta de administración del Data Lake.
Configura los permisos iniciales para el administrador de datos.

2️⃣ Configurar la Fuente de Datos

Puedes agregar datos desde:

S3 Buckets → Si tienes datos en S3, debes registrar el bucket en Lake Formation.
Bases de datos → Puedes conectar bases de datos como RDS o Redshift.

📌 Pasos para registrar un bucket S3

Entra a "Data lake locations" en Lake Formation.
Haz clic en "Register location".
Selecciona el bucket de S3 donde están los datos.
Asigna permisos para acceder a los datos.
Guarda los cambios.

3️⃣ Definir Permisos de Seguridad y Gobernanza

Lake Formation permite un control detallado sobre quién accede a qué datos.

📌 Configurar permisos en tablas y bases de datos

Ve a "Permissions" → "Grant".
Selecciona el usuario o rol de IAM que necesita acceso.
Define qué permisos dar (Ej: SELECT, INSERT, DELETE).
Guarda los cambios.

También puedes definir enmascaramiento de datos, reglas de acceso condicionales y auditorías.

4️⃣ Crear un Catálogo de Datos con AWS Glue

Lake Formation usa AWS Glue para catalogar los datos.

📌 Configurar un Crawler en AWS Glue

Ve a AWS Glue → "Crawlers".
Crea un nuevo Crawler y selecciona el bucket S3 con los datos.
Define un rol de IAM con permisos para leer S3.
Ejecuta el Crawler para descubrir esquemas y crear el catálogo.

5️⃣ Consultar Datos con Athena o Redshift Spectrum

Una vez que los datos están catalogados, puedes consultarlos:

📌 Consultar datos con Athena

Ve a AWS Athena.
Selecciona la base de datos creada en Lake Formation.
Ejecuta consultas SQL para explorar los datos.

📌 Consultar datos con Redshift Spectrum

Configura un clúster de Amazon Redshift.
Crea una tabla externa en Redshift Spectrum apuntando al catálogo de Lake Formation.
Consulta los datos con SQL.

🔥 Beneficios de AWS Lake Formation

✅ Centralización de datos en un Data Lake seguro. ✅ Gestión avanzada de accesos y permisos. ✅ Integración con servicios de análisis como Athena, Redshift, Glue y EMR. ✅ Facilidad para importar y transformar datos desde múltiples fuentes.

AWS Lake Formation automatiza tu data lake

Bienvenida e introducción al curso

Big Data en la Nube: Análisis, Transformación y Seguridad

Big Data en Cloud desde origen a visualización

Por qué big data en cloud es más eficiente

Extracción vs ingesta en proyectos big data

Comparativa de AWS y GCP para proyectos BigData

Arquitecturas

Arquitectura Lambda: 3 capas para datos en tiempo real

Arquitectura capa: el tiempo real como ventaja

Cómo funciona la arquitectura batch

Extracción de información

Cómo mover datos a cloud con SDK y CLI

Python y boto3 para listar buckets S3

Boto3: inicializar clients de AWS en Python

API Gateway como puerta de big data

Storage Gateway: puerta entre on-premise y S3

AWS Kinesis: streaming masivo de datos

Cómo crear Kinesis Data Stream en AWS

Despliegue automatizado de Kinesis con CloudFormation

Cómo Kinesis Firehose entrega datos en tiempo real

Configuración de Kinesis Firehose en AWS

Configuración Básica de Amazon Kinesis Firehose en AWS

MSK vs Kinesis: cuál elegir en AWS

Creación de clúster AWS MSK desde la consola

Transformación de Información

Cómo AWS Glue transforma datos en la nube

Instalación de Apache Zeppelin paso a paso

Configurar developer endpoint de AWS Glue con Zeppelin

Conexión de Apache Zeppelin con AWS

Configurar AWS Glue Crawler para poblar catálogo

Configuración de Developer Endpoint en AWS Glue

Cómo configurar AWS Glue ETL desde S3 a Parquet

Qué es EMR y cuándo usarlo

Crear tu primer cluster de AWS EMR

Conectar Apache Zeppelin a EMR

EMR automatizado con CloudFormation

AWS Lambda para proyectos de big data

Lambdas en big data: real time y batch

Configuración de AWS Lambda para Big Data

Carga de Información

Cómo Athena consulta datos en S3 con SQL

Cómo funciona AWS Athena con S3

Redshift vs Athena: cuándo usar cada uno

Configuración de cluster Redshift en AWS