AWS Lake Formation automatiza tu data lake

Clase 40 de 52 • Curso de Big Data en AWS

Resumen

Unifica tu estrategia de datos con confianza: Lake Formation promete crear un data lake en días, automatizar tareas complejas y elevar la seguridad y el control de acceso en AWS. Ideal para equipos que necesitan orquestación de ETL, crawling consistente y permisos granulares sin perder velocidad ni trazabilidad.

¿Qué es Lake Formation y por qué acelera tu data lake en AWS?

Este servicio reciente de AWS centraliza y automatiza piezas clave del ecosistema para construir un data lake de forma rápida y sencilla. Integra componentes existentes y elimina fricción operativa para que te concentres en el valor del dato.

Creación del data lake en cuestión de días.
Integración vía JDBC con herramientas de terceros.
Uso de crawlers de Glue para identificar la data origen y crear el Glue Catalog.
Orquestación de ETL y tareas de crawling adicionales.
Limpieza de datos apoyada en machine learning con la funcionalidad llamada “Phint Match”.
Optimización de particiones en S3 para acelerar lecturas sobre datos de origen o transformados.

¿Cómo organiza el ecosistema y la seguridad de datos?

La propuesta combina descubrimiento, transformación y seguridad en un único flujo. Así, no solo reduce tiempos de implementación, también mejora el rendimiento operativo y la gobernanza.

Seguridad nativa con KMS: cifrado usando llaves administradas por AWS en consultas y procesos.
Permisos granulares superiores a Athena: además de base de datos y tabla, permite restringir por columna o campo.
Control de owners: quien crea el lake puede ocultarlo incluso frente a otros usuarios con privilegios altos.
Auditoría con CloudTrail: registro de todas las acciones de usuario mediante llamadas a la API.
Fuentes soportadas: bases de datos relacionales, no relacionales y almacenamiento de objetos en S3.

Puntos clave que impactan el rendimiento y la gobernanza:

Optimización de particiones de S3: reduce tiempos de lectura y costos asociados a escaneo.
Crawling y catálogo unificados: menos errores al identificar esquemas y más consistencia con el Glue Catalog.
Limpieza con machine learning: “Phint Match” mejora la calidad y reduce tiempos de procesamiento.

¿Cómo impulsa analítica e insights con EMR y Redshift?

Lake Formation habilita una capa de insights que se integra con EMR y Redshift para ejecutar analítica de forma segura y gobernada. La consulta entra, el servicio orquesta permisos, genera llaves temporales, ejecuta y retorna resultados al motor correspondiente.

Integración nativa para ejecutar consultas desde EMR o Redshift.
Descubrimiento de data relevante mediante técnicas de machine learning.
Consumo por usuarios y herramientas a través de la capa gestionada del data lake.
Esquema de cobro: pago por el uso de los servicios subyacentes integrados; el servicio como tal no tiene “pricing” propio.
Estado actual: se encuentra en preview y será lanzado próximamente por AWS.

Beneficios prácticos para equipos de datos:

Menos carga operativa: automatización del pipeline de punta a punta.
Mejor seguridad: cifrado y acceso por columna.
Mayor visibilidad: auditoría completa con CloudTrail.
Más velocidad: particiones optimizadas en S3 y limpieza eficiente.
Integración abierta: JDBC para herramientas de terceros.

¿Te gustaría comentar cómo aplicarías estas capacidades en tu organización o qué integraciones necesitas priorizar?

Juan David Cajamarca Acuña

student•

AWS Lake Formation es un servicio que nos ayuda facilitándonos las tareas de transformación (identificación de información, transformación de información, control de acceso y seguridad) a nuestro Data Lake, y permite adicionalmente integración con otros servicios de AWS.

La promesa principal de este servicio es reducir las cargas y el tiempo de administración de nuestros Data Lakes dentro de AWS.

Características

Facilita y permite la creación de un Data Lake en cuestión de días con muy buena seguridad; es decir, integra diferentes servicios del ecosistema de AWS para crear un Data Lake de una forma muy fácil y muy rápida.
Tiene integración con diferentes fuentes, hasta On-Premise utilizando JDBC.
Identifica los orígenes y crea las tablas basado en su estructura (ejecutando Crawlers); es decir, este servicio nos ayuda a Crawlear la información con los Crawlers de Glue, identificar la información origen y crear el Glue Catalog.
Aparte de identificar la información origen, nos ayuda con los ETLs; es decir, este servicio nos ayuda a orquestar el Crawling, el ETL y si luego necesitamos más Crawling, nos ayudará con ello.
Limpia y elimina información duplicada utilizando una herramienta de Machine Learning llamada FindMatch, la cual, también optimiza y mejora el rendimiento y tiempo de limpieza.
Optimiza las particiones de S3 para consultar más eficientemente la información.
Cifrado automático de la información en S3 utilizando SSE-KMS.
En cuanto a accesos, tenemos mayor granularidad que en Athena, al tener control de permisos por usuarios por bases de datos, tablas, columnas y campos.
A nivel de auditoría, tiene integración nativa con CloudTrail, que es un servicio de AWS que registra todas las llamadas a la API.
El cobro de Lake Formation es por cada uno de los servicios integrados a él (Crawling, ETL, Data Catalog, Security Settings & Access Control); Lake Formation como tal no tiene pricing.

Funcionalidades

Owners: Se pueden designar Data Owners para controlar permisos por usuarios.
Discover: Nos ayuda a descubrir información relevante para implementar análisis utilizando Machine Learning.
Insights: Podemos utilizar este servicio e integrarlo nativamente con EMR y RedShift para ejecutar analíticas sobre estos datos.

Ruben Vazquez Almanza

student•

Ya está disponible el servicio para quien esté interesado, justo estoy por desarrollar un proyecto https://aws.amazon.com/blogs/aws/aws-lake-formation-now-generally-available/

Darvin Orozco

student•

Interesante, gracias por avisar. ¿Sobre qué tratará tu proyecto? Puedes contarnos más detalles? Gracias.

Mario Alexander Vargas Celis

student•

AWS Lake Formation es un servicio que facilita la creación, seguridad y administración de un Data Lake en AWS. Permite centralizar datos desde varias fuentes, establecer controles de acceso detallados y consultarlos mediante servicios como AWS Glue, Athena y Redshift Spectrum.

🚀 Pasos para Configurar AWS Lake Formation

1️⃣ Habilitar Lake Formation

Ve a la consola de AWS Lake Formation.
Haz clic en "Get started".
Selecciona la cuenta de administración del Data Lake.
Configura los permisos iniciales para el administrador de datos.

2️⃣ Configurar la Fuente de Datos

Puedes agregar datos desde:

S3 Buckets → Si tienes datos en S3, debes registrar el bucket en Lake Formation.
Bases de datos → Puedes conectar bases de datos como RDS o Redshift.

📌 Pasos para registrar un bucket S3

Entra a "Data lake locations" en Lake Formation.
Haz clic en "Register location".
Selecciona el bucket de S3 donde están los datos.
Asigna permisos para acceder a los datos.
Guarda los cambios.

3️⃣ Definir Permisos de Seguridad y Gobernanza

Lake Formation permite un control detallado sobre quién accede a qué datos.

📌 Configurar permisos en tablas y bases de datos

Ve a "Permissions" → "Grant".
Selecciona el usuario o rol de IAM que necesita acceso.
Define qué permisos dar (Ej: SELECT, INSERT, DELETE).
Guarda los cambios.

También puedes definir enmascaramiento de datos, reglas de acceso condicionales y auditorías.

4️⃣ Crear un Catálogo de Datos con AWS Glue

Lake Formation usa AWS Glue para catalogar los datos.

📌 Configurar un Crawler en AWS Glue

Ve a AWS Glue → "Crawlers".
Crea un nuevo Crawler y selecciona el bucket S3 con los datos.
Define un rol de IAM con permisos para leer S3.
Ejecuta el Crawler para descubrir esquemas y crear el catálogo.

5️⃣ Consultar Datos con Athena o Redshift Spectrum

Una vez que los datos están catalogados, puedes consultarlos:

📌 Consultar datos con Athena

Ve a AWS Athena.
Selecciona la base de datos creada en Lake Formation.
Ejecuta consultas SQL para explorar los datos.

📌 Consultar datos con Redshift Spectrum

Configura un clúster de Amazon Redshift.
Crea una tabla externa en Redshift Spectrum apuntando al catálogo de Lake Formation.
Consulta los datos con SQL.

🔥 Beneficios de AWS Lake Formation

✅ Centralización de datos en un Data Lake seguro. ✅ Gestión avanzada de accesos y permisos. ✅ Integración con servicios de análisis como Athena, Redshift, Glue y EMR. ✅ Facilidad para importar y transformar datos desde múltiples fuentes.

Juan Nishiguchi Mendoza

company_admin•

Servicio altamente prometedor para mucha gestión de seguridad, data prep, etl y reducir las cargas

Usuario anónimo

user•

Este servicio aún no se encuentra disponible al público, pero cuenta con grandes características:

Facilita y permite la creación de data lake en cuestión de días. Tiene integración con diferentes fuentes usando JDBC. Va a ejecutar Crawlers. Te va a ayudar con los ETL. Limpia y elimina data duplicada utilizando FindMatch. Optimiza las particiones de S3. Control de permisos por usuario por bases de datos, tablas y columnas. Se puede asignar data owners para control de permisos. Analytics desde otros servicios como EMR y RedShift.

Usuario anónimo

user•

Lake formation: Automatizar tareas. La verdad suena demasiado bueno el servicio.

Facilitar las tareas de source, etl, data catalog, seguridad, y control de acceso

john ct

student•

AWS LAke formation pertenece ala categoria de ANalytics> AWS Lake Formation is a managed service that makes it easy to set up, secure, and manage your data lakes. Lake Formation helps you discover your data sources and catalog, cleanse, and transform the data. You can use Lake Formation to secure and ingest the data in an Amazon Simple Storage Service (Amazon S3) data lake.

john ct

student•

Blueprint A blueprint is a data management template that enables you to easily ingest data into a data lake. Lake Formation provides several blueprints, each for a predefined source type, such as a relational database or AWS CloudTrail logs. From a blueprint, you can create a workflow. Workflows consist of AWS Glue crawlers, jobs, and triggers that are generated to orchestrate the loading and update of data. Blueprints take the data source, data target, and schedule as input to configure the workflow.

john ct

student•

AWS Lake Formation makes it easier for you to build, secure, and manage data lakes. Lake Formation helps you do the following, either directly or through other AWS services:

Orchestrate data flows that ingest, cleanse, transform, and organize the raw data.

Create and manage a Data Catalog containing metadata about data sources and data in the data lake.

Define granular data access policies to the metadata and data through a grant/revoke permissions model.

john ct

student•

Data lake administrators are initially the only AWS Identity and Access Management (IAM) users or roles that can grant Lake Formation permissions on data locations and Data Catalog resources to any principal (including self). For more information about data lake administrator capabilities, see Implicit Lake Formation Permissions.

You can create a data lake administrator using the Lake Formation console or the PutDataLakeSettings operation of the Lake Formation API.

The following permissions are required to create a data lake administrator. The Administrator IAM user has these permissions implicitly.

lakeformation:PutDataLakeSettings

lakeformation:GetDataLakeSettings

Milton Garcia

student•

• Facilita y permite la creación de un data lake en días con muy buena seguridad. • Tiene integración con diferentes fuentes, hasta On-premise usando JDBC. • Identifica los orígenes y crea las tablas basado en su estructura (Crawlers). • ETL: Después de hacer el Crawl, se encarga de orquestar el ETL en Glue para transformar la data. • Clean: Limpia y elimina data duplicada utilizando Machine Learning llamado FindMatch. • Optimización: Optimiza las particiones de S3 para consultar más eficientemente la data. • Seguridad: Cifrado automático de la data en S3 utilizando SSE-KMS. • Acceso: Control de permisos por usuarios por bases de datos, tablas y columnas • Auditoría: Logging a nivel de auditoría registrados en Cloudtrail. • Owners: Se pueden designar data owners para controlar permisos por usuarios. • Discover: Descubre data relevante para implementar análisis. • Insights: Analytics desde otros servicios como EMR y RedShift.

Ivan Acosta

student•

Nuevos Feaures de Lake Formation. Consulte aquí

AWS Lake Formation automatiza tu data lake

Bienvenida e introducción al curso

Big Data en la Nube: Análisis, Transformación y Seguridad

Big Data en Cloud desde origen a visualización

Por qué big data en cloud es más eficiente

Extracción vs ingesta en proyectos big data

Comparativa de AWS y GCP para proyectos BigData

Arquitecturas

Arquitectura Lambda: 3 capas para datos en tiempo real

Arquitectura capa: el tiempo real como ventaja

Cómo funciona la arquitectura batch

Extracción de información

Cómo mover datos a cloud con SDK y CLI

Python y boto3 para listar buckets S3

Boto3: inicializar clients de AWS en Python

API Gateway como puerta de big data

Storage Gateway: puerta entre on-premise y S3

AWS Kinesis: streaming masivo de datos

Cómo crear Kinesis Data Stream en AWS

Despliegue automatizado de Kinesis con CloudFormation

Cómo Kinesis Firehose entrega datos en tiempo real

Configuración de Kinesis Firehose en AWS

Configuración Básica de Amazon Kinesis Firehose en AWS

MSK vs Kinesis: cuál elegir en AWS

Creación de clúster AWS MSK desde la consola

Transformación de Información

Cómo AWS Glue transforma datos en la nube

Instalación de Apache Zeppelin paso a paso

Configurar developer endpoint de AWS Glue con Zeppelin

Conexión de Apache Zeppelin con AWS

Configurar AWS Glue Crawler para poblar catálogo

Configuración de Developer Endpoint en AWS Glue

Cómo configurar AWS Glue ETL desde S3 a Parquet

Qué es EMR y cuándo usarlo

Crear tu primer cluster de AWS EMR

Conectar Apache Zeppelin a EMR

EMR automatizado con CloudFormation

AWS Lambda para proyectos de big data

Lambdas en big data: real time y batch

Configuración de AWS Lambda para Big Data

Carga de Información

Cómo Athena consulta datos en S3 con SQL

Cómo funciona AWS Athena con S3

Redshift vs Athena: cuándo usar cada uno

Configuración de cluster Redshift en AWS