AWS Lake Formation es un servicio que nos ayuda facilitándonos las tareas de transformación (identificación de información, transformación de información, control de acceso y seguridad) a nuestro Data Lake, y permite adicionalmente integración con otros servicios de AWS.
La promesa principal de este servicio es reducir las cargas y el tiempo de administración de nuestros Data Lakes dentro de AWS.
CaracterÃsticas
- Facilita y permite la creación de un Data Lake en cuestión de dÃas con muy buena seguridad; es decir, integra diferentes servicios del ecosistema de AWS para crear un Data Lake de una forma muy fácil y muy rápida.
- Tiene integración con diferentes fuentes, hasta On-Premise utilizando JDBC.
- Identifica los orÃgenes y crea las tablas basado en su estructura (ejecutando Crawlers); es decir, este servicio nos ayuda a Crawlear la información con los Crawlers de Glue, identificar la información origen y crear el Glue Catalog.
- Aparte de identificar la información origen, nos ayuda con los ETLs; es decir, este servicio nos ayuda a orquestar el Crawling, el ETL y si luego necesitamos más Crawling, nos ayudará con ello.
- Limpia y elimina información duplicada utilizando una herramienta de Machine Learning llamada FindMatch, la cual, también optimiza y mejora el rendimiento y tiempo de limpieza.
- Optimiza las particiones de S3 para consultar más eficientemente la información.
- Cifrado automático de la información en S3 utilizando SSE-KMS.
- En cuanto a accesos, tenemos mayor granularidad que en Athena, al tener control de permisos por usuarios por bases de datos, tablas, columnas y campos.
- A nivel de auditorÃa, tiene integración nativa con CloudTrail, que es un servicio de AWS que registra todas las llamadas a la API.
- El cobro de Lake Formation es por cada uno de los servicios integrados a él (Crawling, ETL, Data Catalog, Security Settings & Access Control); Lake Formation como tal no tiene pricing.
Funcionalidades
- Owners: Se pueden designar Data Owners para controlar permisos por usuarios.
- Discover: Nos ayuda a descubrir información relevante para implementar análisis utilizando Machine Learning.
- Insights: Podemos utilizar este servicio e integrarlo nativamente con EMR y RedShift para ejecutar analÃticas sobre estos datos.
¿Quieres ver más aportes, preguntas y respuestas de la comunidad?