Arquitecturas Data Lake y Delta Lake en Big Data

Clase 19 de 25 • Curso de Databricks: Arquitectura Delta Lake

Resumen

¿Qué son las arquitecturas Data Lake y Delta Lake?

Las arquitecturas Data Lake y Delta Lake se han convertido en pilares fundamentales en el mundo del Big Data, permitiendo la gestión y almacenamiento eficiente de grandes volúmenes de datos. En el contexto de este curso práctico, aprenderemos a implementar desde cero todas las capas necesarias para una arquitectura de Delta Lake.

¿Cómo se estructura una arquitectura Data Lake?

La arquitectura Data Lake se compone de tres capas principales. Cada una tiene su propósito específico y contribuye al procesamiento eficiente de los datos:

Capa de Landing (Zona de Aterrizaje): Aquí se almacenan los datos en un formato de texto plano, conocido como RAW. Esta fase representa el punto de entrada donde los conectores ingieren datos desde diversos orígenes externos.
Capa de Universal: En esta capa, los datos son transformados y almacenados en formato Parquet. Se le llama también zona de limpieza y modelado de datos, donde se realiza la binarización de los datos para un almacenamiento más eficiente.
Capa de Solution: Los datos transformados y listos para el uso de negocio se guardan nuevamente en formato Parquet en esta última capa. Aquí es donde las personas de negocio pueden acceder directamente a los datos ya procesados.

¿Cuáles son las diferencias entre Data Lake y Delta Lake?

A pesar de su similitud estructural, Delta Lake se diferencia notablemente de Data Lake en varios aspectos:

Terminología de las capas: Mientras que Data Lake utiliza names como Landing, Universal y Solution, Delta Lake adopta los nombres de Bronze, Silver y Gold.
Formato de almacenamiento: Una de las grandes diferencias es el formato de almacenamiento de datos. Delta Lake mejora los conceptos de Data Lake al utilizar el formato Delta en sus capas Silver y Gold, que permite actualizaciones de registros, una funcionalidad no disponible en el formato Parquet.
Compatibilidad con Big Data: Aunque el formato Delta ofrece beneficios adicionales, aún no es compatible con todas las herramientas de Big Data disponibles, algo que limita su uso en ciertos entornos. A pesar de esta limitación, Delta Lake es cada vez más popular gracias a sus capacidades avanzadas.

Ventajas del formato Delta sobre Parquet

Tanto Parquet como Delta son formatos binarios, lo que facilita una lectura y consumo rápidos, ideales para entornos Big Data. Sin embargo, Delta va un paso más allá:

Actualización de Registros: La capacidad de realizar actualizaciones directas en los registros es una ventaja clave del formato Delta.
Evolución y Mejora: Mientras que Parquet es ampliamente utilizado y considerado un estándar en la industria, Delta avanza al brindar funcionalidades mejoradas para la gestión de datos.

De este modo, aunque Parquet es una opción establecida, Delta Lake es cada vez más la elección preferida en nuevos proyectos que buscan mayor flexibilidad y funcionalidad.

¿Cómo empezar con Delta Lake?

Para quienes deseen profundizar en Delta Lake y sus beneficios, se recomienda la práctica directa a través de proyectos realistas. Considera estos pasos para comenzar:

Familiarizarse con el Formato Delta: Comprender las características y ventajas del formato Delta es crucial. Busca material detallado sobre sus particularidades.
Pruebas Prácticas: Implementar una arquitectura de Delta Lake desde cero en un entorno de prueba te permitirá experimentar de primera mano los beneficios de este sistema.
Participación Activa en la Comunidad: Leer, comentar y compartir experiencias en foros y comunidades en línea dedicadas a Delta Lake pueden proporcionar insights valiosos.

Con el aumento continuo de la popularidad del Delta Lake y sus ventajas sobre los formatos tradicionales, adentrarse en su implementación y uso puede abrir nuevas oportunidades en el ámbito del Big Data. ¡Sigue explorando y no dudes en sumergirte en esta fascinante área!

Alexis Medina

student•

Esta fue una pregunta que me hicieron en una entrevista. Tenganlo en cuenta

Layla Scheli

teacher•

Gracias Alexis por tu aportacion :)

Flavio César Sandoval Muñoz

student•

Acá existe un problema con la conceptualización de delta y parquet debido a que son cosas diferentes no se pueden comparar

Delta es un formato de tabla Parquet es un formato de almacenamiento

Delta no es un formato binario por qué no es un formato de almacenamiento, existen varias inconsistencias en la explicación

Delta es una capa de metadatos centralizados son convenciones para guardar tablas, pero los datos siguen siendo guardados en parquet, por poner una analogía parquet es la gasolina mientras que delta es el tanque que almacena la gasolina

Daniel Eduardo Portugal Revilla

student•

completamente deacuerdo, existen muchos errores en este video.

Víctor Alejandro Regueira Romero

student•

A mi sucedió un caso en el que no pude conectar lo que tenia almacenado en mi delta-lake con powerbi, por lo que tuve que utilizar otro tipo de archivos. Para mi solución funcionó un csv.

JHONATAN DAVID RESTREPO HENAO

student•

PowerBI lo he usado con formatos parquet. Gracias por el aporte.

Layla Scheli

teacher•

Gracias por la info chicos :)

Mario Alexander Vargas Celis

student•

Arquitectura Data Lake vs Delta Lake

Data Lake:

Definición: Un Data Lake es un repositorio centralizado para almacenar grandes volúmenes de datos estructurados, semi-estructurados y no estructurados a gran escala. No requiere un esquema previo, permitiendo que los datos se carguen en bruto.
Características:
- Esquema opcional: Los datos pueden ingresar en cualquier formato sin necesidad de un esquema definido inicialmente.
- Flexibilidad: Ideal para almacenar grandes cantidades de datos variados.
- Desventajas: Falta de rendimiento en consultas masivas o transformaciones complejas, ya que no se optimiza el almacenamiento.
Ejemplo: Amazon S3, Azure Data Lake, Google Cloud Storage.

Delta Lake:

Definición: Delta Lake es una solución de almacenamiento que combina las ventajas de un Data Lake con las capacidades de un almacenamiento optimizado y altamente eficiente. Es un formato de datos abierto, compatible con Spark, que permite operaciones ACID (Atomicidad, Consistencia, Aislamiento, Durabilidad).
Características:
- Optimización: Delta Lake ofrece una mejor optimización de las operaciones mediante el uso de metadata, almacenamiento optimizado y eliminación de duplicados.
- Transacciones ACID: Soporte para operaciones seguras y consistentes, con rollback de transacciones.
- Integración con Spark: Compatible con Apache Spark, permitiendo procesamiento rápido y eficiente.
- Historial de datos: Soporte para la evolución del esquema con control de versiones y registros de cambios.
Ventajas:
- Rendimiento mejorado en consultas y transformaciones.
- Optimización de almacenamiento a través de particiones y eliminación de archivos innecesarios.
- Alta seguridad y gestión del acceso a datos.
Ejemplo: Delta Lake en Databricks o en servicios compatibles como Azure Synapse y Google Cloud BigLake.

Comparación:

Data Lake es una solución genérica de almacenamiento de datos, mientras que Delta Lake agrega capacidades avanzadas de optimización, versionamiento, y transacciones.

JHONATAN DAVID RESTREPO HENAO

student•

Parquet, que está diseñado principalmente para datos de solo lectura, Delta permite actualizaciones y eliminaciones de datos. Esto es crucial para mantener la calidad y actualidad de los datos.

Layla Scheli

teacher•

Efectivamente :)

Gerardo Mayel Fernández Alamilla

student•

Un Delta Lake utiliza también Parquet, pero, le agrega metadata, es decir, información adicional sobre los datos contenidos en el parque file, por ejemplo

Layla Scheli

teacher•

Hola Gerardo, un Deltalake, se basa en el formato, Delta el cual es una mejora de Parquet, por lo tanto indirectamente claro que se basa en eso :)

Un saludo!

Juan Pablo Izquierdo Clavijo

student•

Adicional a eso, permite la actualización de los registros. La única desventaja, siendo hoy en día ya muy popular delta como formato, es que todavía no es compatible con el 100% de entornos y tecnologías existentes.

Jose Daniel Alvear Acevedo

student•

Delta Lake se diseñó para respaldar y mejorar el uso de data lakes, que contienen grandes cantidades de datos estructurados y no estructurados. Los delta lake ayudan a preservar la integridad de los datos originales sin sacrificar el rendimiento y la agilidad necesarios para las aplicaciones.

¿Como opera un Delta Lake?

Trabaja creando una capa adicional de abstracción entre los datos sin procesar y los motores de procesamiento; divide los datos en lotes y luego agrega transacciones ACID sobre los lotes.

Layla Scheli

teacher•

Gracias Jose, por tus palabras :) Enhorabuena!

Daniel Eduardo Portugal Revilla

student•

Existe muchos errores en este video. Otro error es que se refiere a Bronze, Silver, volg como una arquitectura DeltaLake o DataLake cuando esto es la arquitectura Medallion.

DeltaLake no es una arquitectura, es un framework de almacenamiento para lecturas ACID de los .parquet.

Delta no es un formato mucho menos binario, es un registro de logs.

En Bronze no se almacena en texto plano. ya se almacena en tablas delta. Landing es formato crudo.

Jesús David Vega Porras

student•

El quiz previo esta fallando, pregunta por detalles sobre "imagenes" o hace preguntar referenciando a algun ejemplo cuando no aparece nada para referenciar a la otra de responder

rogelio cortez

student•

¿Cuándo usar cada uno?

✅ Usar Data Lake si:

Solo necesitas almacenar datos sin transformaciones.
No requieres control de versiones o transacciones ACID.
Buscas una solución económica y flexible.

✅ Usar Delta Lake si:

Necesitas transacciones seguras y control de versiones.
Trabajas con datos en tiempo real o ETL avanzados.
Quieres mejorar el rendimiento y la confiabilidad del Data Lake.

🔥 Conclusión: Delta Lake es una mejora sobre un Data Lake, agregando transacciones ACID, control de versiones y optimización.

Arquitecturas Data Lake y Delta Lake en Big Data

Fundamentos del Data Management con Databricks

Gestión Avanzada de Big Data con Databricks y Delta Lake

Fundamentos de Databricks para Big Data y Machine Learning

Arquitectura de Clústeres en Databricks: Procesamiento y Almacenamiento

Uso de Apache Spark en Big Data: Procesamiento y Análisis

Administración y Gestion de la Plataforma de Databricks

Creación y Configuración de Clúster en Databricks

Gestión de Datos y Notebooks en Databricks File System

Transformaciones y Acciones en Apache Spark

Conceptos básicos de RDDs en Apache Spark

Creación y Transformaciones de RDDs en Databricks

Acciones en Apache Spark: Uso y Ejemplos Prácticos

Lectura de Datos en Apache Spark con Databricks

Exploración de SparkUI en Databricks: Monitorización y Configuración

Instalación de Librerías en Databricks paso a paso

Alternativas para Trabajar con Apache Spark: Local vs. Nube

Apache Spark SQL y UDF

Lectura y escritura de DataFrames en Apache Spark

Comandos en Apache Spark SQL: Uso Práctico y Ejemplos

Consultas y Filtrado Avanzado con Spark SQL

Creación y Uso de Funciones UDF en Apache Spark

Implementacion de un Delta Lake en Databricks

Arquitecturas Data Lake y Delta Lake en Big Data

Delta Lake: Almacenamiento y Gestión de Datos en Big Data

Arquitectura Medallion en Data Lake House: Capas Bronze, Silver y Gold

Comandos Esenciales para Databricks File System (DBFS)

Implementación de arquitectura Delta Lake en Databricks

Arquitectura Delta Lake: Creación de Capas Bronce, Silver y Gold

Gestión de Datos Avanzada con Databricks y Delta Lake