Data Warehouse, Data Lake y Data Lakehouse: ¿Cuál utilizar?

Clase 6 de 26 • Curso de Data Warehousing y Modelado OLAP

Contenido del curso

Introducción a BI y Data Warehouse

Modelos dimensionales

ETL para inserción en Data Warehouse

Cierre

26
Reflexiones y cierre
01:19 min

Tomar examen

Resumen

Comprender cómo almacenar y consumir datos es fundamental para cualquier profesional que trabaje con información empresarial. Los tres grandes modelos de almacenamiento —data warehouse, data lake y data lake house— resuelven necesidades distintas y conocer sus diferencias te permitirá elegir la arquitectura correcta según el tipo de dato, los usuarios y el análisis que necesites realizar.

¿Qué es un data warehouse y qué tipo de datos almacena?

El data warehouse es un repositorio centralizado diseñado para almacenar información estructurada [0:22]. Esto significa que los datos provienen de bases de datos, archivos planos u otras fuentes con un formato claro de columnas y filas. Antes de cargar la información, se construye un modelo dimensional con tablas de hechos y dimensiones, y se ejecutan procesos de ETL (Extract, Transform, Load) para limpiar y transformar los datos.

Gracias a esa limpieza previa, la calidad del dato en un data warehouse es alta [4:02]. Está orientado principalmente a usuarios de negocio: personas que toman decisiones, analizan tendencias y consumen la información a través de dashboards.

¿Qué diferencia al data lake del data warehouse?

El data lake amplía las posibilidades de almacenamiento al aceptar datos estructurados, no estructurados y semiestructurados [0:44]. Imágenes, videos, información de dispositivos IoT, redes sociales o resultados de web scraping pueden almacenarse sin necesidad de definir un esquema previo.

¿Cómo funciona un data lake en la práctica?

Piensa en una carpeta de almacenamiento en la nube. En entornos profesionales se utilizan buckets como AWS S3 o Azure Blob Storage [2:22]. Los archivos llegan en su formato original, sin transformación, y herramientas especializadas de cada proveedor cloud permiten consultarlos directamente.

No requiere construir un esquema antes de la ingesta de datos [3:30].
La calidad del dato puede ser menor en las primeras etapas, pero se mejora con procesos posteriores [4:18].
Se pasa de un modelo ETL a un modelo ELT (Extract, Load, Transform), donde primero se almacena y luego se transforma [4:48].

¿A quién está dirigido el data lake?

A diferencia del data warehouse, el data lake está orientado a analistas de tecnología y científicos de datos [5:07]. Estos perfiles buscan patrones ocultos en los datos y aplican técnicas de análisis de sentimiento, ciencia de datos y machine learning [5:30].

¿Qué es el data lake house y por qué combina lo mejor de ambos?

El data lake house surge como la combinación de las fortalezas de los dos modelos anteriores [5:46]. Permite leer información estructurada, no estructurada y semiestructurada, mantener calidad de datos como en un data warehouse y, al mismo tiempo, ofrecer la flexibilidad de un data lake.

El data warehouse queda incorporado dentro del data lake [6:30].
Se pueden usar herramientas de AWS o Azure para consultar archivos directamente.
Está orientado a ambos perfiles: usuarios de negocio y analistas técnicos.
Elimina las limitaciones que cada modelo tiene por separado.

En resumen visual, el data warehouse consume datos estructurados mediante ETLs y los presenta en dashboards. El data lake almacena datos crudos de cualquier formato y permite consultas con herramientas especializadas o lenguaje natural. El data lake house integra ambos mundos, ofreciendo calidad y versatilidad en un solo lugar.

Si trabajas con datos o estás definiendo la arquitectura de información de tu organización, reflexiona sobre qué tipo de datos manejas y qué análisis necesitas. Eso te dará la respuesta sobre cuál de estos tres modelos se ajusta mejor a tu caso. ¿Ya has trabajado con alguno de ellos? Comparte tu experiencia en los comentarios.

Comentarios

Miguel Andres Castro Bocarejo

student•

Un resumen de la clase:

- Data Warehouse

Repositorio que alberga datos estructurados (es decir con una estructura clara y definida) a través de un proceso de ETL y los disponibiliza para hacer minería de datos, reportes y analítica.
Está optimizado para analizar datos con estructuras predefinidas y que dicha estructura ayude que esos datos se vuelvan una "fuente única de la verdad".
Es comunmente usado por los Business Analysts.

- Data Lake

Repositorio de datos estructurados (Se cargan desde el Data Warehouse con un proceso de ETL), semi-estructurados y no-estructurados que pueden ser facilmente consultados luego de algún tratamiento en los datos dependiendo de la necesidad de la consulta.
Se pueden almacenar datos facilmente sin necesidad de una estructura previa y pueden ser usados por Data Scientists/Engineers y Data Analysts.

- Data Lakehouse

Es lo mejor del Data Warehouse (Los datos estructurados no requieren un proceso de ETL previo) y del Data Lake.
Permite consumir los datos almacenados allí rápidamente con diferente propósitos como BI, reportes, Data Science y ML.

Carlos Eduardo Bracho Rosales

student•

Es buena idea repasar la clase de los conceptos base de ETL antes de iniciar este modulo.

Liu Gabriel Monge Fonseca

student•

Muchas gracias, no entendía que era ETL, ahora entiendo que es el proceso de Extraer, Cargar, Transformar y Analizar datos

Krizia Arias

student•

ojo que cuando va a mencionar los schema del datawarehouse dice datalake y no datawarehouse.

tener en cuenta que datawarehouse debe tener estructura para ser ejecutado y el datalake no necesita ninguna estructura para ser ejecutado.

Adrian Castillo Ramírez

student•

Para crear un Data Lakehouse, puedes utilizar herramientas en la nube como AWS con servicios como Amazon S3 para almacenar datos en bruto, junto con Amazon Redshift para la consulta. También puedes integrar herramientas de ETL como Apache Spark o AWS Glue para transformar y cargar datos. Otra opción es Databricks, que permite construir y gestionar un Data Lakehouse de manera más sencilla. Estas herramientas combinan las ventajas de un Data Lake y un Data Warehouse, permitiendo el análisis tanto de datos estructurados como no estructurados.

Shirley Jannette Rosas Guadarrama

student•

Entiendo que un Data Lake almacena información indiscriminadamente, o sea desde archivos de texto (datos estructurados), hasta imágenes y videos (datos no estructurados) y yo pensé que también almacenaba archivos de texto no estructurados, es decir, sin tratamiento "Datos crudos" como dicen coloquialmente. Pero entonces, para los datos estructurados, ¿Es necesario primero llevar acabo el proceso de ETL antes de almacenarlos en un Data Lake? ¿O puedo almacenarlos sin procesar?

Andrey Mena

student•

Entiendo que a partir de la información limpia de un data warehouse se pueden realizar también análisis predictivos, machine learning, data discovery y profilling. Hay alguna razón por la que no se muestra en el cuadro de data warehouse? Significa únicamente que es más común realizar este tipo de análisis desde un Data Lake?

Gracias de antemano

Edison Javier Yepes Sanchez

teacher•

El cuadro tal vez no destaque las capacidades en el contexto de un DWH debido a su enfoque principal en la arquitectura y el almacenamiento de datos. Sin embargo, la analítica avanzada se pueden realizar tanto en un data warehouse como en un Data Lake, dependiendo de las necesidades y los recursos disponibles.

Andrey Mena

student•

Muchas gracias por la aclaración @edison.yepes!

Mario Alexander Vargas Celis

student•

La elección entre Data Warehouse, Data Lake y Data Lakehouse depende de los requisitos específicos del negocio y los tipos de datos que se manejan. A continuación te explico en qué se diferencian y cuándo podría ser más adecuado utilizar cada uno:

1. Data Warehouse (DW)

Propósito: Un Data Warehouse es un sistema de almacenamiento de datos estructurados que está optimizado para la consulta y el análisis de grandes volúmenes de datos transaccionales. Los datos en un DW suelen estar transformados y limpiados antes de ser cargados.
Características:
- Almacena datos estructurados (tablas, registros).
- Utiliza procesos ETL (Extracción, Transformación y Carga) para integrar datos de diversas fuentes.
- Es ideal para realizar análisis histórico y consultas complejas.
Cuándo usarlo:
- Si tienes datos bien definidos y estructurados.
- Necesitas informes y análisis consistentes a lo largo del tiempo (como ventas, finanzas, KPIs).
- El rendimiento en consultas analíticas rápidas y complejas es clave.

2. Data Lake

Propósito: Un Data Lake es un repositorio que puede almacenar datos sin procesar en su forma original. Puede contener datos estructurados, semi-estructurados (JSON, XML) y no estructurados (archivos de texto, imágenes, videos).
Características:
- Almacena datos en su formato original (sin necesidad de transformación).
- Es más económico en términos de almacenamiento masivo.
- Ideal para big data y análisis exploratorios, ya que permite almacenar grandes volúmenes de datos sin preocuparse por su forma.
Cuándo usarlo:
- Si necesitas almacenar datos de diferentes fuentes y tipos.
- Tienes grandes volúmenes de datos, incluyendo datos no estructurados.
- Quieres realizar análisis de datos sin un esquema predefinido, como análisis de logs, datos de IoT o datos de redes sociales.

3. Data Lakehouse

Propósito: El Data Lakehouse combina las ventajas de un Data Lake y un Data Warehouse. Es un enfoque híbrido que ofrece la flexibilidad de almacenar datos en su forma cruda, como un Data Lake, pero también proporciona la estructura necesaria para consultas analíticas, similar a un Data Warehouse.
Características:
- Almacena tanto datos estructurados como no estructurados.
- Compatibilidad con SQL y soporte para análisis en tiempo real, lo que lo hace adecuado para BI tradicional.
- Combina esquemas de datos en el almacenamiento de datos no procesados, lo que permite realizar análisis complejos sin perder la flexibilidad de los datos crudos.
Cuándo usarlo:
- Si deseas almacenar tanto datos estructurados como no estructurados en un solo lugar.
- Necesitas las capacidades de un Data Warehouse (como rendimiento en consultas analíticas) pero sin perder la flexibilidad de un Data Lake.
- Buscas una solución unificada para análisis, machine learning, e inteligencia empresarial.

¿Cuál utilizar?

Si tus datos son principalmente estructurados, y necesitas análisis consistentes y rápidos, un Data Warehouse es la mejor opción.
Si trabajas con grandes volúmenes de datos sin procesar o necesitas almacenar datos no estructurados, un Data Lake es la opción adecuada.
Si deseas lo mejor de ambos mundos, un Data Lakehouse puede ser la opción perfecta, ya que combina la flexibilidad de los Data Lakes con las capacidades analíticas de los Data Warehouses.

Resumen:

Data Warehouse: Ideal para datos estructurados y análisis tradicional.
Data Lake: Mejor para grandes volúmenes de datos variados y no estructurados.
Data Lakehouse: Combina lo mejor de ambos, permitiendo almacenar datos crudos y estructurados con capacidades analíticas robustas.

La elección depende de tus necesidades de almacenamiento y análisis de datos.

Samuel Burelos Jeronimo

student•

DATA WAREHOUSE

El DWH se utiliza ya cuando se va a estructurar la información para hacer una única fuente de verdad.

DATA LAKE El data Lake funciona como un almacén para todo tipo de información que se recibe en crudo, después se puede hacer un proceso de limpieza para mejorar la calidad de los datos, sin embargo, los datos para que tengan sentido se tienen que pasar a una Data WareHouse.

Daniel Guardia

student•

A veces creo que el profe es hecho con IA

Edith Montes Polanco

student•

Qué tal, una duda para el siguiente caso de uso: Si mi origen de datos es únicamente de bases de datos transaccionales y dado que el mayor problema es realizar consultas (reportes) a dichas bases de datos debido a su exponencial tamaño (se reciben hasta 50 millones de transacciones diarias) …¿Lo conveniente en este caso sería implementar un data lake? NOTA: Entiendo que sería obvio pensar sólo en un data warehouse dado que en este sólo se cargaría información ya "procesada" para facilitar los reportes. Sin embargo, el requisito adicional es poder obtener reportes con ++todo el detalle de dichas transacciones++ por lo que no creo conveniente cargar a un data warehouse toda la información tal cual como se encuentran en las bases de datos transaccionales sino tener la información cruda en s3 para dichos reportes detallados y de aquí ir generando el modelo en el data warehouse para reportes más globales...¿qué opinan?

Nicolás Muriel

student•

Hola,

Te hablaré desde mi experiencia, este tema de data warehousing vs data lake ha estado en auge en los ultimos años porque el costo de computacion en la nube ha disminuido muchisimo, una vision muy tradicional te diria que si, que lo correcto seria enviar al DWH solo los datos agregados, sin embargo, empresas como gitlab han desplegado datawarehouse empresariales en snowflake con un detalle atomico de granularidad (al nivel de transaccion), esta es la forma en la cual trabaje en Rappi, un grupo de data warehouses con millones y millones de registros, esto es posible porque Snowflake te cobra muy poco por almacenamiento, 40 usd x TB, por lo tanto el DWH en muchas empresas se convirtio en una especie de data lake relacional.

Si tienes unicamente bases de datos transaccionales, el modelo MAS EFICIENTE seria un data lakehouse, es la arquitectura mas moderna, sin embargo, requiere mucha mas configuracion que un simple data warehouse para que la transferencia de datos entre el data lake y el data warehouse sea optima.

En AWS seria algo como, cargar los datos a S3, y montar un catalogo en Glue de tus tablas y datos, en Redshift, utilizar Redshift Spectrum que es la integracion nativa entre S3 y Redshift para realizar queries de datos del S3 (data lake), esta incluso la opcion de realizar el modelado dimensional utilizando herramientas como dbt, esto lo construimos en mi anterior trabajo.

Te recomiendo realizar ajustes para tener en cuenta para 'reporting' unicamente datos relevantes, por ejemplo supongo los datos de los 2 ultimos años son relevantes, sin embargo datos de hace 10 años no lo son.....

Norberto Iván Tolaba

student•

Ahora se me aclaró el tema de Data Lake, súper. Vi en una entrevista para Data Engineering que hicieron está pregunta y veo que es esencial saberlo

Bryan Carvajal

student•

Data Warehouse, Data Lake y Data Lakehouse: ¿Cuál utilizar?

Introducción a BI y Data Warehouse

¿Qué es BI y Data Warehousing?

Niveles de analítica y jerarquía del conocimiento

Conceptos de BI: Data Warehouse, Data Mart, Dimensiones y Hechos

Base de datos OLTP vs. OLAP

Metodologías de Data Warehouse

Modelos dimensionales