Data Warehouse, Data Lake y Lakehouse

Curso de Data Warehousing y Modelado OLAP

Contenido del curso

No sé dónde empezar

Introducción a BI y Data Warehouse

Modelos dimensionales

ETL para inserción en Data Warehouse

Cierre

26
De datos crudos a modelo dimensional listo
01:18 min

Tomar examen

Data Warehouse, Data Lake y Lakehouse

Resumen

¿Sabes cuál es la diferencia entre data warehouse, data lake y data lakehouse? Cada uno resuelve un problema distinto al almacenar información en una compañía, y elegir bien define qué tan rápido y con qué calidad puedes tomar decisiones. Esta guía te muestra cuándo usar cada repositorio, qué tipo de datos acepta y a qué usuarios sirve.

¿Qué es un data warehouse y qué tipo de datos almacena?

Un data warehouse es ese repositorio centralizado donde guardas toda la información de tu compañía para tomar decisiones. La clave aquí es que solo trabaja con información estructurada: datos que vienen de bases de datos, archivos planos o CSV con columnas y filas bien definidas.

Antes de cargar la información necesitas construir el esquema. Eso significa diseñar el modelo dimensional, las tablas de hechos y las dimensiones, y luego correr procesos de ETL (Extract, Transform, Load) para limpiar y estructurar los datos antes de almacenarlos.

¿Qué es un data warehouse? Es una bodega centralizada de datos estructurados que pasa por procesos de ETL para garantizar calidad y servir consultas de negocio.

¿Para quién es útil un data warehouse?

Está orientado a usuarios de negocio que necesitan analizar tendencias y tomar decisiones. La analítica que se construye encima suele alimentar dashboards y reportes ejecutivos, con la ventaja de tener mejor control y calidad del dato gracias a la limpieza previa.

¿Qué es un data lake y en qué se diferencia del data warehouse?

Un data lake es un repositorio que te permite almacenar información estructurada, no estructurada y semiestructurada: imágenes, fotos, videos, datos de dispositivos IoT, redes sociales o resultados de web scraping. Recibe los datos en el formato en que llegan, incluso en streaming, y luego haces el tratamiento posterior.

Para visualizarlo, piensa en una carpeta tipo Drive donde guardas todo. A nivel profesional se usan buckets de AWS S3 o Azure Blob Storage, y herramientas especializadas de cada nube te permiten consultar los archivos directamente sin procesarlos antes.

¿Cuál es la diferencia entre data warehouse y data lake? El data warehouse solo guarda datos estructurados con esquema previo; el data lake acepta cualquier formato y se ajusta al esquema del archivo que llega.

¿Cómo cambia el flujo de procesamiento en un data lake?

Aquí pasamos de ETL a ELT (Extract, Load, Transform). Primero cargas el dato crudo y luego lo transformas. Las diferencias prácticas se notan en varios frentes:

Datos: el warehouse maneja solo estructurados; el lake acepta IoT, redes sociales, páginas web, fotos y videos.
Esquema: el warehouse exige modelo dimensional previo; el lake se adapta al archivo entrante.
Calidad: el warehouse tiene mejor control desde el inicio; el lake mejora la calidad en etapas posteriores.
Usuarios: el warehouse sirve a tomadores de decisión; el lake está orientado a analistas de tecnología y científicos de datos.
Analítica: el warehouse alimenta decisiones de negocio; el lake habilita análisis de sentimiento, machine learning y ciencia de datos.

La gran ventaja del data lake es la velocidad para recibir y consultar información de todo tipo sin construir un modelo previo.

¿Qué es un data lakehouse y por qué combina lo mejor de ambos mundos?

Un data lakehouse es la combinación de los dos enfoques anteriores. Te da lectura de información estructurada, no estructurada y semiestructurada, y al mismo tiempo permite consultar los archivos directamente desde herramientas especializadas de AWS o Azure para tomar decisiones.

La idea es que el data warehouse queda incorporado dentro del data lake. Tienes calidad de datos cuando la necesitas, pero sin perder la flexibilidad de leer cualquier formato. Sirve tanto a usuarios de negocio como a equipos técnicos sin las limitantes de uno u otro mundo.

¿Qué es un data lakehouse? Es una arquitectura que integra el data warehouse dentro del data lake, ofreciendo calidad de datos y soporte a todo tipo de formatos en un mismo repositorio.

¿Cómo se ven los tres conceptos lado a lado?

Para cerrar la comparación visual:

Data warehouse: información estructurada, ETL y consumo vía dashboards.
Data lake: información no estructurada y semiestructurada, consultas con herramientas especializadas y lenguaje natural.
Data lakehouse: warehouse embebido en el lake, calidad de datos y lectura de cualquier formato.

En la próxima clase verás qué esquemas puedes construir para almacenar esta información, incluyendo esquema de estrella y copo de nieve. ¿Cuál de estos tres repositorios estás usando hoy en tu proyecto? Cuéntame en los comentarios.

Mario Alexander Vargas Celis

Estudiante

La elección entre Data Warehouse, Data Lake y Data Lakehouse depende de los requisitos específicos del negocio y los tipos de datos que se manejan. A continuación te explico en qué se diferencian y cuándo podría ser más adecuado utilizar cada uno:

1. Data Warehouse (DW)

Propósito: Un Data Warehouse es un sistema de almacenamiento de datos estructurados que está optimizado para la consulta y el análisis de grandes volúmenes de datos transaccionales. Los datos en un DW suelen estar transformados y limpiados antes de ser cargados.
Características:
- Almacena datos estructurados (tablas, registros).
- Utiliza procesos ETL (Extracción, Transformación y Carga) para integrar datos de diversas fuentes.
- Es ideal para realizar análisis histórico y consultas complejas.
Cuándo usarlo:
- Si tienes datos bien definidos y estructurados.
- Necesitas informes y análisis consistentes a lo largo del tiempo (como ventas, finanzas, KPIs).
- El rendimiento en consultas analíticas rápidas y complejas es clave.

2. Data Lake

Propósito: Un Data Lake es un repositorio que puede almacenar datos sin procesar en su forma original. Puede contener datos estructurados, semi-estructurados (JSON, XML) y no estructurados (archivos de texto, imágenes, videos).
Características:
- Almacena datos en su formato original (sin necesidad de transformación).
- Es más económico en términos de almacenamiento masivo.
- Ideal para big data y análisis exploratorios, ya que permite almacenar grandes volúmenes de datos sin preocuparse por su forma.
Cuándo usarlo:
- Si necesitas almacenar datos de diferentes fuentes y tipos.
- Tienes grandes volúmenes de datos, incluyendo datos no estructurados.
- Quieres realizar análisis de datos sin un esquema predefinido, como análisis de logs, datos de IoT o datos de redes sociales.

3. Data Lakehouse

Propósito: El Data Lakehouse combina las ventajas de un Data Lake y un Data Warehouse. Es un enfoque híbrido que ofrece la flexibilidad de almacenar datos en su forma cruda, como un Data Lake, pero también proporciona la estructura necesaria para consultas analíticas, similar a un Data Warehouse.
Características:
- Almacena tanto datos estructurados como no estructurados.
- Compatibilidad con SQL y soporte para análisis en tiempo real, lo que lo hace adecuado para BI tradicional.
- Combina esquemas de datos en el almacenamiento de datos no procesados, lo que permite realizar análisis complejos sin perder la flexibilidad de los datos crudos.
Cuándo usarlo:
- Si deseas almacenar tanto datos estructurados como no estructurados en un solo lugar.
- Necesitas las capacidades de un Data Warehouse (como rendimiento en consultas analíticas) pero sin perder la flexibilidad de un Data Lake.
- Buscas una solución unificada para análisis, machine learning, e inteligencia empresarial.

¿Cuál utilizar?

Si tus datos son principalmente estructurados, y necesitas análisis consistentes y rápidos, un Data Warehouse es la mejor opción.
Si trabajas con grandes volúmenes de datos sin procesar o necesitas almacenar datos no estructurados, un Data Lake es la opción adecuada.
Si deseas lo mejor de ambos mundos, un Data Lakehouse puede ser la opción perfecta, ya que combina la flexibilidad de los Data Lakes con las capacidades analíticas de los Data Warehouses.

Resumen:

Data Warehouse: Ideal para datos estructurados y análisis tradicional.
Data Lake: Mejor para grandes volúmenes de datos variados y no estructurados.
Data Lakehouse: Combina lo mejor de ambos, permitiendo almacenar datos crudos y estructurados con capacidades analíticas robustas.

La elección depende de tus necesidades de almacenamiento y análisis de datos.

Miguel Andres Castro Bocarejo

Carlos Eduardo Bracho Rosales

Liu Gabriel Monge Fonseca

Krizia Arias

Adrian Castillo Ramírez

Shirley Jannette Rosas Guadarrama

Andrey Mena

Edison Javier Yepes Sanchez

Profesor

Samuel Burelos Jeronimo

Daniel Guardia

Edith Montes Polanco

Nicolás Muriel

Norberto Iván Tolaba

Bryan Carvajal

Data Warehouse, Data Lake y Lakehouse

Introducción a BI y Data Warehouse

Qué es Business Intelligence y Data Warehousing

Niveles de analítica y jerarquía de datos

Qué son data warehouse, data mart y dimensiones

OLTP vs OLAP: diferencias clave

Inmon, Kimball y Hefesto en BI

Modelos dimensionales