Conceptos base de ETL

2/25
Recursos

Aportes 5

Preguntas 0

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad?

o inicia sesión.

Diferencia entre Data Lake vs Data Lakehouse

Data Lake:

  • Almacena grandes cantidades de datos sin procesar y en bruto
  • No tiene una estructura predefinida o una organización específica de datos.
  • Se enfoca en almacenar grandes cantidades de datos en bruto para su posterior procesamiento y análisis.

Data Lakehouse:

  • Combina la escalabilidad de un Data Lake con la estructura y organización de un Data Warehouse.
  • Organiza los datos en tablas y columnas como un Data Warehouse, pero se almacena en un entorno escalable y abierto como un Data Lake.
  • Se enfoca en proporcionar acceso y análisis en tiempo real a los datos, y en la implementación de prácticas de gobernanza de datos y aseguramiento de calidad.

Aqui otro video en donde se ven estos conceptos 😁 Cómo funciona la ingeniería de datos

“El modelo estrella se compone de una tabla central llamada tabla de hechos, que contiene información cuantitativa y numérica (como ventas, ingresos, cantidad de productos vendidos, etc.) y varias tablas dimensionales que contienen información descriptiva y contextual (como fecha, hora, ubicación, productos, clientes, etc.).”

Star schema

.
Un star schema es un tipo de técnica de modelado de datos utilizada en los data warehouses para representar datos de una manera estructurada e intuitiva. Los datos se organizan en una fact table central que contiene las medidas de interés, rodeadas de dimension tables que describen los atributos de las medidas. Las dimension tables permiten a los usuarios analizar los datos desde diferentes perspectivas. Cada dimension table se une a la fact table a través de una relación de foreign key. Esto permite a los usuarios consultar los datos en la fact table utilizando atributos de las dimension tables.
.
El star schema es una técnica popular de modelado de datos en el data warehouse porque es fácil de entender y consultar. La estructura simple del star schema permite tiempos de respuesta de consulta rápidos y un uso eficiente de los recursos de la base de datos. Además, el star schema se puede ampliar fácilmente agregando nuevas dimension tables o medidas a la fact table, lo que la convierte en una solución escalable y flexible para el almacenamiento de datos (data warehousing).

Un data warehouse es la tecnología de almacenamiento de big data más antigua con una larga historia en aplicaciones de business intelligence, informes y análisis. Sin embargo, los date warehouses son costosos y tienen problemas con los datos no estructurados, como los datos en streaming y la variedad de datos.
.
Los data lakes surgieron para manejar datos sin procesar en varios formatos en almacenamiento económico para workloads de ciencia de datos y machine learning. Aunque los data lakes funcionan bien con datos no estructurados, carecen de las funciones transaccionales ACID (atomicity, consistency, isolation, and durability) de los data warehouses, lo que dificulta garantizar la coherencia y la confiabilidad de los datos.
.
El data lakehouse es la arquitectura de almacenamiento de datos más nueva que combina la rentabilidad y la flexibilidad de los data lakes con la confiabilidad y consistencia de los data warehouses.
.

.
Fuente: https://www.striim.com/blog/data-warehouse-vs-data-lake-vs-data-lakehouse-an-overview/