Conceptos base de ETL

2/25
Recursos

Aportes 5

Preguntas 0

Ordenar por:

驴Quieres ver m谩s aportes, preguntas y respuestas de la comunidad?

o inicia sesi贸n.

Diferencia entre Data Lake vs Data Lakehouse

Data Lake:

  • Almacena grandes cantidades de datos sin procesar y en bruto
  • No tiene una estructura predefinida o una organizaci贸n espec铆fica de datos.
  • Se enfoca en almacenar grandes cantidades de datos en bruto para su posterior procesamiento y an谩lisis.

Data Lakehouse:

  • Combina la escalabilidad de un Data Lake con la estructura y organizaci贸n de un Data Warehouse.
  • Organiza los datos en tablas y columnas como un Data Warehouse, pero se almacena en un entorno escalable y abierto como un Data Lake.
  • Se enfoca en proporcionar acceso y an谩lisis en tiempo real a los datos, y en la implementaci贸n de pr谩cticas de gobernanza de datos y aseguramiento de calidad.

Aqui otro video en donde se ven estos conceptos 馃榿 C贸mo funciona la ingenier铆a de datos

鈥淓l modelo estrella se compone de una tabla central llamada tabla de hechos, que contiene informaci贸n cuantitativa y num茅rica (como ventas, ingresos, cantidad de productos vendidos, etc.) y varias tablas dimensionales que contienen informaci贸n descriptiva y contextual (como fecha, hora, ubicaci贸n, productos, clientes, etc.).鈥

Star schema

.
Un star schema es un tipo de t茅cnica de modelado de datos utilizada en los data warehouses para representar datos de una manera estructurada e intuitiva. Los datos se organizan en una fact table central que contiene las medidas de inter茅s, rodeadas de dimension tables que describen los atributos de las medidas. Las dimension tables permiten a los usuarios analizar los datos desde diferentes perspectivas. Cada dimension table se une a la fact table a trav茅s de una relaci贸n de foreign key. Esto permite a los usuarios consultar los datos en la fact table utilizando atributos de las dimension tables.
.
El star schema es una t茅cnica popular de modelado de datos en el data warehouse porque es f谩cil de entender y consultar. La estructura simple del star schema permite tiempos de respuesta de consulta r谩pidos y un uso eficiente de los recursos de la base de datos. Adem谩s, el star schema se puede ampliar f谩cilmente agregando nuevas dimension tables o medidas a la fact table, lo que la convierte en una soluci贸n escalable y flexible para el almacenamiento de datos (data warehousing).

Un data warehouse es la tecnolog铆a de almacenamiento de big data m谩s antigua con una larga historia en aplicaciones de business intelligence, informes y an谩lisis. Sin embargo, los date warehouses son costosos y tienen problemas con los datos no estructurados, como los datos en streaming y la variedad de datos.
.
Los data lakes surgieron para manejar datos sin procesar en varios formatos en almacenamiento econ贸mico para workloads de ciencia de datos y machine learning. Aunque los data lakes funcionan bien con datos no estructurados, carecen de las funciones transaccionales ACID (atomicity, consistency, isolation, and durability) de los data warehouses, lo que dificulta garantizar la coherencia y la confiabilidad de los datos.
.
El data lakehouse es la arquitectura de almacenamiento de datos m谩s nueva que combina la rentabilidad y la flexibilidad de los data lakes con la confiabilidad y consistencia de los data warehouses.
.

.
Fuente: https://www.striim.com/blog/data-warehouse-vs-data-lake-vs-data-lakehouse-an-overview/