Un resumen de la clase:
- Data Warehouse
-
Repositorio que alberga datos estructurados (es decir con una estructura clara y definida) a través de un proceso de ETL y los disponibiliza para hacer minería de datos, reportes y analítica.
-
Está optimizado para analizar datos con estructuras predefinidas y que dicha estructura ayude que esos datos se vuelvan una “fuente única de la verdad”.
-
Es comunmente usado por los Business Analysts.
- Data Lake
-
Repositorio de datos estructurados (Se cargan desde el Data Warehouse con un proceso de ETL), semi-estructurados y no-estructurados que pueden ser facilmente consultados luego de algún tratamiento en los datos dependiendo de la necesidad de la consulta.
-
Se pueden almacenar datos facilmente sin necesidad de una estructura previa y pueden ser usados por Data Scientists/Engineers y Data Analysts.
- Data Lakehouse
-
Es lo mejor del Data Warehouse (Los datos estructurados no requieren un proceso de ETL previo) y del Data Lake.
-
Permite consumir los datos almacenados allí rápidamente con diferente propósitos como BI, reportes, Data Science y ML.
¿Quieres ver más aportes, preguntas y respuestas de la comunidad?