No tienes acceso a esta clase

¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera

Aprende Inglés, Programación, AI, Ciberseguridad y mucho más.

Antes: $249

Currency
$209
Suscríbete

Termina en:

4 Días
7 Hrs
27 Min
52 Seg

Data Warehouse, Data Lake y Data Lakehouse: ¿Cuál utilizar?

6/26
Recursos

Aportes 6

Preguntas 2

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad?

Un resumen de la clase:

- Data Warehouse

  1. Repositorio que alberga datos estructurados (es decir con una estructura clara y definida) a través de un proceso de ETL y los disponibiliza para hacer minería de datos, reportes y analítica.

  2. Está optimizado para analizar datos con estructuras predefinidas y que dicha estructura ayude que esos datos se vuelvan una “fuente única de la verdad”.

  3. Es comunmente usado por los Business Analysts.

- Data Lake

  1. Repositorio de datos estructurados (Se cargan desde el Data Warehouse con un proceso de ETL), semi-estructurados y no-estructurados que pueden ser facilmente consultados luego de algún tratamiento en los datos dependiendo de la necesidad de la consulta.

  2. Se pueden almacenar datos facilmente sin necesidad de una estructura previa y pueden ser usados por Data Scientists/Engineers y Data Analysts.

- Data Lakehouse

  1. Es lo mejor del Data Warehouse (Los datos estructurados no requieren un proceso de ETL previo) y del Data Lake.

  2. Permite consumir los datos almacenados allí rápidamente con diferente propósitos como BI, reportes, Data Science y ML.

Es buena idea repasar la clase de los conceptos base de ETL antes de iniciar este modulo.

ojo que cuando va a mencionar los schema del datawarehouse dice datalake y no datawarehouse. tener en cuenta que datawarehouse debe tener estructura para ser ejecutado y el datalake **no necesita** ninguna estructura para ser ejecutado.

Qué tal, una duda para el siguiente caso de uso:
Si mi origen de datos es únicamente de bases de datos transaccionales y dado que el mayor problema es realizar consultas (reportes) a dichas bases de datos debido a su exponencial tamaño (se reciben hasta 50 millones de transacciones diarias) …¿Lo conveniente en este caso sería implementar un data lake?
NOTA: Entiendo que sería obvio pensar sólo en un data warehouse dado que en este sólo se cargaría información ya “procesada” para facilitar los reportes. Sin embargo, el requisito adicional es poder obtener reportes con todo el detalle de dichas transacciones por lo que no creo conveniente cargar a un data warehouse toda la información tal cual como se encuentran en las bases de datos transaccionales sino tener la información cruda en s3 para dichos reportes detallados y de aquí ir generando el modelo en el data warehouse para reportes más globales…¿qué opinan?

Ahora se me aclaró el tema de Data Lake, súper. Vi en una entrevista para Data Engineering que hicieron está pregunta y veo que es esencial saberlo