Fundamentos del Data Management con Databricks
Databricks como solución integral
¿Qué es Databricks y para qué sirve?
Infraestructura de almacenamiento y procesamiento en Databricks
Spark como motor de procesamiento Big Data
Quiz: Fundamentos del Data Management con Databricks
Administración y Gestion de la Plataforma de Databricks
Preparación de cluster de procesamiento
Preparación de cluster de almacenamiento
¿Qué son las transformaciones y acciones en Spark?
¿Qué son los RDD en Apache Spark?
Apache Spark: transformaciones
Apache Spark: acciones
Lectura de datos con Spark
¿Qué es la Spark UI?
¿Cómo instalar una librería en Databricks?
Spark en local vs. en la nube
Quiz: Administración y Gestion de la Plataforma de Databricks
Apache Spark SQL y UDF
¿Qué son los Dataframes en Apache Spark?
Laboratorio - PySpark SQL - Parte 1
Laboratorio - PySpark SQL - Parte 2
UDF en Apache Spark
Quiz: Apache Spark SQL y UDF
Implementacion de un Delta Lake en Databricks
Arquitectura Data Lake vs Delta Lake
Características y beneficios del Delta Lake
Medallion architecture
Comandos esenciales de DBFS
Implementación de un Delta Lake sobre Databrikcs - Parte 1
Implementación de un Delta Lake sobre Databrikcs - Parte 2
Plataforma versátil
No tienes acceso a esta clase
¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera
El concepto de Lake House ha ganado tracción en el mundo del Big Data por su habilidad para combinar lo mejor de dos mundos: el Data Lake y el Data Warehouse. Un Lake House ofrece una tecnología que aprovecha las capacidades del almacenamiento masivo y flexible de un Data Lake y la estructura ordenada de un Data Warehouse. Esta integración permite un manejo de Big Data más sólido y escalable, adaptado a las necesidades del análisis de datos moderno.
La arquitectura de Medallion, ampliamente usada en contextos de Big Data, se basa en el uso de un Delta Lake y se organiza en tres capas principales: Bronce, Plata y Oro. Cada una de estas capas cumple un rol específico en el flujo de datos, asegurando que estos se procesen y estén listos para el análisis de manera eficiente.
La capa de Bronce es el primer nivel de la arquitectura, donde los datos se reciben en su forma en bruto. Estos datos pueden ser tanto de tiempo real, es decir, un flujo continuo, como de batch, que procesan datos en momentos específicos del día, por ejemplo, durante las noches.
La capa de Plata es donde se realizan las transformaciones y limpiezas de datos necesarias. Aquí, los datos se preparan para el siguiente nivel, eliminando inconsistencias y asegurando su calidad.
Finalmente, en la capa de Oro, los datos están listos para ser explotados desde una perspectiva de negocio. Están desagregados y estructurados para aplicaciones prácticas como la inteligencia de negocios o el Machine Learning.
La implementación de las capas de Bronce, Plata y Oro simplifica la adquisición de datos, mejora la calidad de estos, y facilita tanto el análisis como la toma de decisiones. Con esta arquitectura, los datos fluyen de manera ordenada y efectiva desde su ingreso hasta su explotación para fines empresariales.
En los recursos de la clase se ha proporcionado una lectura que detalla esta arquitectura de Medallion con mayor profundidad, siendo una excelente fuente para quienes deseen explorar más sobre las características y ventajas que ofrece.
Aportes 4
Preguntas 0
¿Quieres ver más aportes, preguntas y respuestas de la comunidad?