No tienes acceso a esta clase

¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera

Medallion architecture

21/25
Recursos

¿Qué es un Lake House?

El concepto de Lake House ha ganado tracción en el mundo del Big Data por su habilidad para combinar lo mejor de dos mundos: el Data Lake y el Data Warehouse. Un Lake House ofrece una tecnología que aprovecha las capacidades del almacenamiento masivo y flexible de un Data Lake y la estructura ordenada de un Data Warehouse. Esta integración permite un manejo de Big Data más sólido y escalable, adaptado a las necesidades del análisis de datos moderno.

Beneficios de un Lake House

  • Escalabilidad: Su diseño permite crecer conforme aumenta el volumen de datos.
  • Robustez: Ofrece una estructura sólida gracias a la integración de tecnologías de almacenamiento y procesamiento de datos.
  • Versatilidad: Se adapta tanto a datos estructurados como no estructurados, permitiendo más flexibilidad en el análisis.

¿Cómo funciona la arquitectura de Medallion?

La arquitectura de Medallion, ampliamente usada en contextos de Big Data, se basa en el uso de un Delta Lake y se organiza en tres capas principales: Bronce, Plata y Oro. Cada una de estas capas cumple un rol específico en el flujo de datos, asegurando que estos se procesen y estén listos para el análisis de manera eficiente.

¿Qué es la capa de Bronce?

La capa de Bronce es el primer nivel de la arquitectura, donde los datos se reciben en su forma en bruto. Estos datos pueden ser tanto de tiempo real, es decir, un flujo continuo, como de batch, que procesan datos en momentos específicos del día, por ejemplo, durante las noches.

  • Real Time y Batch: Ambas modalidades se gestionan en esta capa, permitiendo captar diversos tipos de datos.
  • Desafíos de Integración: La diversidad y el volumen de datos presentan un reto significativo en la integración dentro de esta capa.

¿Qué sucede en la capa de Plata?

La capa de Plata es donde se realizan las transformaciones y limpiezas de datos necesarias. Aquí, los datos se preparan para el siguiente nivel, eliminando inconsistencias y asegurando su calidad.

  • Transformación y Limpieza: Procesos críticos para garantizar la usabilidad de los datos.
  • Preparación para Estadio Siguiente: Los datos que pasan por esta capa están listos para aplicaciones de inteligencia de negocios y análisis avanzados.

¿Cuál es el propósito de la capa de Oro?

Finalmente, en la capa de Oro, los datos están listos para ser explotados desde una perspectiva de negocio. Están desagregados y estructurados para aplicaciones prácticas como la inteligencia de negocios o el Machine Learning.

  • Desagregación de Datos: Organizados desde una perspectiva de aplicación práctica.
  • Inteligencia de Negocios y Machine Learning: Permite la creación de reportes, dashboards y modelos avanzados con herramientas como Power BI.

¿Cuáles son los beneficios de la arquitectura de Medallion?

La implementación de las capas de Bronce, Plata y Oro simplifica la adquisición de datos, mejora la calidad de estos, y facilita tanto el análisis como la toma de decisiones. Con esta arquitectura, los datos fluyen de manera ordenada y efectiva desde su ingreso hasta su explotación para fines empresariales.

Recursos para Profundizar

En los recursos de la clase se ha proporcionado una lectura que detalla esta arquitectura de Medallion con mayor profundidad, siendo una excelente fuente para quienes deseen explorar más sobre las características y ventajas que ofrece.

Aportes 4

Preguntas 0

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad?

La verdad me parecio muy básica la clase, todas las arquitecturas se parecían, supuestamente ingreso para aprender, pero no será asi, tendre que seguir investigando mas sobre el tema.
### Medallion Architecture **Medallion Architecture** es un enfoque moderno para la arquitectura de almacenamiento de datos que utiliza capas definidas para gestionar diferentes tipos de datos y casos de uso en un solo sistema de datos. Es ampliamente utilizado en entornos de datos en la nube y sistemas distribuidos. #### Componentes de la Medallion Architecture: 1. **Bronze Layer (Capa Bronce)**: * **Descripción**: Capa de entrada de datos sin procesar. Aquí se cargan datos en bruto desde sistemas fuentes como Data Lakes, S3, o bases de datos. * **Objetivo**: Almacenamiento de datos originales, sin transformación ni limpieza. * **Usos**: Datos históricos, raw data, logs, o registros sin procesar. 2. **Silver Layer (Capa Plata)**: * **Descripción**: Capa de procesamiento y transformación de datos. Los datos en esta capa son más estructurados y limpios que en la capa bronce. * **Objetivo**: Procesamiento y transformación de datos, aplicación de esquemas, y creación de datasets que pueden ser utilizados en análisis. * **Usos**: Datos transformados para reporting, Machine Learning, y análisis en tiempo real. 3. **Gold Layer (Capa Oro)**: * **Descripción**: Capa de datos finales optimizada para consumo de aplicaciones analíticas o modelos predictivos. Esta capa almacena datos altamente procesados y enriquecidos. * **Objetivo**: Crear conjuntos de datos preprocesados optimizados para dashboards, visualizaciones, o modelos analíticos avanzados. * **Usos**: Datos listos para su uso en BI, análisis ad-hoc, inteligencia empresarial (BI), y visualizaciones. #### Ventajas de la Medallion Architecture: * **Flexibilidad**: Permite gestionar diferentes tipos de datos y transformaciones en un solo flujo de trabajo. * **Optimización**: Mejor rendimiento y escalabilidad gracias a la separación de capas. * **Seguridad**: Datos brutos en la capa bronce, procesados en la capa plata y altamente estructurados en la capa oro. * **Historial y evolución**: Cada capa puede evolucionar su esquema y agregar datos históricos. #### Implementación en Databricks: * **Bronze**: Almacenamiento inicial en DBFS o Delta Lake sin transformaciones. * **Silver**: Transformaciones, limpieza y procesamiento usando PySpark o Databricks Notebooks. * **Gold**: Datos altamente optimizados para uso analítico y reporting.
La **Medallion Architecture** es un diseño de arquitectura de datos que organiza los datos en tres niveles o capas en un *data lake*, cada uno representado por una "medalla" de bronce, plata y oro
Arquitectura Medallion Es un enfoque para el diseño de modelos de datos que fomenta la organización lógica de los datos dentro de un data lakehouse. Estructura los datos en un enfoque multicapa (bronce, plata y oro). Este tipo de arquitectura es muy bueno dado que fomenta la calidad de los datos a medida que avanzan en el proceso de transformación y su aplicación dentro de un contexto de ETL. A continuación, comentaremos en mayor detalle las capas de esta arquitectura propuesta: Capa de bronce Es la capa de entrada de datos. Aquí se almacenan los datos en su estado original, sin ningún tipo de transformación o limpieza. Esta capa es importante para garantizar que todos los datos estén disponibles para su análisis, independientemente de su calidad. Capa de plata Es la capa de transformación de datos. Aquí se realizan las primeras transformaciones y limpiezas de los datos para mejorar su calidad. Estas transformaciones pueden incluir la eliminación de datos duplicados, la corrección de errores, la estandarización de formatos y la aplicación de reglas de negocio. Capa de oro Es la capa de datos listos para el análisis. Aquí se almacenan los datos que han sido completamente transformados y limpiados. Es la que se utiliza para realizar análisis avanzados y generar insights empresariales. En esencia, este esquema ofrece una serie de ventajas, entre las que se incluyen: ● Flexibilidad: La arquitectura permite almacenar datos de diferentes fuentes y formatos en una sola plataforma. ● Escalabilidad: La arquitectura puede escalarse fácilmente para adaptarse al crecimiento de los datos. ● Eficiencia: La arquitectura utiliza tecnologías de almacenamiento y procesamiento de datos eficientes para proporcionar un rendimiento óptimo. ● Calidad de los datos: La arquitectura fomenta la calidad de los datos mediante la aplicación de procesos de transformación y limpieza a medida que los datos avanzan por las capas. Podemos hacer uso de esta arquitectura en aquellas empresas que buscan una plataforma de datos moderna que pueda satisfacer sus necesidades de almacenamiento, procesamiento y análisis de datos.