Capa gold en Delta Lake con Databricks

Curso de Databricks: Arquitectura Delta Lake

Contenido del curso

Fundamentos del Data Management con Databricks

Administración y Gestion de la Plataforma de Databricks

Apache Spark SQL y UDF

Implementacion de un Delta Lake en Databricks

Tomar examen

Capa gold en Delta Lake con Databricks

Resumen

La capa gold de Delta Lake es la pieza final de una arquitectura medallón en Databricks: aquí viven los datos ya procesados, listos para alimentar Power BI, reportería y modelos de machine learning. Si trabajas con ingeniería de datos, esta capa es la que conecta tu pipeline con el negocio.

A lo largo del flujo ya creaste la capa bronze para datos crudos y la capa silver para datos limpios. Falta el último escalón: la capa gold con su directorio de final data, donde el usuario consume la información sin preocuparse por transformaciones.

¿Cómo se crea la capa gold en Databricks File System?

La creación de la capa gold sigue el mismo patrón que las anteriores: un comando sobre Databricks File System y un nuevo directorio dentro de Delta Lake.

El flujo es directo y se apoya en el comando mkdirs del DBFS:

Agrega un nuevo chunk en tu notebook.
Ejecuta dbutils.fs.mkdirs apuntando a la ruta de Delta Lake con la carpeta gold.
Confirma que la salida devuelva Boolean = true.
Repite el proceso para crear dentro de gold el subdirectorio final data.

Cuando el sistema responde con true, el directorio quedó listo para recibir los datos finales. Esa carpeta final data es la que después conectarás con tus tableros y modelos.

¿Qué es la capa gold en Delta Lake? Es la capa donde se almacenan los datos ya transformados y listos para el negocio. Desde ahí se alimentan reportes de BI, tableros y modelos de machine learning.

¿Para qué sirve el directorio final data dentro de gold?

El subdirectorio final data simula el punto donde los datos quedan disponibles para el usuario final. Es decir, ya pasaron por extracción, limpieza y transformación, y no necesitan más manipulación técnica.

Desde ahí parten tres usos típicos:

Consultas y reportería en Power BI.
Tableros operativos y dashboards de negocio.
Entrenamiento y consumo de modelos de machine learning.

La idea es que cualquier persona del área de negocio sepa que si entra a final data, encuentra información confiable. No hay datos a medio cocinar ni transformaciones pendientes.

¿Cómo se ve la arquitectura Delta Lake completa en Databricks?

Para visualizar toda la estructura, dirígete a la sección de catálogo dentro del bloque Databricks File System. En la carpeta FileStore aparece el directorio Delta Lake con sus tres capas.

La arquitectura medallón queda así:

Capa bronze con el directorio raw data para datos crudos provenientes de bases de datos, CRM, servicios en la nube, procesos batch o real time.
Capa silver con el directorio cleaning data para los datos una vez limpiados y transformados.
Capa gold con el directorio final data para los datos disponibles de cara al negocio.

Cada capa cumple un rol distinto. La bronze guarda lo que entra sin tocar, la silver aplica las reglas de calidad, y la gold entrega el producto listo.

¿Qué transformaciones permiten pasar de una capa a otra?

Mover datos entre bronze, silver y gold no es copiar y pegar. Necesitas aplicar transformaciones que dependen del caso de uso.

Las más habituales en un proyecto con Apache Spark y Databricks son:

Cambiar tipos de datos.
Hacer uniones o joins entre tablas.
Renombrar columnas.
Quitar columnas que no aportan.
Agregar columnas calculadas.

Todas estas transformaciones se agrupan dentro del proceso ETL: extracción de datos desde el exterior (batch o real time), transformación vinculada a la capa silver y carga en la capa gold para que el negocio la consuma.

¿Qué relación hay entre ETL y la arquitectura medallón? El ETL es el motor que mueve los datos entre capas: extrae hacia bronze, transforma hacia silver y carga en gold. La arquitectura medallón es la organización física de esos resultados.

¿Por qué usar la arquitectura Delta Lake en proyectos de datos?

Esta arquitectura se aplica mucho en proyectos avanzados con Apache Spark y Databricks porque separa responsabilidades con claridad. Cada capa tiene un propósito y eso facilita el mantenimiento, la auditoría y la escalabilidad.

Además, al simular las capas con directorios físicos en DBFS, entiendes el concepto sin necesidad de infraestructura adicional. Y cuando llegues a un proyecto productivo, ya tendrás el modelo mental claro: raw data abajo, cleaning data en medio, final data arriba.

Ya creaste tu capa bronze y tu capa silver. Ahora arma tu capa gold con su final data, ejecuta los comandos en tu propio notebook y déjame en los comentarios cómo te fue con la estructura completa.

Comentarios24

Sandra Milena RAIRAN PINILLA

Estudiante

Voto por el proóimo el curso intermedio de Databricks. Mas curso de Databricks

Layla Scheli

Profesor

Gracias por el apoyo :) Me alegra que lo hayas disfrutado! Un saludo!

Luis Ernesto Domínguez Velásquez

Estudiante

Solicitamos un siguiente curso, para profundizar temas de Databricks, arquitectura delta lake y toda la lógica que se realiza en cada capa, excelente curso.

Layla Scheli

Profesor

Gracias Luis :) lo tendremos en consideracion!

Andrés Naranjo Z.

Estudiante

Mas Databricks POR FAVOR!

Es el primer curso de Data relevante despues de mucho tiempo.

Layla Scheli

Profesor

Gracias Andres, por tus palabras :) Un saludo!

Juan Camilo Jaramillo Tascón

Estudiante

Me gustó el enfoque del curso, me parece que la continuación de este curso debería estar enfocado en crear procesos ETL utilizando estas capas. También tengo una pregunta, ¿por qué es necesario realizar una transformación desde la capa Silver a la capa Gold, sabiendo que en la capa Silver ya deben estar todas las transformaciones y limpiezas? ¿No debería ser más bien Gold una copia de Silver con los datos ya curados?

Layla Scheli

Profesor

Hola podria ser, pero a veces no necesariamente es asi, porque generalmente en la capa de gold, se deja todo con una perspectiva de negocio :) ya listo para utilizarse en ese sentido. Un saludo!

Oscar Leonardo Vanegas Molano

Estudiante

En mi caso, la capa de gold contiene diferentes tablas con agrupaciones de los datos, por departamento, por período, por área de negocio.

Mientras que silver contiene una tabla con todos los datos originales fila por fila, lo cual es muy demorado de procesar.

En este ejemplo gold es más eficiente para las áreas de negocio que quieren ver resúmenes y no el 1 a 1.

Víctor Alejandro Regueira Romero

Estudiante

Me encantó el curso. Estos temas estarían genial para una segunda parte:

Ingesta a través de una API/archivo json.
Transformación de los datos.
Conexión a algún software de BI.
Guardado de los datos en un DataLake Gen2.
Creación de Job para automatización del proceso.

Layla Scheli

Profesor

Muy interesante :)

Sandra Milena RAIRAN PINILLA

Estudiante

Genial el curso!!! El proximo curso seria genial implementación de Deltalake orientado a mongobd y terminando con la integracion a Power bi

Layla Scheli

Profesor

Me gusta la idea Sandra :)

Michael Noel Pineda González

Estudiante

•

Sería increíble contar con una nueva versión de este curso que incluya la creación y orquestación completa de Workflows y Jobs en Databricks. Sería un gran aporte que se muestre cómo diagramar y automatizar cada fase del pipeline de datos —desde la capa Bronze, pasando por Silver, hasta llegar a Gold— utilizando buenas prácticas, dependencias entre tareas y ejemplos reales de arquitectura.

Esto permitiría entender no solo el procesamiento de datos, sino también cómo operativizarlo en un entorno moderno de ingeniería de datos end‑to‑end.

Mariana Uribe Zapata

Estudiante

Gran curso de Databricks, sería buenísimo hacer uno sobre DLT y Jobs

Cristian Camilo Cardenas Rodríguez

Estudiante

Genial, falta un proyecto completo en databricks con arquitecturas Data Lake y Delta Lake, para quedar super bien en el tema.

Layla Scheli

Profesor

Si :) Un saludo!

Mario Alexander Vargas Celis

Estudiante

Implementación de un Delta Lake sobre Databricks - Parte 2

En esta segunda parte, se continuará con la implementación de Delta Lake sobre Databricks, añadiendo funcionalidades adicionales y explorando más casos prácticos.

Paso 1: Leer datos desde Delta Lake y explorar

Una vez que los datos han sido guardados en un Delta Lake, puedes leer estos datos y explorar su contenido.

delta_df = spark.read.format("delta").load("/mnt/delta-demo/delta-lake") delta_df.show()

Paso 2: Filtrado y análisis en Delta Lake

Filtrar registros: Puedes filtrar registros específicos utilizando DataFrame.

filtered_df = delta_df.filter(delta_df.column_name == 'value') filtered_df.show()

GroupBy y Agregación: Realizar operaciones agregadas sobre grupos de datos.

agg_df = delta_df.groupBy("group_column").agg({'numeric_column': 'sum'}) agg_df.show()

Paso 3: Realizar actualizaciones en Delta Lake

Delta Lake permite actualizaciones seguras y consistentes a los datos usando operaciones MERGE.

Actualizar datos: Por ejemplo, actualizar registros según alguna condición.

delta_df = delta_df.withColumn("column_name_updated", when(delta_df.column_name == 'old_value', 'new_value').otherwise(delta_df.column_name)) delta_df.write.format("delta").mode("overwrite").save("/mnt/delta-demo/delta-lake")

Paso 4: Optimización y Compresión

Compresión de datos: Optimizar el almacenamiento de datos con la compresión.

delta_df.write.format("delta").mode("overwrite").option("delta.properties.compressionCodec", "snappy").save("/mnt/delta-demo/delta-lake")

Z-Ordering: Mejora las consultas para conjuntos de datos grandes.

delta_df.optimize("column_to_optimize").execute()

Paso 5: Gestión de Historias en Delta Lake

Delta Lake proporciona un historial completo de los datos. Puedes explorar todas las versiones anteriores y llevar a cabo operaciones de "vacuum" para mantener solo las versiones relevantes.

history_df = delta_df.history() history_df.show() delta_df.vacuum(2) # Mantener las últimas dos versiones

Paso 6: Escribir y leer en Delta Lake con transacciones ACID

Mantener la integridad de los datos es esencial. Las transacciones ACID garantizan que los datos permanezcan consistentes y seguros.

delta_df.write.format("delta").mode("overwrite").save("/mnt/delta-demo/delta-lake")

En esta parte, hemos explorado cómo leer, modificar y optimizar los datos en un Delta Lake en Databricks. Delta Lake mejora significativamente la gestión de datos en entornos distribuidos al ofrecer capacidades avanzadas como transacciones seguras, optimización de rendimiento y auditoría de cambios.

Andrea Cano

Estudiante

Para agregar comentarios a tu código en Databricks y así entender mejor cada capa de tu arquitectura Delta Lake, puedes usar el símbolo # al inicio de la línea donde quieras insertar el comentario. Por ejemplo:

# Capa de Bronze: Datos crudos
# Creamos el directorio para la capa de Bronze
dbutils.fs.mkdirs("/delta_lake/bronze")

# Capa de Silver: Datos transformados
# Creamos el directorio para la capa de Silver
dbutils.fs.mkdirs("/delta_lake/silver")

# Capa de Gold: Datos finales
# Creamos el directorio para la capa de Gold
dbutils.fs.mkdirs("/delta_lake/gold")

Asegúrate de que cada comando se ejecute correctamente y verifiques el valor booleano que debe ser true, indicando que se creó el directorio sin errores.

Javier Vazquez Perez

Estudiante

woow, usaron 10 minutos y dos partes para "enseñar" como crear directorios?

Es enserio?

Layla Scheli

Profesor

Hola Javier, gracias por tu comentario. Si es correcto, lo que ya sepas lo podes saltear. Saludos :)

Oscar Leonardo Vanegas Molano

Estudiante

De acuerdo, faltó mejor profundizar en las diferencias entre los niveles en lugar de solo crear unas carpetas vacías.

Luis Alberto Jaramillo Sevilla

Estudiante

Excelente curso. Seria bueno tener una segunda parte del curso o de esta tecnologia para ver una practica sencilla de ingesta de informacion, pasarla por la arquitectura medallion y luego hacer un power bi conectado a la capa gold.

Jesús David Vega Porras

Estudiante

Como empleado de Databricks, puedo confirmar que la utilizacion de DBFS se esta pidiendo de dejar de ser utilizada dato que este path no tiene governanza por medio de ACL (Access Control Level) entonces cualquier informacion sensible puede ser accesada por cualquier usuario.

Como best practice, siempre recomendamos utilizar el feature de volumes, los cuales tienen ACL a traves de Unity Catalog. Dejo los articulos abajo para los que quieran indagar en esto: - -

Gabriela Andreina García Uzcategui

Estudiante

Siguiente Curso de Databricks por favor! super necesario, muchas empresas lo estan usando

Norberto Iván Tolaba

Estudiante

Muy bueno y didáctico. Hubiera sido bueno unas pequeñas transformaciones y algo que consumiera la última capa gold así todo más redondo. Lo que me queda de duda es en qué momento se crea el formato delta binario, así son solo carpetas o es que en las transformaciones se lo transforma a binario ?

Platzi

Estudiante

Las transformaciones para cambiar el formato a delta binario no fueron específicamente cubiertas en esta transcripción. La capa de gold solo se menciona como el lugar donde los datos transformados están disponibles para el negocio.

Gerardo Mayel Fernández Alamilla

Estudiante

dos dudas, 1. Acá creamos carpetas desde un notebook es posible crearlas directamente desde una terminal de Databricks? 2.- La capa de negocio, gold, en qué tipo de formato la tendríamos idealmente ? en parquet? en una base de datos SQL?

Layla Scheli

Profesor

Con la version gratis de Databricks no, pero la de pago te permite trabajar con la consola, y ahi si podrias :)

Andrea Cano

Estudiante

dbutils es una utilidad en Databricks que facilita la interacción con el sistema de archivos y el entorno de ejecución. Se utiliza para gestionar archivos, directorios y bibliotecas dentro del Databricks File System (DBFS). Con dbutils, puedes realizar operaciones como copiar, mover y eliminar archivos, así como obtener información sobre los mismos. Esta herramienta es especialmente útil al trabajar en proyectos de análisis de datos y al implementar arquitecturas como Delta Lake, permitiendo una gestión eficiente de los datos en las distintas capas.

Juan Pablo Guerra Osorio

Estudiante

We need intermediate and advanced Databricks courses, please keep doing this course. ✌️

Layla Scheli

Profesor

Gracias Juan, un saludo :)

LUIS FELIPE GALLEGO

Estudiante

Gracias profe que buen curso, bendiciones, espero otro curso por ti donde se pueda ampliar mas el tema

Layla Scheli

Profesor

Gracias :)

# Capa de Bronze: Datos crudos
# Creamos el directorio para la capa de Bronze
dbutils.fs.mkdirs("/delta_lake/bronze")

# Capa de Silver: Datos transformados
# Creamos el directorio para la capa de Silver
dbutils.fs.mkdirs("/delta_lake/silver")

# Capa de Gold: Datos finales
# Creamos el directorio para la capa de Gold
dbutils.fs.mkdirs("/delta_lake/gold")

Capa gold en Delta Lake con Databricks

Fundamentos del Data Management con Databricks

Gestión Avanzada de Big Data con Databricks y Delta Lake

Qué es Databricks y cómo crear tu cuenta

Arquitectura de Clústeres en Databricks: Procesamiento y Almacenamiento

Uso de Apache Spark en Big Data: Procesamiento y Análisis

Administración y Gestion de la Plataforma de Databricks

Creación y Configuración de Clúster en Databricks

Gestión de Datos y Notebooks en Databricks File System

Transformaciones y Acciones en Apache Spark

Qué son los RDDs en Apache Spark

Creación y Transformaciones de RDDs en Databricks

Ações em RDDs que todo iniciante precisa saber

Lectura de Datos en Apache Spark con Databricks

Spark UI en Databricks: qué muestra cada sección

Cómo instalar librerías en Databricks

Alternativas para Trabajar con Apache Spark: Local vs. Nube

Apache Spark SQL y UDF

Lectura y escritura de DataFrames en Apache Spark

Comandos esenciales de Spark SQL con PySpark

Consultas y Filtrado Avanzado con Spark SQL

Creación y Uso de Funciones UDF en Apache Spark

Implementacion de un Delta Lake en Databricks

Arquitecturas Data Lake y Delta Lake en Big Data

Delta Lake: Almacenamiento y Gestión de Datos en Big Data

Arquitectura Medallion en Data Lake House: Capas Bronze, Silver y Gold

Comandos Esenciales para Databricks File System (DBFS)

Implementación de arquitectura Delta Lake en Databricks

Capa gold en Delta Lake con Databricks

Qué aprendiste y qué sigue en Databricks

Resumen