Contenido del curso
Administración y Gestion de la Plataforma de Databricks
- 5

Creación y Configuración de Clúster en Databricks
07:02 min - 6

Gestión de Datos y Notebooks en Databricks File System
11:25 min - 7

Transformaciones y Acciones en Apache Spark
03:42 min - 8

Qué son los RDDs en Apache Spark
02:30 min - 9

Creación y Transformaciones de RDDs en Databricks
17:01 min - 10

Ações em RDDs que todo iniciante precisa saber
05:33 min - 11

Lectura de Datos en Apache Spark con Databricks
09:36 min - 12

Spark UI en Databricks: qué muestra cada sección
04:23 min - 13

Cómo instalar librerías en Databricks
08:30 min - 14

Alternativas para Trabajar con Apache Spark: Local vs. Nube
03:42 min
Apache Spark SQL y UDF
Implementacion de un Delta Lake en Databricks
- 19

Arquitecturas Data Lake y Delta Lake en Big Data
05:24 min - 20

Delta Lake: Almacenamiento y Gestión de Datos en Big Data
01:32 min - 21

Arquitectura Medallion en Data Lake House: Capas Bronze, Silver y Gold
03:41 min - 22

Comandos Esenciales para Databricks File System (DBFS)
00:34 min - 23

Implementación de arquitectura Delta Lake en Databricks
06:38 min - 24

Capa gold en Delta Lake con Databricks
Viendo ahora - 25

Qué aprendiste y qué sigue en Databricks
02:14 min
Capa gold en Delta Lake con Databricks
Resumen
La capa gold de Delta Lake es la pieza final de una arquitectura medallón en Databricks: aquí viven los datos ya procesados, listos para alimentar Power BI, reportería y modelos de machine learning. Si trabajas con ingeniería de datos, esta capa es la que conecta tu pipeline con el negocio.
A lo largo del flujo ya creaste la capa bronze para datos crudos y la capa silver para datos limpios. Falta el último escalón: la capa gold con su directorio de final data, donde el usuario consume la información sin preocuparse por transformaciones.
¿Cómo se crea la capa gold en Databricks File System?
La creación de la capa gold sigue el mismo patrón que las anteriores: un comando sobre Databricks File System y un nuevo directorio dentro de Delta Lake.
El flujo es directo y se apoya en el comando mkdirs del DBFS:
- Agrega un nuevo chunk en tu notebook.
- Ejecuta
dbutils.fs.mkdirsapuntando a la ruta de Delta Lake con la carpetagold. - Confirma que la salida devuelva
Boolean = true. - Repite el proceso para crear dentro de gold el subdirectorio
final data.
Cuando el sistema responde con true, el directorio quedó listo para recibir los datos finales. Esa carpeta final data es la que después conectarás con tus tableros y modelos.
¿Qué es la capa gold en Delta Lake? Es la capa donde se almacenan los datos ya transformados y listos para el negocio. Desde ahí se alimentan reportes de BI, tableros y modelos de machine learning.
¿Para qué sirve el directorio final data dentro de gold?
El subdirectorio final data simula el punto donde los datos quedan disponibles para el usuario final. Es decir, ya pasaron por extracción, limpieza y transformación, y no necesitan más manipulación técnica.
Desde ahí parten tres usos típicos:
- Consultas y reportería en Power BI.
- Tableros operativos y dashboards de negocio.
- Entrenamiento y consumo de modelos de machine learning.
La idea es que cualquier persona del área de negocio sepa que si entra a final data, encuentra información confiable. No hay datos a medio cocinar ni transformaciones pendientes.
¿Cómo se ve la arquitectura Delta Lake completa en Databricks?
Para visualizar toda la estructura, dirígete a la sección de catálogo dentro del bloque Databricks File System. En la carpeta FileStore aparece el directorio Delta Lake con sus tres capas.
La arquitectura medallón queda así:
- Capa bronze con el directorio
raw datapara datos crudos provenientes de bases de datos, CRM, servicios en la nube, procesos batch o real time. - Capa silver con el directorio
cleaning datapara los datos una vez limpiados y transformados. - Capa gold con el directorio
final datapara los datos disponibles de cara al negocio.
Cada capa cumple un rol distinto. La bronze guarda lo que entra sin tocar, la silver aplica las reglas de calidad, y la gold entrega el producto listo.
¿Qué transformaciones permiten pasar de una capa a otra?
Mover datos entre bronze, silver y gold no es copiar y pegar. Necesitas aplicar transformaciones que dependen del caso de uso.
Las más habituales en un proyecto con Apache Spark y Databricks son:
- Cambiar tipos de datos.
- Hacer uniones o joins entre tablas.
- Renombrar columnas.
- Quitar columnas que no aportan.
- Agregar columnas calculadas.
Todas estas transformaciones se agrupan dentro del proceso ETL: extracción de datos desde el exterior (batch o real time), transformación vinculada a la capa silver y carga en la capa gold para que el negocio la consuma.
¿Qué relación hay entre ETL y la arquitectura medallón? El ETL es el motor que mueve los datos entre capas: extrae hacia bronze, transforma hacia silver y carga en gold. La arquitectura medallón es la organización física de esos resultados.
¿Por qué usar la arquitectura Delta Lake en proyectos de datos?
Esta arquitectura se aplica mucho en proyectos avanzados con Apache Spark y Databricks porque separa responsabilidades con claridad. Cada capa tiene un propósito y eso facilita el mantenimiento, la auditoría y la escalabilidad.
Además, al simular las capas con directorios físicos en DBFS, entiendes el concepto sin necesidad de infraestructura adicional. Y cuando llegues a un proyecto productivo, ya tendrás el modelo mental claro: raw data abajo, cleaning data en medio, final data arriba.
Ya creaste tu capa bronze y tu capa silver. Ahora arma tu capa gold con su final data, ejecuta los comandos en tu propio notebook y déjame en los comentarios cómo te fue con la estructura completa.