Contenido del curso

Administración y Gestion de la Plataforma de Databricks

Spark UI en Databricks: qué muestra cada sección

Resumen

La Spark UI en Databricks es la interfaz gráfica que te permite monitorear consumos, recursos, ejecutores y almacenamiento de tu clúster sin recurrir a una terminal. Si trabajas con Apache Spark dentro de Databricks, dominar esta vista te ayuda a entender qué pasa por dentro de tus jobs y a diagnosticar problemas con datos concretos.

Dónde encuentro la Spark UI dentro del clúster

Para abrirla, dirígete a la sección de cómputos, ingresa a tu clúster y verás varias pestañas: notebooks asociados, librerías, eventos y la Spark UI. Puedes verla embebida en la plataforma o abrirla en una ventana nueva para tener una vista completa. El contenido es idéntico, solo cambia la comodidad visual.

¿Qué es la Spark UI? Es la interfaz gráfica integrada en Databricks que muestra el estado de Spark: trabajos, etapas, almacenamiento, ejecutores, SQL y streaming, todo sin usar línea de comandos.

Qué información muestra cada sección de la Spark UI

Cada pestaña responde a una pregunta distinta sobre tu clúster. Conocerlas te permite ir directo al dato que necesitas.

Cómo reviso los Jobs y Stages en Spark

En la sección Jobs ves los trabajos ejecutados dentro de Spark, los eventos y cuáles se completaron. Si trabajas todo el día, la salida puede ser muy amplia, así que puedes limitar la cantidad de registros visibles.

La pestaña Stages muestra información sobre las tareas asociadas a esos trabajos: cuándo se ejecutaron y, lo más importante, si terminaron correctamente. Aquí es donde detectas fallos puntuales antes de que se conviertan en un problema mayor.

Qué encuentro en Storage y Environment

En Storage revisas el almacenamiento del clúster, especialmente lo relacionado con la caché. En una cuenta Databricks recién usada vas a ver poca información, pero en contextos productivos esta sección se vuelve clave.

La pestaña Environment contiene dos bloques importantes:

  • Runtime information: datos del entorno de ejecución, incluida la versión de Java, relevante porque Spark se desarrolló en Scala y Scala corre sobre Java.
  • Spark properties: las propiedades funcionales de Spark, como el inicio de la API, el trackeo y los proveedores configurables.
  • Configuraciones por default: en los laboratorios trabajamos siempre con los parámetros predeterminados, pero hay decenas de propiedades modificables si haces scroll.

¿Por qué importa la versión de Java en Spark? Porque Spark está escrito en Scala y Scala se monta sobre Java. La versión de Java condiciona compatibilidad y rendimiento del clúster.

Cómo monitoreo Executors, SQL y Streaming

La sección Executors a veces tarda un poco en cargar y muestra la información propia de los ejecutores que están procesando tus tareas. En SQL/DataFrames revisas cómo se construyeron las queries, las estructuras y los conectores utilizados. Y la pestaña Streaming corresponde a la API que integra Spark con procesamiento en tiempo real.

Por qué la Spark UI cambia tu forma de trabajar con Apache Spark

En otras herramientas, todo este monitoreo lo harías desde una terminal leyendo logs. Databricks integra la Spark UI dentro de su entorno y te entrega una vista gráfica de los componentes principales de Apache Spark.

Con esta interfaz tienes contexto sobre el funcionamiento del clúster, puedes auditar trabajos completados, validar tareas, revisar almacenamiento y entender qué propiedades están activas. Es la forma más directa de pasar de ejecutar código a entender cómo se ejecuta.

¿Ya exploraste tu propia Spark UI? Cuéntame en los comentarios qué sección te resultó más útil para depurar tus jobs.