Contenido del curso

Administración y Gestion de la Plataforma de Databricks

Cómo instalar librerías en Databricks

Resumen

Instalar librerías en Databricks es una habilidad clave cuando necesitas leer formatos de archivo que no vienen preconfigurados, como XML. Aquí aprendes a hacerlo desde cero usando el repositorio Maven, configurando la versión correcta de Scala y validando la instalación dentro de tu cluster.

¿Por qué Databricks lanza error al leer un archivo XML?

Cuando intentas leer un archivo XML en un notebook recién importado, Databricks devuelve un error porque ese formato no forma parte de las librerías preinstaladas. Lo verás claro al correr la celda inicial: el cluster se conecta, pero la lectura falla porque falta la librería que interpreta ese tipo de archivo.

Y aquí viene lo interesante: ese error no significa que algo esté roto. Significa que necesitas extender Databricks con una librería externa. En este caso, Spark XML.

¿Qué es Spark XML? Es una librería desarrollada por Databricks que permite leer y escribir archivos XML usando Spark. Sin ella, tu cluster no puede procesar ese formato.

¿Cómo encuentro la librería correcta en Maven?

Maven es el repositorio donde vive la mayoría de librerías compatibles con Databricks y otras herramientas. Para llegar a la que necesitas, abres Maven, escribes “Spark XML” en el buscador y eliges la versión publicada por Databricks. Esa es la compatible.

Dentro de la página de Spark XML hay dos datos que tienes que mirar con calma [03:00]:

  • La versión de la librería disponible, por ejemplo 0.17.0.
  • La versión de Scala compatible con tu cluster.

Usar la versión más reciente suele ser lo recomendable, pero la versión de Scala no es negociable: tiene que coincidir con la de tu cluster.

¿Cómo verifico la versión de Scala de mi cluster?

Desde la pantalla principal de Databricks, vas a la sección Compute, abres tu cluster y revisas la configuración. Ahí aparece la versión, en este caso Scala 2.12 [03:35]. Ese dato lo usas para filtrar en Maven y evitar problemas de compatibilidad.

¿Qué datos necesito para instalar una librería vía Maven?

La instalación se hace con tres piezas de información que Maven te entrega en la ficha de cada librería [04:10]:

  • Group ID: identifica la plataforma, en este caso com.databricks.
  • Artifact ID: el nombre específico de la librería, aquí spark-xml.
  • Version: la versión que vas a instalar, por ejemplo 0.17.0.

Esos tres campos se combinan en una sola coordenada con dos puntos como separador: groupId:artifactId:version. Es la dirección exacta que Databricks usa para descargar la librería.

¿Qué es una coordenada Maven? Es el formato estándar para identificar una librería. Une el group ID, el artifact ID y la versión separados por dos puntos, así Databricks sabe exactamente qué descargar.

¿Cómo instalo la librería dentro del cluster de Databricks?

El flujo se hace desde el cluster, no desde el notebook. Estos son los pasos concretos:

  1. Entra a tu cluster y abre la pestaña Libraries.
  2. Haz clic en Install new y elige la opción Maven.
  3. Pega la coordenada completa en el campo Coordinates, armada con group ID, artifact ID y versión separados por dos puntos.
  4. Deja los demás campos vacíos, son opcionales.
  5. Presiona Install y espera entre uno y dos minutos.

Databricks ofrece otras rutas de instalación, como subir un archivo desde el Databricks File System, usar código Python o, si trabajas en R, instalar desde CRAN. Para este caso, Maven es la ruta directa.

Cuando la instalación termina, verás un check verde al lado del nombre de la librería [06:20]. Esa marca confirma que el cluster ya puede usarla.

¿Qué hago si el notebook sigue dando error después de instalar?

A veces el notebook reconoce la librería de inmediato al volver a ejecutar la celda. Otras veces necesitas reiniciar el cluster para que cargue la nueva configuración. La regla práctica que sigue el instructor es simple: corre primero, y si aparece error, reinicia [07:00].

Después del reinicio, vuelves al notebook, presionas Control+Enter en la celda de lectura y validas. Si todo quedó bien configurado, el archivo XML se lee sin errores y el problema inicial desaparece.

Habilidades y conceptos clave que ganas con este flujo

Instalar librerías parece un detalle técnico, pero te da control sobre tu entorno de trabajo. Estos son los puntos que conviene tener claros:

  • Compatibilidad de versiones: Spark, Scala y la librería deben alinearse. Si una pieza no coincide, vas a ver errores.
  • Repositorio Maven: tu fuente principal para encontrar librerías oficiales.
  • Coordenada Maven: el formato groupId:artifactId:version que Databricks lee.
  • Sección Libraries del cluster: el único lugar correcto para instalar dependencias externas que persistan.
  • Reinicio del cluster: a veces es el paso que falta para que la librería quede activa.

La lectura de XML es solo un ejemplo. El mismo procedimiento aplica para cualquier librería que necesites sumar a tu entorno, sea para conectarte a una base de datos específica, procesar otro formato o usar una funcionalidad avanzada de Spark.

¿Te apareció un error de versión al instalar tu librería? Cuéntame en los comentarios qué versión de Spark o Scala estás usando y vemos cómo resolverlo.