Cómo instalar librerías en Databricks

Curso de Databricks: Arquitectura Delta Lake

Contenido del curso

Fundamentos del Data Management con Databricks

Administración y Gestion de la Plataforma de Databricks

Apache Spark SQL y UDF

Implementacion de un Delta Lake en Databricks

Tomar examen

Cómo instalar librerías en Databricks

Resumen

Instalar librerías en Databricks es una habilidad clave cuando necesitas leer formatos de archivo que no vienen preconfigurados, como XML. Aquí aprendes a hacerlo desde cero usando el repositorio Maven, configurando la versión correcta de Scala y validando la instalación dentro de tu cluster.

¿Por qué Databricks lanza error al leer un archivo XML?

Cuando intentas leer un archivo XML en un notebook recién importado, Databricks devuelve un error porque ese formato no forma parte de las librerías preinstaladas. Lo verás claro al correr la celda inicial: el cluster se conecta, pero la lectura falla porque falta la librería que interpreta ese tipo de archivo.

Y aquí viene lo interesante: ese error no significa que algo esté roto. Significa que necesitas extender Databricks con una librería externa. En este caso, Spark XML.

¿Qué es Spark XML? Es una librería desarrollada por Databricks que permite leer y escribir archivos XML usando Spark. Sin ella, tu cluster no puede procesar ese formato.

¿Cómo encuentro la librería correcta en Maven?

Maven es el repositorio donde vive la mayoría de librerías compatibles con Databricks y otras herramientas. Para llegar a la que necesitas, abres Maven, escribes “Spark XML” en el buscador y eliges la versión publicada por Databricks. Esa es la compatible.

Dentro de la página de Spark XML hay dos datos que tienes que mirar con calma [03:00]:

La versión de la librería disponible, por ejemplo 0.17.0.
La versión de Scala compatible con tu cluster.

Usar la versión más reciente suele ser lo recomendable, pero la versión de Scala no es negociable: tiene que coincidir con la de tu cluster.

¿Cómo verifico la versión de Scala de mi cluster?

Desde la pantalla principal de Databricks, vas a la sección Compute, abres tu cluster y revisas la configuración. Ahí aparece la versión, en este caso Scala 2.12 [03:35]. Ese dato lo usas para filtrar en Maven y evitar problemas de compatibilidad.

¿Qué datos necesito para instalar una librería vía Maven?

La instalación se hace con tres piezas de información que Maven te entrega en la ficha de cada librería [04:10]:

Group ID: identifica la plataforma, en este caso com.databricks.
Artifact ID: el nombre específico de la librería, aquí spark-xml.
Version: la versión que vas a instalar, por ejemplo 0.17.0.

Esos tres campos se combinan en una sola coordenada con dos puntos como separador: groupId:artifactId:version. Es la dirección exacta que Databricks usa para descargar la librería.

¿Qué es una coordenada Maven? Es el formato estándar para identificar una librería. Une el group ID, el artifact ID y la versión separados por dos puntos, así Databricks sabe exactamente qué descargar.

¿Cómo instalo la librería dentro del cluster de Databricks?

El flujo se hace desde el cluster, no desde el notebook. Estos son los pasos concretos:

Entra a tu cluster y abre la pestaña Libraries.
Haz clic en Install new y elige la opción Maven.
Pega la coordenada completa en el campo Coordinates, armada con group ID, artifact ID y versión separados por dos puntos.
Deja los demás campos vacíos, son opcionales.
Presiona Install y espera entre uno y dos minutos.

Databricks ofrece otras rutas de instalación, como subir un archivo desde el Databricks File System, usar código Python o, si trabajas en R, instalar desde CRAN. Para este caso, Maven es la ruta directa.

Cuando la instalación termina, verás un check verde al lado del nombre de la librería [06:20]. Esa marca confirma que el cluster ya puede usarla.

¿Qué hago si el notebook sigue dando error después de instalar?

A veces el notebook reconoce la librería de inmediato al volver a ejecutar la celda. Otras veces necesitas reiniciar el cluster para que cargue la nueva configuración. La regla práctica que sigue el instructor es simple: corre primero, y si aparece error, reinicia [07:00].

Después del reinicio, vuelves al notebook, presionas Control+Enter en la celda de lectura y validas. Si todo quedó bien configurado, el archivo XML se lee sin errores y el problema inicial desaparece.

Habilidades y conceptos clave que ganas con este flujo

Instalar librerías parece un detalle técnico, pero te da control sobre tu entorno de trabajo. Estos son los puntos que conviene tener claros:

Compatibilidad de versiones: Spark, Scala y la librería deben alinearse. Si una pieza no coincide, vas a ver errores.
Repositorio Maven: tu fuente principal para encontrar librerías oficiales.
Coordenada Maven: el formato groupId:artifactId:version que Databricks lee.
Sección Libraries del cluster: el único lugar correcto para instalar dependencias externas que persistan.
Reinicio del cluster: a veces es el paso que falta para que la librería quede activa.

La lectura de XML es solo un ejemplo. El mismo procedimiento aplica para cualquier librería que necesites sumar a tu entorno, sea para conectarte a una base de datos específica, procesar otro formato o usar una funcionalidad avanzada de Spark.

¿Te apareció un error de versión al instalar tu librería? Cuéntame en los comentarios qué versión de Spark o Scala estás usando y vemos cómo resolverlo.

Mario Alexander Vargas Celis

Estudiante

En Databricks, instalar librerías es un proceso simple y directo. Puedes instalar librerías en un clúster desde diferentes fuentes como PyPI, Maven, CRAN, archivos locales, o incluso archivos de librerías personalizados almacenados en DBFS o S3.

Pasos para instalar una librería en Databricks

1. Desde el menú del clúster

Accede al clúster:
- En el menú lateral, ve a Compute y selecciona el clúster donde deseas instalar la librería.
Selecciona "Libraries":
- Haz clic en la pestaña Libraries en la interfaz del clúster.
Instala la librería:
- Haz clic en Install New.
- Selecciona la fuente de la librería:
  - PyPI: Para librerías de Python (e.g., pandas, numpy).
  - Maven: Para librerías de Java/Scala.
  - CRAN: Para librerías de R.
  - Local Jar/Library: Para archivos locales.
  - Custom Library: Para librerías en almacenamiento remoto (e.g., DBFS, S3).
Especifica la librería:
- Si es de PyPI, escribe el nombre (e.g., requests) o incluye una versión específica (requests==2.26.0).
- Haz clic en Install.

2. Desde un notebook

Puedes instalar una librería directamente desde un notebook usando comandos mágicos:

Para PyPI:

%pip install nombre_libreria

Ejemplo:

%pip install matplotlib

Para librerías de Maven:

%scala spark.jars.packages += "grupo:nombre:versión"

Ejemplo:

spark.jars.packages += "org.apache.spark:spark-avro_2.12:3.4.0"

Para librerías R:

install.packages("nombre_libreria")

Ejemplo:

install.packages("ggplot2")

Verificación

Si la instalación fue desde el clúster, la librería estará disponible en todos los notebooks asociados al clúster.
Si fue desde un notebook, estará disponible únicamente en ese notebook.

Consideraciones importantes

Reinicio del clúster: Algunas instalaciones pueden requerir un reinicio del clúster para que los cambios surtan efecto.
Versiones compatibles: Asegúrate de instalar versiones de librerías compatibles con tu versión de Spark y Databricks.
Ámbito: Las librerías instaladas a través de %pip están limitadas al ámbito del notebook, mientras que las instaladas a nivel de clúster son globales para todos los notebooks del clúster.

Con estos pasos, podrás instalar cualquier librería en Databricks y empezar a usarla en tus análisis o flujos de trabajo.

Cómo instalar librerías en Databricks

Fundamentos del Data Management con Databricks

Gestión Avanzada de Big Data con Databricks y Delta Lake

Qué es Databricks y cómo crear tu cuenta

Arquitectura de Clústeres en Databricks: Procesamiento y Almacenamiento

Uso de Apache Spark en Big Data: Procesamiento y Análisis

Administración y Gestion de la Plataforma de Databricks

Creación y Configuración de Clúster en Databricks

Gestión de Datos y Notebooks en Databricks File System

Transformaciones y Acciones en Apache Spark

Qué son los RDDs en Apache Spark

Creación y Transformaciones de RDDs en Databricks

Ações em RDDs que todo iniciante precisa saber

Lectura de Datos en Apache Spark con Databricks

Spark UI en Databricks: qué muestra cada sección