Instalación de Librerías en Databricks paso a paso

Clase 13 de 25 • Curso de Databricks: Arquitectura Delta Lake

Resumen

¿Cómo instalar una librería en Databricks?

Instalar librerías adicionales en Databricks puede parecer una tarea desafiante, pero con la guía adecuada, se convierte en un proceso sencillo y directo. Este tutorial te llevará paso a paso por el procedimiento para instalar una librería específica, necesaria para trabajar con formatos de archivo no preinstalados como XML.

¿Cómo importar un notebook en Databricks?

Para comenzar, primero debemos importar el notebook que contiene las instrucciones sobre cómo instalar librerías. Este paso es esencial para organizarnos y seguir el flujo adecuado dentro del entorno de Databricks.

Dirígete a la sección de Workspace en tu entorno de Databricks.
Accede al curso pertinente.
Importa el notebook necesario, asegurándote de que sea el correcto mediante una rápida verificación visual tras arrastrar y soltar el archivo en la plataforma.

¿Qué pasa si no tienes la librería instalada?

Al intentar leer un archivo XML sin la librería adecuada, generalmente te encontrarás con un error, ya que este tipo de formatos no está configurado por defecto en Databricks. No te preocupes, esta situación es común cuando trabajas con formatos de archivo específicos.

Al ejecutar el programa sin la librería:

# Ejemplo de intento de lectura de archivo XML
xml_df = spark.read.format("xml").load("ruta/del/archivo.xml")

Podrás observar un error indicando la falta de soporte para el formato.

¿Dónde encontrar la librería que necesitas?

La forma más sencilla de encontrar e instalar una librería necesaria en Databricks es a través de Maven.

Accede a Maven Repository.
Busca la librería necesaria para tu proyecto. En este caso, escribe xml spark y selecciona la opción adecuada compatible con Databricks.

¿Cómo determinar la versión correcta de Scala?

Antes de instalar cualquier librería, es crucial saber la versión de Scala con la que estás trabajando.

Ve a la sección de cómputo dentro de Databricks y selecciona tu clúster. Allí encontrarás la versión de Scala configurada al crear tu clúster (por ejemplo, Scala 2.12).

¿Cómo instalar la librería en Databricks?

Con los datos obtenidos de Maven (Group ID, Artifact ID, y versión), sigue estos pasos:

Dirígete a la sección de Libraries en tu clúster de Databricks.
Elige la opción de instalación por Maven.
Completa las coordenadas con los detalles de la librería:
- Group ID: com.databricks
- Artifact ID: spark-xml_2.12
- Versión: 0.13.0 (asegurándote de que sea compatible con tu versión de Scala)

com.databricks:spark-xml_2.12:0.13.0

Inicia la instalación. Debe tomar unos minutos.

¿Cómo verificar la instalación exitosa?

Para corroborar que la librería se ha instalado correctamente, busca la señal de aprobación, como un check verde en la sección de Libraries. Luego, intenta ejecutar nuevamente el notebook.

Si encuentras un error, es posible que necesites reiniciar el clúster.

# Intento de lectura del archivo XML tras la instalación
xml_df = spark.read.format("xml").option("rowTag", "book").load("ruta/del/archivo.xml")

Con esta guía práctica, ya puedes instalar librerías en Databricks con confianza. Si encuentras dificultades, asegúrate de verificar versiones y compatibilidades, y considera compartir errores específicos en secciones de comentarios o foros para recibir asistencia.

Jesús David Vega Porras

student•

Despues de instalar librerias a nivel de cluster UI, si hay un error no es necesario reiniciar el cluster, el contexto del notebook se puede refrescar con la opcion "Detache & re-attache" en las opciones del cluster. Esto puede ahorrar horas de testing de librerias si hay algun error.

Gerardo Mayel Fernández Alamilla

student•

una duda, siempre que termino sesión en Databricks y claro se termina la sesión del cluster, presiono el botón de play pero me genera un error al querer re-inicar el cluster y tengo que generar uno nuevo, cómo puedo simplemente iniciar de nuevo el cluster sin tener que generar otro para continuar trabajando?

Layla Scheli

teacher•

Hola Gerardo :) no se puede! cuando pasa el periodo de tiempo si o si tenes que crear otro. En la version de pago esto no te pasa porque podes detenerlo y reiniciarlo nuevamente! Un saludo!

Norberto Iván Tolaba

student•

te da 60 minutos, si en ese tiempo no lo usas al cluster de desactiva y ya no funciona hay que crear otro nuevo. Al ir de nuevo al notebook lo asocias al cluster nuevo y listo

Erick Infante

student•

Es posible crear un entorno virtual para un workspace??

Jhon Alexander Túquerres Jiménez

student•

No, no es posible crear un entorno virtual (como los que se crean con conda o venv en Python) directamente para un workspace completo de Databricks.

Databricks gestiona los entornos de una manera diferente, que es más escalable y centralizada.

Mario Alexander Vargas Celis

student•

En Databricks, instalar librerías es un proceso simple y directo. Puedes instalar librerías en un clúster desde diferentes fuentes como PyPI, Maven, CRAN, archivos locales, o incluso archivos de librerías personalizados almacenados en DBFS o S3.

Pasos para instalar una librería en Databricks

1. Desde el menú del clúster

Accede al clúster:
- En el menú lateral, ve a Compute y selecciona el clúster donde deseas instalar la librería.
Selecciona "Libraries":
- Haz clic en la pestaña Libraries en la interfaz del clúster.
Instala la librería:
- Haz clic en Install New.
- Selecciona la fuente de la librería:
  - PyPI: Para librerías de Python (e.g., pandas, numpy).
  - Maven: Para librerías de Java/Scala.
  - CRAN: Para librerías de R.
  - Local Jar/Library: Para archivos locales.
  - Custom Library: Para librerías en almacenamiento remoto (e.g., DBFS, S3).
Especifica la librería:
- Si es de PyPI, escribe el nombre (e.g., requests) o incluye una versión específica (requests==2.26.0).
- Haz clic en Install.

2. Desde un notebook

Puedes instalar una librería directamente desde un notebook usando comandos mágicos:

Para PyPI:

%pip install nombre_libreria

Ejemplo:

%pip install matplotlib

Para librerías de Maven:

%scala spark.jars.packages += "grupo:nombre:versión"

Ejemplo:

spark.jars.packages += "org.apache.spark:spark-avro_2.12:3.4.0"

Para librerías R:

install.packages("nombre_libreria")

Ejemplo:

install.packages("ggplot2")

Verificación

Si la instalación fue desde el clúster, la librería estará disponible en todos los notebooks asociados al clúster.
Si fue desde un notebook, estará disponible únicamente en ese notebook.

Consideraciones importantes

Reinicio del clúster: Algunas instalaciones pueden requerir un reinicio del clúster para que los cambios surtan efecto.
Versiones compatibles: Asegúrate de instalar versiones de librerías compatibles con tu versión de Spark y Databricks.
Ámbito: Las librerías instaladas a través de %pip están limitadas al ámbito del notebook, mientras que las instaladas a nivel de clúster son globales para todos los notebooks del clúster.

Con estos pasos, podrás instalar cualquier librería en Databricks y empezar a usarla en tus análisis o flujos de trabajo.

Alejandro Molina Bastidas

student•

Pregunta, en Databricks desde Spark puedo leer xlsx? existe algun paquete de spark como tal?

Layla Scheli

teacher•

Hola Manuel. Sí, en Databricks utilizando Apache Spark es posible leer archivos en formato XLSX. No existe un paquete de Spark específico para leer archivos XLSX, pero puedes usar la biblioteca spark-excel, que es una implementación de Spark para leer archivos Excel, incluidos los archivos XLSX.

Link: https://stackoverflow.com/questions/56426069/how-to-read-xlsx-or-xls-files-as-spark-dataframe

David Cuellar

student•

En mi caso me pidió especificar explícitamente cuál de estos dos paquetes utilizar

transacciones_xml = spark.read.format("com.databricks.spark.xml").option("rootTag", "root").option("rowTag", "element").load("dbfs:/FileStore/shared_uploads/david.eduardo.cuellar@mine.com/transacciones.xml")

#Mostramos la datatransacciones_xml.show()

victor bravo

student•

cómo se maneja el control de versiones en databricks?

Layla Scheli

teacher•

En las versiones de pago, podes integrar git :)

torrespaulasofia1

student•

alguien sabe como leer jsons de forma fácil?, siempre me sale un error :( , he intentado con los hiperparámetros de la documentación y tampoco funciona

Es de aproximadamente 26.000 filas

Layla Scheli

teacher•

Hola :)

https://towardsdatascience.com/json-in-databricks-and-pyspark-26437352f0e9?gi=6faa3a73845c

Que errores tenes?

Un saludo!

Instalación de Librerías en Databricks paso a paso

Fundamentos del Data Management con Databricks

Gestión Avanzada de Big Data con Databricks y Delta Lake

Fundamentos de Databricks para Big Data y Machine Learning

Arquitectura de Clústeres en Databricks: Procesamiento y Almacenamiento

Uso de Apache Spark en Big Data: Procesamiento y Análisis

Administración y Gestion de la Plataforma de Databricks

Creación y Configuración de Clúster en Databricks

Gestión de Datos y Notebooks en Databricks File System

Transformaciones y Acciones en Apache Spark

Conceptos básicos de RDDs en Apache Spark

Creación y Transformaciones de RDDs en Databricks

Acciones en Apache Spark: Uso y Ejemplos Prácticos

Lectura de Datos en Apache Spark con Databricks

Exploración de SparkUI en Databricks: Monitorización y Configuración