Creación y Configuración de Clúster en Databricks

Clase 5 de 25 • Curso de Databricks: Arquitectura Delta Lake

Contenido del curso

Fundamentos del Data Management con Databricks

Administración y Gestion de la Plataforma de Databricks

Apache Spark SQL y UDF

Implementacion de un Delta Lake en Databricks

Resumen

Contar con un clúster correctamente configurado es el primer paso para trabajar con procesamiento distribuido en Databricks. Antes de ejecutar cualquier laboratorio práctico o implementar una arquitectura de Delta Lake, se necesita un entorno de cómputo activo que proporcione los recursos de RAM y CPU necesarios. A continuación se explica paso a paso cómo crearlo dentro de la capa gratuita de la plataforma.

¿Cómo se crea un clúster en Databricks?

Dentro de la plataforma Databricks, el punto de partida es la sección de Compute [01:00]. Desde allí se presiona el botón de crear cómputo, lo que abre un formulario sencillo donde se debe completar el nombre del clúster, por ejemplo "Clúster Platzi".

Un clúster, en esencia, es un conjunto de computadoras conectadas en red [03:24]. Cada nodo del clúster viene con tecnologías preinstaladas, y esa es una de las grandes ventajas que ofrece Databricks: proporcionar un clúster completamente administrado con Apache Spark listo para usar, sin que el usuario tenga que realizar la instalación manualmente.

¿Qué versiones se deben considerar al configurar el clúster?

Al momento de crear el clúster, se puede elegir entre varias versiones disponibles [02:22]. Es recomendable utilizar la más actual, pero lo verdaderamente importante es tomar nota de dos datos:

La versión de Scala utilizada.
La versión de Spark instalada.

Esta información resulta crucial cuando se necesita instalar una librería externa o realizar alguna integración, ya que conocer ambas versiones evita problemas de incompatibilidad [02:40].

¿Cuánto tarda en estar disponible el clúster?

Una vez completada la configuración, se presiona el botón de crear. El proceso de creación suele demorar algunos minutos [03:10]. Una barra de avance indica el progreso, y cuando está totalmente verde significa que el clúster se encuentra activo y disponible para ejecutar notebooks y procesar datos.

También es posible configurar el clúster mediante una vista de JSON en lugar de la interfaz gráfica, lo que ofrece flexibilidad para quienes prefieren trabajar con ese formato [03:02].

¿Cuáles son las limitaciones de la capa gratuita de Databricks?

La versión gratuita de Databricks impone restricciones importantes que conviene conocer antes de comenzar a trabajar:

Solo se dispone de quince gigas de procesamiento [01:32].
Únicamente se tienen dos cores disponibles, lo que impide generar una arquitectura de clúster más grande [04:10].
No se puede tener más de un clúster activo al mismo tiempo [04:22].
Cuando pasa cierto período de inactividad, el clúster se elimina automáticamente y es necesario volver a crearlo [04:38].
No se pueden realizar configuraciones avanzadas como la escalabilidad del clúster, funcionalidad reservada para la versión de pago [01:40].

Otro dato relevante es que el clúster de la cuenta gratuita se monta sobre AWS [04:52], la infraestructura en la nube de Amazon.

¿Qué opciones de gestión ofrece la interfaz del clúster?

Desde la sección de Compute se puede visualizar el estado del clúster y acceder a varias acciones de administración [05:05]:

Detener (stop) el clúster temporalmente.
Reiniciarlo cuando sea necesario.
Eliminarlo de forma definitiva.

Al ingresar al clúster creado, se despliegan las configuraciones actuales junto con pestañas adicionales como notebooks asociados, librerías para instalar herramientas externas, eventos de logs y la Spark UI [05:30], herramientas que se van conociendo progresivamente durante la formación.

Un aspecto a tener en cuenta es que la cuenta gratuita puede presentar bloqueos automáticos de forma inesperada [06:00]. Cuando esto sucede, la única solución es crear una nueva cuenta Databricks. Si experimentas algún inconveniente de este tipo, compártelo en los comentarios para recibir orientación.

Comentarios

Juan Sebastian Mesa

student•

Cuidado, desde inicios de este mes (julio) ya no existe la versión Community Edition, en su lugar llegó Free Edition que ya no permite crear Clusters en Compute, sino Create SQL Warehouse

Rodrigo Mendoza Cortes

student•

Confirmo, adicional cuándo creas tu cuenta automáticamente se crea el SQL Warehouse con sus parametros para la cuenta Free

juan jose cardona gil

student•

Confirmo la información. Sería bueno tener una versión un poco más actualizada.

Erick Infante

student•

Toda la interfaz de databricks ha cambiado, sería bueno actualizar estar clases...

Paulo Zapata

student•

Lamentablemente este curso ya no corresponde a la nueva interfaz de databricks

Jhon Alexander Túquerres Jiménez

student•

Material actualizado directamente patrocinado por Databricks

Cristian Maldonado

student•

En la nueva versión de Databricks no está diponible la opción de crear clusters gratuitos.

Jorge Andres Muñoz Becerra

student•

la Community Edition murió y la reemplazó la Free Edition, y el modelo de “crear un cluster a mano desde Compute” cambió.

Ahora:

No tienes que (ni puedes) crear el cluster clásico desde el panel de Compute como antes.
La Free Edition usa compute serverless y te lo levanta automáticamente cuando corres un notebook o una consulta.
Por eso en Compute solo ves: SQL warehouse, Vector search, App.

Entonces… ¿qué uso para hacer lo mismo que en Community Edition?

Depende de qué estés haciendo en el curso:

1. Si el curso usa notebooks con PySpark / Scala / SQL

Lo equivalente al cluster de Community Edition es:

👉 Crear un Notebook y adjuntarle el compute serverless.

Pasos:

Ve a Workspace → botón New (o el “+”) → Notebook.
Elige el lenguaje (Python, SQL, etc.).
Arriba del notebook va a aparecer algo tipo “No compute attached” o un botón que dice “Attach compute”.
Ahí eliges la opción Serverless / All-purpose compute (o similar).
- En Free Edition ese “cluster” es serverless y administrado por Databricks, tú no escoges tamaño ni runtime concreto.

Cuando corras la primera celda, Databricks levanta el compute solo. Ese es el reemplazo real del cluster de Community Edition.

Si el curso dice “ve a Compute → Create compute → elige runtime X”: ignóralo.

En Free Edition no puedes elegir runtime; usas el que viene en el serverless.

2. Si el curso es solo de SQL (editor de SQL, dashboards, etc.)

Ahí sí tiene sentido usar:

👉 SQL warehouse

Es el motor para ejecutar queries SQL desde el SQL Editor, BI, dashboards, etc.
En Free Edition puedes tener un solo SQL warehouse, limitado a tamaño pequeño (2X-Small).

Pasos típicos:

Ve a Compute → New → SQL warehouse.
Deja casi todo por defecto y créalo.
Luego, en el SQL Editor, eliges ese warehouse arriba y corres tus queries.

3. ¿Y las otras opciones?

Vector search: para hacer endpoints de búsqueda vectorial (RAG, LLM, etc.).
App: para desplegar una app sobre Databricks (UI, etc.).

Para un curso básico / de fundamentos casi seguro no las necesitas todavía.

Resumen rápido para que no pierdas tiempo

No busques el viejo “Cluster” de Community Edition: ya no existe como tal en Free Edition.
Para hacer lo mismo que antes:
- Notebooks (Spark / Python / SQL) → crea el notebook y adjunta Serverless / All-purpose compute desde el propio notebook.
- Solo SQL desde el editor → crea un SQL warehouse desde Compute y úsalo en el SQL Editor.

by ChatGPT

Ivan Chavez

student•

Databriks versión community se puede desplegar en equipos propios como instalación On-Premise?

Layla Scheli

teacher•

Hola Ivan, si podes utilizarla para gestionar algo propio, pero no de tipo on premise como tal, porque hay muchos conectores que no estan disponibles. Por lo tanto solo te podras conectar a los conectores que hay habilitados :)

Mauro Bravo

student•

Veo que tiene tiempo el comentario, pero por ahí le sirve a alguien. Existe la librería de python delta-spark, que junto al contenedor jupyter/pyspark-notebook podrías levantar algo parecido en local con docker. Saludos

Daniel Eduardo Portugal Revilla

student•

Databricks desde cero 2026!

Leon Felipe Serna Montoya

student•

Al parecer la nueva versión de databricks, ya tiene creado el "computo" por defecto.

Jhon Alexander Túquerres Jiménez

student••

En la actualizacion Databricks comunity ya no necesitas crear un cluster, vas a workspace creas un notebook de jupyter y empiezas a programar.

Luis Ruiz Ramos

student•

Luego de dar try free seleccioné AWS y la interfaz es diferente a la presentada. Me permite más configuraciones

Clayton Jhordan Iliquin Zavaleta

student•

Parece que no estás en la versión free hermano 💀

andres arturo rios

student•

estoy igual, solo me da la opcion, de crear cluster sql, he usado los diferentes métodos de creación de la cuenta pero no me da esa opción, no se como seguir los pasos

Mario Alexander Vargas Celis

student•

La preparación de un cluster de procesamiento, como en Apache Spark o Databricks, implica varios pasos para configurarlo, optimizarlo y garantizar su buen funcionamiento. A continuación se describen algunos aspectos clave:

1. Configuración Inicial del Cluster:

Elección del Tipo de Cluster: Determinar el tamaño del cluster (número de nodos), tipo de máquina (tamaño del nodo) y recursos necesarios como CPU, memoria y almacenamiento.
Configuración de Recursos: Asegurarse de asignar recursos adecuados según el tipo de tareas a realizar (computación intensiva, procesamiento de datos, análisis, etc.).

2. Instalación y Configuración de Software:

Instalación de Spark o Databricks: Instalación de Apache Spark o Databricks en los nodos del cluster.
Configuración de Clusters: Definir configuraciones como cantidad de núcleos, memoria, almacenamiento temporal, etc.

3. Optimización del Rendimiento:

Distribución de Datos: Distribuir los datos equitativamente entre los nodos para evitar cuellos de botella y mejorar el rendimiento.
Compresión de Datos: Usar técnicas de compresión adecuadas (Run-length, Delta, etc.) para reducir el uso de espacio y mejorar el procesamiento.
Configuración de Particiones y Slices: Configurar adecuadamente las particiones y slices para asegurar un procesamiento eficiente.

4. Seguridad y Accesos:

Credenciales y Permisos: Configurar adecuadamente credenciales y permisos de acceso para gestionar la seguridad en el cluster.

5. Monitoreo y Mantenimiento:

Monitoreo de Rendimiento: Implementar herramientas de monitoreo para seguir el rendimiento del cluster y tomar acciones correctivas si es necesario.
Actualizaciones y Escalabilidad: Asegurar que el cluster pueda escalar y adaptarse a cargas de trabajo cambiantes.

6. Optimización de Consultas:

Optimización de Consultas: Utilizar herramientas como "EXPLAIN" o "Analyze" para entender cómo se ejecutan las consultas y optimizarlas.

Estos pasos son fundamentales para garantizar un rendimiento eficiente y efectivo en la ejecución de tareas de procesamiento de datos en un cluster.

Hernando Vela

student•

Ya casi

David Torres

student•

Una actualizadita no caeria mal.

Jhon Alexander Túquerres Jiménez

student•

Los primeros 5 capitulos de este curso estan desactualizados en opciones, te recomiento ver los videos actualizados de Databricks

Las la interfaz a cambiado un poco

Jhon Alexander Túquerres Jiménez

student•

la nueva interfaz community ya no te permite crear un cluster, este material se desactualiza muy rapido con los cambios de interfaz de Databricks

Juan Manuel Erazo Ruiz

student•

como se puede realizar estos ejercicios en la nueva versión ?

Juan Manuel Erazo Ruiz

student•

Para trabajar en la nueva versión de Databricks, primero debes crear un clúster desde la sección de Compute. Asegúrate de seleccionar la última versión de Apache Spark y Scala, ya que estas configuraciones son cruciales para evitar incompatibilidades. En la versión gratuita, ten en cuenta las limitaciones como el tamaño del clúster y la cantidad de cores disponibles. Una vez creado, podrás usarlo para realizar el procesamiento de tus notebooks y laboratorios prácticos.

German Arturo Fajardo Grimaldos

student•

la interface nueva de Databricks ya ha creado un "Serverless Starter Warehouse" que ocupa toda la capacidad entregada sale "You have reached the maximum number of SQL warehouses. Delete an existing warehouse to create a new one."

andres arturo rios

student•

no me permite crear el cluster sin importar como creo la cuenta de prueba, puedo seguir el curso sin esta opcion?

Layla Scheli

teacher•

Hola Andres, no se puede. Tenes que tener un cluster, fijate seguro hay algo que no estas haciendo correctamente. Podes adjuntar alguna imagen para ayudarte mejor :) Saludos!

Creación y Configuración de Clúster en Databricks

Fundamentos del Data Management con Databricks

Gestión Avanzada de Big Data con Databricks y Delta Lake

Fundamentos de Databricks para Big Data y Machine Learning

Arquitectura de Clústeres en Databricks: Procesamiento y Almacenamiento

Uso de Apache Spark en Big Data: Procesamiento y Análisis

Administración y Gestion de la Plataforma de Databricks