Contar con un clúster correctamente configurado es el primer paso para trabajar con procesamiento distribuido en Databricks. Antes de ejecutar cualquier laboratorio práctico o implementar una arquitectura de Delta Lake, se necesita un entorno de cómputo activo que proporcione los recursos de RAM y CPU necesarios. A continuación se explica paso a paso cómo crearlo dentro de la capa gratuita de la plataforma.
¿Cómo se crea un clúster en Databricks?
Dentro de la plataforma Databricks, el punto de partida es la sección de Compute [01:00]. Desde allí se presiona el botón de crear cómputo, lo que abre un formulario sencillo donde se debe completar el nombre del clúster, por ejemplo "Clúster Platzi".
Un clúster, en esencia, es un conjunto de computadoras conectadas en red [03:24]. Cada nodo del clúster viene con tecnologías preinstaladas, y esa es una de las grandes ventajas que ofrece Databricks: proporcionar un clúster completamente administrado con Apache Spark listo para usar, sin que el usuario tenga que realizar la instalación manualmente.
¿Qué versiones se deben considerar al configurar el clúster?
Al momento de crear el clúster, se puede elegir entre varias versiones disponibles [02:22]. Es recomendable utilizar la más actual, pero lo verdaderamente importante es tomar nota de dos datos:
- La versión de Scala utilizada.
- La versión de Spark instalada.
Esta información resulta crucial cuando se necesita instalar una librería externa o realizar alguna integración, ya que conocer ambas versiones evita problemas de incompatibilidad [02:40].
¿Cuánto tarda en estar disponible el clúster?
Una vez completada la configuración, se presiona el botón de crear. El proceso de creación suele demorar algunos minutos [03:10]. Una barra de avance indica el progreso, y cuando está totalmente verde significa que el clúster se encuentra activo y disponible para ejecutar notebooks y procesar datos.
También es posible configurar el clúster mediante una vista de JSON en lugar de la interfaz gráfica, lo que ofrece flexibilidad para quienes prefieren trabajar con ese formato [03:02].
¿Cuáles son las limitaciones de la capa gratuita de Databricks?
La versión gratuita de Databricks impone restricciones importantes que conviene conocer antes de comenzar a trabajar:
- Solo se dispone de quince gigas de procesamiento [01:32].
- Únicamente se tienen dos cores disponibles, lo que impide generar una arquitectura de clúster más grande [04:10].
- No se puede tener más de un clúster activo al mismo tiempo [04:22].
- Cuando pasa cierto período de inactividad, el clúster se elimina automáticamente y es necesario volver a crearlo [04:38].
- No se pueden realizar configuraciones avanzadas como la escalabilidad del clúster, funcionalidad reservada para la versión de pago [01:40].
Otro dato relevante es que el clúster de la cuenta gratuita se monta sobre AWS [04:52], la infraestructura en la nube de Amazon.
¿Qué opciones de gestión ofrece la interfaz del clúster?
Desde la sección de Compute se puede visualizar el estado del clúster y acceder a varias acciones de administración [05:05]:
- Detener (stop) el clúster temporalmente.
- Reiniciarlo cuando sea necesario.
- Eliminarlo de forma definitiva.
Al ingresar al clúster creado, se despliegan las configuraciones actuales junto con pestañas adicionales como notebooks asociados, librerías para instalar herramientas externas, eventos de logs y la Spark UI [05:30], herramientas que se van conociendo progresivamente durante la formación.
Un aspecto a tener en cuenta es que la cuenta gratuita puede presentar bloqueos automáticos de forma inesperada [06:00]. Cuando esto sucede, la única solución es crear una nueva cuenta Databricks. Si experimentas algún inconveniente de este tipo, compártelo en los comentarios para recibir orientación.