Creación y Configuración de Clúster en Databricks

Clase 5 de 25Curso de Databricks: Arquitectura Delta Lake

Resumen

¿Cómo crear un clúster en Databricks?

Para implementar una arquitectura básica Delta Lake en nuestro proyecto, es esencial contar con un clúster en Databricks. El proceso es bastante sencillo y esencial para aprovechar al máximo Apache Spark y Databricks.

¿Qué es un clúster y cómo crearlo?

Un clúster es un conjunto de computadoras conectadas que permiten el procesamiento masivo de datos. Para crear uno en Databricks, debemos ingresar a la sección "Compute" y presionar el botón de "crear cómputo". Al hacerlo, debemos:

  1. Asignar un nombre al clúster, por ejemplo: "Clúster Platzi".
  2. Seleccionar las versiones de Scala y Spark que vienen preinstaladas. Estas versiones son claves, ya que afectan la compatibilidad con otras librerías e integraciones.
  3. Configurar las capacidades en términos de RAM y CPU, especialmente considerando las limitaciones de la versión gratuita de Databricks, que ofrece un máximo de 15 GB de procesamiento.

¿Qué beneficios y limitaciones tiene la versión gratuita de Databricks?

Uno de los beneficios de Databricks es que la tecnología de Apache Spark y Scala ya vienen instaladas, lo que facilita el comienzo. Sin embargo, la versión gratuita tiene ciertas restricciones:

  • Limitaciones de escalabilidad: Solo ofrece dos núcleos, impidiendo crear arquitecturas de clúster más robustas.
  • Clústeres activos: No es posible tener más de un clúster activo simultáneamente.
  • Autodestrucción del clúster: Si no se utiliza por un periodo de tiempo, el clúster se elimina automáticamente.
  • Interfaz sobre AWS: Los clústeres en la versión gratuita se montan sobre AWS, sumando una capa gráfica que simplifica su manejo.

¿Qué opcionalidades ofrece el clúster creado?

Una vez activo nuestro clúster, en la sección de "Compute" podemos:

  • Detener, reiniciar o eliminar el clúster según nuestras necesidades.
  • Ver configuraciones completas del clúster.
  • Utilizar notebooks: Aunque inicialmente no aparecen asociados, podemos trabajar con ellos.
  • Administrar librerías, eventos logs y la Spark UI, herramientas que exploraremos a fondo durante nuestra formación.

¿Qué hacer ante problemas con la cuenta de Databricks?

Usar una cuenta gratuita en Databricks a veces puede resultar en bloqueos automáticos sin previo aviso. En tal caso, la única solución es:

  • Crear una nueva cuenta: No hay otras alternativas si la cuenta se bloquea de manera automática durante el proceso.

Te alentamos a experimentar y familiarizarte con la creación de tu clúster. Esta práctica te ayudará a realizar los laboratorios y a gestionar proyectos específicos del curso. Si presentas problemas, recurre a la sección de comentarios para buscar apoyo. ¡Adelante en tu camino hacia la maestría en Big Data!