Gestión de Datos y Notebooks en Databricks File System

Clase 6 de 25Curso de Databricks: Arquitectura Delta Lake

Resumen

¿Qué es el Databricks File System y cómo se utiliza?

El Databricks File System (DBFS) es una capa de almacenamiento gestionada que ofrece Databricks para organizar y almacenar eficientemente datos, notebooks y otros elementos dentro de su plataforma. Aprovechando este sistema, los usuarios pueden estructurar su espacio de trabajo de manera ordenada y optimizar sus flujos de trabajo. El DBFS funciona como un directorio personal, facilitando una accesibilidad rápida y sencilla para la gestión de archivos, datos y comandos.

¿Cómo crear cuadernos y carpetas en Databricks?

Para comenzar a utilizar Databricks, es esencial saber crear y gestionar carpetas y notebooks. Aquí está el proceso que puedes seguir:

  1. Crear Carpeta:

    • Accede a la sección de Workspace en Databricks, que actúa como tu directorio personal.
    • Haz clic en el botón correspondiente para crear un nuevo folder.
    • Asigna un nombre apropiado (ej. "Curso Databricks").
    • Presiona "Crear carpeta".
  2. Crear Notebook:

    • Dentro de Workspace, selecciona la opción para crear un notebook.
    • Asigna un nombre al notebook (ej. "Mi primer notebook").
    • Elige el lenguaje de programación: Python, SQL, Scala o R.
    • Asegúrate de que el clúster esté configurado correctamente.
    • Inserta el famoso código print("Hola Mundo") en Python y ejecútalo.
  3. Ejecutar y gestionar el contenido:

    • Ejecuta el notebook para verificar que el contenido funciona correctamente.
    • Gestiona notebooks y carpetas: clonar, mover, eliminar, etc., para adaptar los archivos a tus necesidades.

¿Cómo subir y gestionar datos en Databricks?

Subir datos al DBFS es crucial para trabajar con conjuntos de datos directamente desde la plataforma:

  1. Subir archivos al DBFS:

    • Dentro de un notebook, haz clic en File y elige "Upload Data to Databricks File System".
    • Usa el File Store para especificar la carpeta de destino.
    • Arrastra y suelta tus archivos en la sección correspondiente.
    • Verifica la carga completa de los archivos mediante un tick verde.
  2. Configurar el navegador de archivos:

    • Ve a Admin Settings, habilita el Databricks File Browser.
    • Esto permitirá una vista gráfica del DBFS para una gestión más simple y visual de los archivos.
  3. Alternativas para subir datos:

    • Accede al 'Catalog' y usa la opción de "Crear Tabla".
    • Realiza integraciones con S3 de AWS, Cassandra, Kafka, Redis, etc., para fuentes externas.

¿Cómo gestionar y configurar tus datos?

Es posible realizar configuraciones avanzadas al cargar y gestionar datos en Databricks, mejorando la manera en que interactúas con los archivos:

  1. Configuración de la tabla de datos:

    • Copia la ruta de almacenamiento para acceso fácil a los archivos subidos.
    • Cambia el nombre de los archivos y especifica su formato (ej. CSV, JSON).
    • Configura el delimitador y ajusta tipos de datos como String, Integer, etc.
  2. Previsualización y ajustes personalizados:

    • Realiza una previsualización de la tabla para inspeccionar los datos.
    • Configura manualmente las características del conjunto de datos antes de crear una tabla.
  3. Crear tablas en notebooks:

    • Permite que Databricks genere un notebook con especificaciones de lectura de datos.
    • Usa vistas temporales y SQL para análisis o consultas extendidas.

Estas capacidades facilitan la creación de un entorno de trabajo dinámico y altamente adaptable en Databricks. ¡Anímate a explorar esta poderosa herramienta y descubre todo lo que puedes lograr con ella en tus proyectos de datos!