Gestión de Datos y Notebooks en Databricks File System

Clase 6 de 25 • Curso de Databricks: Arquitectura Delta Lake

Resumen

¿Qué es el Databricks File System y cómo se utiliza?

El Databricks File System (DBFS) es una capa de almacenamiento gestionada que ofrece Databricks para organizar y almacenar eficientemente datos, notebooks y otros elementos dentro de su plataforma. Aprovechando este sistema, los usuarios pueden estructurar su espacio de trabajo de manera ordenada y optimizar sus flujos de trabajo. El DBFS funciona como un directorio personal, facilitando una accesibilidad rápida y sencilla para la gestión de archivos, datos y comandos.

¿Cómo crear cuadernos y carpetas en Databricks?

Para comenzar a utilizar Databricks, es esencial saber crear y gestionar carpetas y notebooks. Aquí está el proceso que puedes seguir:

Crear Carpeta:
- Accede a la sección de Workspace en Databricks, que actúa como tu directorio personal.
- Haz clic en el botón correspondiente para crear un nuevo folder.
- Asigna un nombre apropiado (ej. "Curso Databricks").
- Presiona "Crear carpeta".
Crear Notebook:
- Dentro de Workspace, selecciona la opción para crear un notebook.
- Asigna un nombre al notebook (ej. "Mi primer notebook").
- Elige el lenguaje de programación: Python, SQL, Scala o R.
- Asegúrate de que el clúster esté configurado correctamente.
- Inserta el famoso código print("Hola Mundo") en Python y ejecútalo.
Ejecutar y gestionar el contenido:
- Ejecuta el notebook para verificar que el contenido funciona correctamente.
- Gestiona notebooks y carpetas: clonar, mover, eliminar, etc., para adaptar los archivos a tus necesidades.

¿Cómo subir y gestionar datos en Databricks?

Subir datos al DBFS es crucial para trabajar con conjuntos de datos directamente desde la plataforma:

Subir archivos al DBFS:
- Dentro de un notebook, haz clic en File y elige "Upload Data to Databricks File System".
- Usa el File Store para especificar la carpeta de destino.
- Arrastra y suelta tus archivos en la sección correspondiente.
- Verifica la carga completa de los archivos mediante un tick verde.
Configurar el navegador de archivos:
- Ve a Admin Settings, habilita el Databricks File Browser.
- Esto permitirá una vista gráfica del DBFS para una gestión más simple y visual de los archivos.
Alternativas para subir datos:
- Accede al 'Catalog' y usa la opción de "Crear Tabla".
- Realiza integraciones con S3 de AWS, Cassandra, Kafka, Redis, etc., para fuentes externas.

¿Cómo gestionar y configurar tus datos?

Es posible realizar configuraciones avanzadas al cargar y gestionar datos en Databricks, mejorando la manera en que interactúas con los archivos:

Configuración de la tabla de datos:
- Copia la ruta de almacenamiento para acceso fácil a los archivos subidos.
- Cambia el nombre de los archivos y especifica su formato (ej. CSV, JSON).
- Configura el delimitador y ajusta tipos de datos como String, Integer, etc.
Previsualización y ajustes personalizados:
- Realiza una previsualización de la tabla para inspeccionar los datos.
- Configura manualmente las características del conjunto de datos antes de crear una tabla.
Crear tablas en notebooks:
- Permite que Databricks genere un notebook con especificaciones de lectura de datos.
- Usa vistas temporales y SQL para análisis o consultas extendidas.

Estas capacidades facilitan la creación de un entorno de trabajo dinámico y altamente adaptable en Databricks. ¡Anímate a explorar esta poderosa herramienta y descubre todo lo que puedes lograr con ella en tus proyectos de datos!