Gestión de Datos y Notebooks en Databricks File System
Clase 6 de 25 • Curso de Databricks: Arquitectura Delta Lake
Resumen
¿Qué es el Databricks File System y cómo se utiliza?
El Databricks File System (DBFS) es una capa de almacenamiento gestionada que ofrece Databricks para organizar y almacenar eficientemente datos, notebooks y otros elementos dentro de su plataforma. Aprovechando este sistema, los usuarios pueden estructurar su espacio de trabajo de manera ordenada y optimizar sus flujos de trabajo. El DBFS funciona como un directorio personal, facilitando una accesibilidad rápida y sencilla para la gestión de archivos, datos y comandos.
¿Cómo crear cuadernos y carpetas en Databricks?
Para comenzar a utilizar Databricks, es esencial saber crear y gestionar carpetas y notebooks. Aquí está el proceso que puedes seguir:
-
Crear Carpeta:
- Accede a la sección de Workspace en Databricks, que actúa como tu directorio personal.
- Haz clic en el botón correspondiente para crear un nuevo folder.
- Asigna un nombre apropiado (ej. "Curso Databricks").
- Presiona "Crear carpeta".
-
Crear Notebook:
- Dentro de Workspace, selecciona la opción para crear un notebook.
- Asigna un nombre al notebook (ej. "Mi primer notebook").
- Elige el lenguaje de programación: Python, SQL, Scala o R.
- Asegúrate de que el clúster esté configurado correctamente.
- Inserta el famoso código
print("Hola Mundo")
en Python y ejecútalo.
-
Ejecutar y gestionar el contenido:
- Ejecuta el notebook para verificar que el contenido funciona correctamente.
- Gestiona notebooks y carpetas: clonar, mover, eliminar, etc., para adaptar los archivos a tus necesidades.
¿Cómo subir y gestionar datos en Databricks?
Subir datos al DBFS es crucial para trabajar con conjuntos de datos directamente desde la plataforma:
-
Subir archivos al DBFS:
- Dentro de un notebook, haz clic en File y elige "Upload Data to Databricks File System".
- Usa el File Store para especificar la carpeta de destino.
- Arrastra y suelta tus archivos en la sección correspondiente.
- Verifica la carga completa de los archivos mediante un tick verde.
-
Configurar el navegador de archivos:
- Ve a Admin Settings, habilita el Databricks File Browser.
- Esto permitirá una vista gráfica del DBFS para una gestión más simple y visual de los archivos.
-
Alternativas para subir datos:
- Accede al 'Catalog' y usa la opción de "Crear Tabla".
- Realiza integraciones con S3 de AWS, Cassandra, Kafka, Redis, etc., para fuentes externas.
¿Cómo gestionar y configurar tus datos?
Es posible realizar configuraciones avanzadas al cargar y gestionar datos en Databricks, mejorando la manera en que interactúas con los archivos:
-
Configuración de la tabla de datos:
- Copia la ruta de almacenamiento para acceso fácil a los archivos subidos.
- Cambia el nombre de los archivos y especifica su formato (ej. CSV, JSON).
- Configura el delimitador y ajusta tipos de datos como String, Integer, etc.
-
Previsualización y ajustes personalizados:
- Realiza una previsualización de la tabla para inspeccionar los datos.
- Configura manualmente las características del conjunto de datos antes de crear una tabla.
-
Crear tablas en notebooks:
- Permite que Databricks genere un notebook con especificaciones de lectura de datos.
- Usa vistas temporales y SQL para análisis o consultas extendidas.
Estas capacidades facilitan la creación de un entorno de trabajo dinámico y altamente adaptable en Databricks. ¡Anímate a explorar esta poderosa herramienta y descubre todo lo que puedes lograr con ella en tus proyectos de datos!