Lectura de Datos en Apache Spark con Databricks

Clase 11 de 25 • Curso de Databricks: Arquitectura Delta Lake

Contenido del curso

Fundamentos del Data Management con Databricks

Administración y Gestion de la Plataforma de Databricks

Apache Spark SQL y UDF

Implementacion de un Delta Lake en Databricks

Resumen

Dominar la lectura de distintos formatos de archivo es uno de los primeros pasos para trabajar con Apache Spark en un entorno real. Saber cómo ingestar archivos CSV, archivos con extensión .data y archivos JSON semiestructurados permite construir pipelines de datos sólidos desde el inicio. A continuación se explican las técnicas y funciones clave que se aplican directamente en Databricks.

¿Cómo preparar el entorno en Databricks para la lectura de datos?

Antes de ejecutar cualquier lectura, es necesario tener el notebook importado y el cluster conectado. Dentro de la plataforma se accede a Workspace, se selecciona la carpeta del curso y se importa el notebook de lectura de datos arrastrándolo al panel de importación [0:10].

Los archivos origen residen en el Databricks File System (DBFS), específicamente en la ruta dbfs:/FileStore/curso_databricks/. Para verificar o copiar la ruta de cualquier archivo basta con ir a la sección de Catalog, ubicar el archivo y usar la opción copy path [1:10].

Un punto importante: en Databricks no es necesario crear una sesión de Spark ni un contexto de Spark de forma manual, ya que ambos vienen predeterminados en el entorno [2:13].

¿Qué funciones se utilizan para leer archivos CSV y .data?

Lectura de archivos CSV

Para leer un archivo CSV se emplea la función spark.read.csv(). Los parámetros esenciales son tres [1:22]:

header: se establece en true para respetar la primera fila como encabezado.
inferSchema: activa la inferencia automática de tipos de dato en cada columna.
ruta del archivo: indica la ubicación dentro de DBFS, por ejemplo dbfs:/FileStore/curso_databricks/2015_summary.csv.

El resultado se almacena en un objeto —en el ejemplo, summary— y con el método .show(10) se visualizan los primeros diez registros en formato dataframe [2:30]. Para inspeccionar el esquema de metadatos se utiliza printSchema, que muestra el nombre de cada campo, su tipo de dato y si acepta valores nulos [2:55].

Lectura de archivos .data con delimitador personalizado

Los archivos .data son archivos de texto plano, por lo que internamente Spark también los trata como CSV. La diferencia radica en las opciones adicionales que se configuran [3:15]:

delimiter: se especifica el carácter separador, en este caso el pipe (|).
encoding: se define la codificación del archivo, por ejemplo ISO-8859-1.
load: recibe la ruta completa del archivo persona.data.

El resultado se guarda en el objeto persona_df. Al ejecutar .show(10) se visualizan campos como ID, nombre, teléfono y correo [4:25]. Aplicar printSchema revela que Spark ha inferido todas las columnas como tipo string, lo cual es común cuando no se fuerza un esquema explícito [4:48].

¿Cómo se lee un archivo JSON semiestructurado en Spark?

La lectura de archivos JSON cambia ligeramente la sintaxis. En lugar de spark.read.csv(), se utiliza spark.read.format("json") seguido del método .load() con la ruta del archivo transacciones.json [5:05].

Un parámetro clave es multiLine, que se establece en true. Esto es necesario porque los archivos JSON suelen contener listas anidadas dentro de otras listas; sin esta opción, Spark podría interpretar incorrectamente la estructura [5:20].

Visualización de datos anidados

Al hacer .show(10), las columnas que contienen estructuras anidadas aparecen truncadas. Para obtener una vista completa se agrega el parámetro false como segundo argumento: .show(10, false). De esta forma se despliega el contenido sin recortes [5:55].

El método printSchema sobre el objeto transacciones_df muestra que el archivo está compuesto por varias estructuras internas [6:25]:

Empresa: incluye campos como ID y nombre.
Persona: contiene datos del individuo.
Transacción: agrupa la información financiera.

Para trabajar analíticamente con este tipo de esquema sería necesario modelar el archivo semiestructurado, es decir, aplanar sus estructuras anidadas y convertirlas en un formato tabular.

Además de CSV, .data y JSON, existen otros formatos muy utilizados en contextos de big data, como Parquet y Avro, que ofrecen ventajas en compresión y rendimiento de lectura.

Si ya tienes tu entorno Databricks configurado, replica cada uno de estos ejemplos con tus propios archivos y comparte en los comentarios qué formato te resultó más sencillo de manejar.

Comentarios

Mario Alexander Vargas Celis

student•

La lectura de datos en Spark es una de las operaciones iniciales más comunes. Spark puede leer datos desde múltiples fuentes, como archivos de texto, CSV, JSON, Parquet, bases de datos, sistemas de almacenamiento distribuido (como HDFS, S3, y Azure Blob Storage), entre otros.

A continuación, se detallan los pasos y ejemplos para leer datos usando Spark en Python.

1. Configuración inicial

Primero, necesitas importar las bibliotecas necesarias y configurar un SparkSession:

from pyspark.sql import SparkSession

# Crear una sesión de Spark spark = SparkSession.builder \ .appName("Lectura de datos") \ .getOrCreate()

2. Tipos de datos que puedes leer

a. Archivos de texto

Para leer archivos de texto, Spark genera un RDD o DataFrame donde cada línea del archivo es un registro.

rdd = spark.sparkContext.textFile("ruta/al/archivo.txt") print(rdd.collect()) # Muestra el contenido del archivo

b. CSV

Spark soporta la lectura de archivos CSV con opciones como encabezados, separadores personalizados y manejo de tipos de datos.

# Leer un archivo CSV con encabezado df_csv = spark.read.csv("ruta/al/archivo.csv", header=True, inferSchema=True)

# Mostrar las primeras filas df_csv.show()

Parámetros comunes:

header=True: Indica si la primera fila contiene nombres de columnas.
inferSchema=True: Infieren los tipos de datos automáticamente.
sep=',': Define el separador del archivo (por defecto, coma).

c. JSON

Spark puede leer datos en formato JSON, que pueden ser simples o anidados.

# Leer un archivo JSON df_json = spark.read.json("ruta/al/archivo.json")

# Mostrar la estructura del DataFrame df_json.printSchema() df_json.show()

d. Parquet

Parquet es un formato columnar altamente eficiente y compatible con Spark.

# Leer un archivo Parquet df_parquet = spark.read.parquet("ruta/al/archivo.parquet")

# Mostrar las primeras filas df_parquet.show()

e. JDBC (Bases de datos)

Puedes conectar Spark a bases de datos relacionales mediante JDBC.

df_jdbc = spark.read \ .format("jdbc") \ .option("url", "jdbc:mysql://host:puerto/nombre_base") \ .option("driver", "com.mysql.jdbc.Driver") \ .option("dbtable", "nombre_tabla") \ .option("user", "usuario") \ .option("password", "contraseña") \ .load()

df_jdbc.show()

3. Opciones adicionales

Spark proporciona diversas opciones para ajustar cómo se leen los datos:

df_csv = spark.read \ .option("header", "true") \ .option("sep", ";") \ .option("inferSchema", "true") \ .csv("ruta/al/archivo.csv") df_csv.show()

4. Guardar datos después de leerlos

Después de leer datos, puedes procesarlos y guardarlos en otros formatos.

# Guardar en Parquet df_csv.write.parquet("ruta/salida/parquet")

# Guardar en JSON df_csv.write.json("ruta/salida/json")

Ejemplo completo

from pyspark.sql import SparkSession

# Crear la sesión de Spark spark = SparkSession.builder \ .appName("Ejemplo de lectura de datos") \ .getOrCreate()

# Leer un archivo CSV df_csv = spark.read.csv("ruta/al/archivo.csv", header=True, inferSchema=True)

# Mostrar información del DataFrame df_csv.printSchema() df_csv.show()

# Filtrar y guardar en formato Parquet df_filtrado = df_csv.filter(df_csv['columna'] > 10) df_filtrado.write.parquet("ruta/salida/filtrado.parquet")

# Finalizar la sesión de Spark spark.stop()

Conclusión

Spark permite leer datos desde una amplia variedad de fuentes.
Puedes usar parámetros como header, inferSchema, y sep para personalizar la lectura.
Una vez cargados, los datos pueden transformarse y guardarse en diferentes formatos.

Esto facilita trabajar con grandes volúmenes de datos en un flujo de trabajo de análisis o procesamiento distribuido.

Juan Camilo Sánchez

student•

No está actualizado el curso, la Free edition no permite hacer nada de esto, qué frustante

Rodrigo Mendoza Cortes

student•

Si se puede bro, tienes que crear un "Volume" en el Unit Catalog y ahí agregar tus archivos, después cambiar la ruta que aparece en notebook por la del "Volume"

JOSE WILLIAM HURTADO ESPITIA

student•

yo lo leí desde la tabla:

Paul Sebastian Idrovo Berrezueta

student•

Alguien sabe como se utiliza en procesos de big data los tipo JSON usando objetos, las aplicaciones y la manipulaicon en dataframes. Si me pueden ayudar con ejemplos, mucho mejor. Gracias.

Juan Sebastian Mesa

student•

Desde finales del año pasado ya no se permite crear cuentas en Community Edition y la Free Edtition no permite ejecutar clusters Spark ni usar PySpark.

Daniel Hernandez

student•

La línea de código total_rdd = num_rdd.reduce(lambda x, y: x + y) aplica la función reduce a un RDD llamado num_rdd. reduce combina todos los elementos del RDD utilizando la función proporcionada, en este caso, una suma. Así, total_rdd contendrá la suma total de todos los elementos en num_rdd. Esto es útil para agregaciones en Big Data, permitiendo resumir grandes volúmenes de datos de forma eficiente.

Javier Ladino

student•

A veces tengo problemas de conexión con la instancia en Databricks, entonces instalé pyspark en Google Colab para ejecutar el ejercicio.

Javier Ladino

student•

Con la version Free edition hasta el momento se puede seguir el curso, cambia la interfase, los nombres y rutas pero si se logra.

El path de los archivos ha cambiado porque Ya no se es DBFS. En mi caso es: /Volumes/workspace/default/curso_db/2015-summary.csv

Esta herramienta es poderosa y muy demandada. No se desanimen.

Juan R Rossano

student•

Tampoco pude acceder al recurso. Lo que noto es que en la clase anterior entiendo que el notebook esta como archivo, y en esta clase esta en google colab.

Layla Scheli

teacher•

Lo voy a reportar :)

Oscar Leonardo Vanegas Molano

student•

Si lo estás visualizando en Colab puedes seleccionar el menú Archivo>Descargar>.ipynb y cargar ese archivo en el workspace de Databricks

Carlos Eduardo Bracho Rosales

student•

No puedo acceder al Notebook de la clase, me dice que debo solicitar el acceso. Lo tuve que hacer todo a mano 😅

Layla Scheli

teacher•

Hola Carlos, por favor lo puedes reportar en Platzi? deberias poder acceder, deje todos los materiales disponibles :)

Lectura de Datos en Apache Spark con Databricks

Fundamentos del Data Management con Databricks

Gestión Avanzada de Big Data con Databricks y Delta Lake

Fundamentos de Databricks para Big Data y Machine Learning

Arquitectura de Clústeres en Databricks: Procesamiento y Almacenamiento

Uso de Apache Spark en Big Data: Procesamiento y Análisis

Administración y Gestion de la Plataforma de Databricks

Creación y Configuración de Clúster en Databricks

Gestión de Datos y Notebooks en Databricks File System

Transformaciones y Acciones en Apache Spark

Conceptos básicos de RDDs en Apache Spark

Creación y Transformaciones de RDDs en Databricks

Acciones en Apache Spark: Uso y Ejemplos Prácticos