Lectura de Datos en Apache Spark con Databricks

Curso de Databricks: Arquitectura Delta Lake

Contenido del curso

Fundamentos del Data Management con Databricks

Administración y Gestion de la Plataforma de Databricks

Apache Spark SQL y UDF

Implementacion de un Delta Lake en Databricks

Tomar examen

Lectura de Datos en Apache Spark con Databricks

Resumen

Dominar la lectura de distintos formatos de archivo es uno de los primeros pasos para trabajar con Apache Spark en un entorno real. Saber cómo ingestar archivos CSV, archivos con extensión .data y archivos JSON semiestructurados permite construir pipelines de datos sólidos desde el inicio. A continuación se explican las técnicas y funciones clave que se aplican directamente en Databricks.

¿Cómo preparar el entorno en Databricks para la lectura de datos?

Antes de ejecutar cualquier lectura, es necesario tener el notebook importado y el cluster conectado. Dentro de la plataforma se accede a Workspace, se selecciona la carpeta del curso y se importa el notebook de lectura de datos arrastrándolo al panel de importación [0:10].

Los archivos origen residen en el Databricks File System (DBFS), específicamente en la ruta dbfs:/FileStore/curso_databricks/. Para verificar o copiar la ruta de cualquier archivo basta con ir a la sección de Catalog, ubicar el archivo y usar la opción copy path [1:10].

Un punto importante: en Databricks no es necesario crear una sesión de Spark ni un contexto de Spark de forma manual, ya que ambos vienen predeterminados en el entorno [2:13].

¿Qué funciones se utilizan para leer archivos CSV y .data?

Lectura de archivos CSV

Para leer un archivo CSV se emplea la función spark.read.csv(). Los parámetros esenciales son tres [1:22]:

header: se establece en true para respetar la primera fila como encabezado.
inferSchema: activa la inferencia automática de tipos de dato en cada columna.
ruta del archivo: indica la ubicación dentro de DBFS, por ejemplo dbfs:/FileStore/curso_databricks/2015_summary.csv.

El resultado se almacena en un objeto —en el ejemplo, summary— y con el método .show(10) se visualizan los primeros diez registros en formato dataframe [2:30]. Para inspeccionar el esquema de metadatos se utiliza printSchema, que muestra el nombre de cada campo, su tipo de dato y si acepta valores nulos [2:55].

Lectura de archivos .data con delimitador personalizado

Los archivos .data son archivos de texto plano, por lo que internamente Spark también los trata como CSV. La diferencia radica en las opciones adicionales que se configuran [3:15]:

delimiter: se especifica el carácter separador, en este caso el pipe (|).
encoding: se define la codificación del archivo, por ejemplo ISO-8859-1.
load: recibe la ruta completa del archivo persona.data.

El resultado se guarda en el objeto persona_df. Al ejecutar .show(10) se visualizan campos como ID, nombre, teléfono y correo [4:25]. Aplicar printSchema revela que Spark ha inferido todas las columnas como tipo string, lo cual es común cuando no se fuerza un esquema explícito [4:48].

¿Cómo se lee un archivo JSON semiestructurado en Spark?

La lectura de archivos JSON cambia ligeramente la sintaxis. En lugar de spark.read.csv(), se utiliza spark.read.format("json") seguido del método .load() con la ruta del archivo transacciones.json [5:05].

Un parámetro clave es multiLine, que se establece en true. Esto es necesario porque los archivos JSON suelen contener listas anidadas dentro de otras listas; sin esta opción, Spark podría interpretar incorrectamente la estructura [5:20].

Visualización de datos anidados

Al hacer .show(10), las columnas que contienen estructuras anidadas aparecen truncadas. Para obtener una vista completa se agrega el parámetro false como segundo argumento: .show(10, false). De esta forma se despliega el contenido sin recortes [5:55].

El método printSchema sobre el objeto transacciones_df muestra que el archivo está compuesto por varias estructuras internas [6:25]:

Empresa: incluye campos como ID y nombre.
Persona: contiene datos del individuo.
Transacción: agrupa la información financiera.

Para trabajar analíticamente con este tipo de esquema sería necesario modelar el archivo semiestructurado, es decir, aplanar sus estructuras anidadas y convertirlas en un formato tabular.

Además de CSV, .data y JSON, existen otros formatos muy utilizados en contextos de big data, como Parquet y Avro, que ofrecen ventajas en compresión y rendimiento de lectura.

Si ya tienes tu entorno Databricks configurado, replica cada uno de estos ejemplos con tus propios archivos y comparte en los comentarios qué formato te resultó más sencillo de manejar.

Mario Alexander Vargas Celis

Estudiante

La lectura de datos en Spark es una de las operaciones iniciales más comunes. Spark puede leer datos desde múltiples fuentes, como archivos de texto, CSV, JSON, Parquet, bases de datos, sistemas de almacenamiento distribuido (como HDFS, S3, y Azure Blob Storage), entre otros.

A continuación, se detallan los pasos y ejemplos para leer datos usando Spark en Python.

1. Configuración inicial

Primero, necesitas importar las bibliotecas necesarias y configurar un SparkSession:

from pyspark.sql import SparkSession

# Crear una sesión de Spark spark = SparkSession.builder \ .appName("Lectura de datos") \ .getOrCreate()

2. Tipos de datos que puedes leer

a. Archivos de texto

Para leer archivos de texto, Spark genera un RDD o DataFrame donde cada línea del archivo es un registro.

rdd = spark.sparkContext.textFile("ruta/al/archivo.txt") print(rdd.collect()) # Muestra el contenido del archivo

b. CSV

Spark soporta la lectura de archivos CSV con opciones como encabezados, separadores personalizados y manejo de tipos de datos.

# Leer un archivo CSV con encabezado df_csv = spark.read.csv("ruta/al/archivo.csv", header=True, inferSchema=True)

# Mostrar las primeras filas df_csv.show()

Parámetros comunes:

header=True: Indica si la primera fila contiene nombres de columnas.
inferSchema=True: Infieren los tipos de datos automáticamente.
sep=',': Define el separador del archivo (por defecto, coma).

c. JSON

Spark puede leer datos en formato JSON, que pueden ser simples o anidados.

# Leer un archivo JSON df_json = spark.read.json("ruta/al/archivo.json")

# Mostrar la estructura del DataFrame df_json.printSchema() df_json.show()

d. Parquet

Parquet es un formato columnar altamente eficiente y compatible con Spark.

# Leer un archivo Parquet df_parquet = spark.read.parquet("ruta/al/archivo.parquet")

# Mostrar las primeras filas df_parquet.show()

e. JDBC (Bases de datos)

Puedes conectar Spark a bases de datos relacionales mediante JDBC.

df_jdbc = spark.read \ .format("jdbc") \ .option("url", "jdbc:mysql://host:puerto/nombre_base") \ .option("driver", "com.mysql.jdbc.Driver") \ .option("dbtable", "nombre_tabla") \ .option("user", "usuario") \ .option("password", "contraseña") \ .load()

df_jdbc.show()

3. Opciones adicionales

Spark proporciona diversas opciones para ajustar cómo se leen los datos:

df_csv = spark.read \ .option("header", "true") \ .option("sep", ";") \ .option("inferSchema", "true") \ .csv("ruta/al/archivo.csv") df_csv.show()

4. Guardar datos después de leerlos

Después de leer datos, puedes procesarlos y guardarlos en otros formatos.

# Guardar en Parquet df_csv.write.parquet("ruta/salida/parquet")

# Guardar en JSON df_csv.write.json("ruta/salida/json")

Ejemplo completo

from pyspark.sql import SparkSession

# Crear la sesión de Spark spark = SparkSession.builder \ .appName("Ejemplo de lectura de datos") \ .getOrCreate()

# Leer un archivo CSV df_csv = spark.read.csv("ruta/al/archivo.csv", header=True, inferSchema=True)

# Mostrar información del DataFrame df_csv.printSchema() df_csv.show()

# Filtrar y guardar en formato Parquet df_filtrado = df_csv.filter(df_csv['columna'] > 10) df_filtrado.write.parquet("ruta/salida/filtrado.parquet")

# Finalizar la sesión de Spark spark.stop()

Conclusión

Spark permite leer datos desde una amplia variedad de fuentes.
Puedes usar parámetros como header, inferSchema, y sep para personalizar la lectura.
Una vez cargados, los datos pueden transformarse y guardarse en diferentes formatos.

Esto facilita trabajar con grandes volúmenes de datos en un flujo de trabajo de análisis o procesamiento distribuido.

Lectura de Datos en Apache Spark con Databricks

Fundamentos del Data Management con Databricks

Gestión Avanzada de Big Data con Databricks y Delta Lake

Qué es Databricks y cómo crear tu cuenta

Arquitectura de Clústeres en Databricks: Procesamiento y Almacenamiento

Uso de Apache Spark en Big Data: Procesamiento y Análisis

Administración y Gestion de la Plataforma de Databricks

Creación y Configuración de Clúster en Databricks

Gestión de Datos y Notebooks en Databricks File System

Transformaciones y Acciones en Apache Spark

Qué son los RDDs en Apache Spark

Creación y Transformaciones de RDDs en Databricks

Ações em RDDs que todo iniciante precisa saber