Consultas y Filtrado Avanzado con Spark SQL

Curso de Databricks: Arquitectura Delta Lake

Contenido del curso

Fundamentos del Data Management con Databricks

Administración y Gestion de la Plataforma de Databricks

Apache Spark SQL y UDF

Implementacion de un Delta Lake en Databricks

Tomar examen

Consultas y Filtrado Avanzado con Spark SQL

Resumen

¿Cómo trabajar con archivos y esquemas en Spark SQL?

Para triunfar en el manejo de datos, es esencial comprender cómo leer y manipular información adecuadamente. En el contexto de Spark SQL, aprender a importar y definir esquemas es el primer paso crucial. Comencemos cargando un archivo persona.data, al cual aplicamos un esquema de metadatos. Esto nos permite especificar claramente los tipos de datos para cada campo, como ID, nombre o correo electrónico.

from pyspark.sql.types import StructType, StructField, StringType

schema = StructType([
    StructField("ID", StringType(), True),
    StructField("Nombre", StringType(), True),
    StructField("Teléfono", StringType(), True),
    # Añade los demás campos aquí
])

dfPersona = spark.read.format("csv") \
    .option("header", "true") \
    .schema(schema) \
    .load("/FileStore-CursoDatabricks/persona.data")
dfPersona.show(10)

Este enfoque asegura que puedas manejar los datos adecuadamente, reduciendo riesgos de errores al definir claramente los tipos.

¿Cómo crear y manejar una vista temporal?

Para mejorar el manejo de consultas SQL en Spark, es esencial crear una vista temporal de los datos. Esto nos permite interactuar con los datos como si fueran una tabla en SQL. Crear una vista es sencillo:

dfPersona.createOrReplaceTempView("dfPersonaView")

Una vez creada, puedes ejecutar consultas SQL directamente sobre esta vista:

result = spark.sql("SELECT * FROM dfPersonaView WHERE edad > 30")
result.show(10)

Esto simplifica la aplicación de filtros y condiciones, maximizando la eficiencia en tu análisis de datos.

¿Cómo optimizar consultas largas en Spark SQL?

Las consultas extensas pueden complicarse y volverse difíciles de manejar. Aquí destacamos el uso de triple comillas para simplificar y estructurar consultas largas, haciéndolas más legibles:

query = """
SELECT id, nombre, correo
FROM dfPersonaView
WHERE edad > 30 AND salario > 5000
"""
dfResult = spark.sql(query)
dfResult.show(10)

Este método mejora la claridad del código, facilitando el entendimiento y mantenimiento de tus consultas.

¿Qué ventajas tiene la parametrización en consultas SQL?

Incorporar parámetros en tus consultas añade dinamismo y flexibilidad, permitiendo cambios sin modificar la lógica SQL:

paramEdad = 30
paramSalario = 5000

query = f"""
SELECT id, nombre, correo
FROM dfPersonaView
WHERE edad > {paramEdad} AND salario > {paramSalario}
"""
dfResult = spark.sql(query)
dfResult.show(10)

La parametrización permite una gestión más eficiente y adaptable de tus consultas, agilizando los procesos de modificación y mantenimiento.

¿Cómo practicar y aplicar estos conceptos?

Nada refuerza el aprendizaje más que la práctica continua. Aquí te presentamos tres ejercicios que te permitirán aplicar lo aprendido:

Seleccionar nombre y edad de personas mayores de 28 años.
Calcular la edad promedio en el DataFrame.
Extraer nombre, edad y dirección de personas con direcciones registradas.

Desafíate a resolver estos ejercicios utilizando las técnicas presentadas y fortalece tus habilidades en Spark SQL. ¡Sigue explorando, aprendiendo y dominando este vasto mundo de la gestión de datos!

Mario Alexander Vargas Celis

Estudiante

¡Entendido! Si estás trabajando en un laboratorio de PySpark SQL, seguramente estás explorando cómo usar las capacidades SQL en PySpark para consultas, análisis y manipulación de datos.

Parte 2: Ejemplo estructurado para PySpark SQL

A continuación, te guiaré a través de una estructura típica para trabajar con PySpark SQL en un laboratorio:

1. Crear o cargar un DataFrame

Cargamos datos desde un archivo CSV o creamos un DataFrame manualmente.

from pyspark.sql import SparkSession from pyspark.sql.functions import col

# Crear una SparkSession spark = SparkSession.builder.appName("PySpark SQL Lab").getOrCreate()

# Crear un DataFrame manualmente data = [ (1, "Alice", 5000), (2, "Bob", 4000), (3, "Charlie", 7000), (4, "David", 10000), ] columns = ["id", "name", "salary"]

df = spark.createDataFrame(data, columns)

# Mostrar los datos iniciales df.show()

2. Registrar una vista temporal

Registrar una tabla temporal para ejecutar consultas SQL.

# Registrar el DataFrame como una tabla temporal df.createOrReplaceTempView("employees")

3. Ejecutar consultas SQL

Usar Spark SQL para ejecutar consultas sobre los datos.

# Ejemplo 1: Seleccionar todos los registros result = spark.sql("SELECT * FROM employees") result.show()

# Ejemplo 2: Filtrar empleados con salario mayor a 5000 result = spark.sql("SELECT * FROM employees WHERE salary > 5000") result.show()

# Ejemplo 3: Agregar una columna calculada (bonus) result = spark.sql("SELECT *, salary * 0.1 AS bonus FROM employees") result.show()

# Ejemplo 4: Calcular la suma total de salarios result = spark.sql("SELECT SUM(salary) AS total_salary FROM employees") result.show()

4. Realizar transformaciones adicionales

Combinar operaciones SQL y funciones PySpark.

# Agregar una columna 'bonus' al DataFrame original y calcular el total df = df.withColumn("bonus", col("salary") * 0.1) df = df.withColumn("total", col("salary") + col("bonus"))

# Mostrar el DataFrame actualizado df.show()

5. Guardar los resultados

Guardar el resultado de las consultas o transformaciones en diferentes formatos.

# Guardar el DataFrame actualizado como un archivo CSV df.write.csv("output/employees_with_bonus", header=True)

Christian Julian Acosta Santamaria

Layla Scheli

Profesor

Enrique Alejandro Terrazas Huamaní

Yhomira Alexandra Yupayccana Lopa

John Arango

Libardo Jose Castro Aparicio

David Cuellar

Cristian Camilo Cardenas Rodríguez

Angello Triviño Umaña

Javier Ladino

Juan Camilo Sánchez

Paula Andrea Chamorro Rodríguez

Gerardo Mayel Fernández Alamilla

Gabriela Andreina García Uzcategui

Jesús David Vega Porras

Nicolás Mantilla

Fernando Ortiz

Consultas y Filtrado Avanzado con Spark SQL

Fundamentos del Data Management con Databricks

Gestión Avanzada de Big Data con Databricks y Delta Lake

Qué es Databricks y cómo crear tu cuenta

Arquitectura de Clústeres en Databricks: Procesamiento y Almacenamiento

Uso de Apache Spark en Big Data: Procesamiento y Análisis

Administración y Gestion de la Plataforma de Databricks

Creación y Configuración de Clúster en Databricks

Gestión de Datos y Notebooks en Databricks File System

Transformaciones y Acciones en Apache Spark

Qué son los RDDs en Apache Spark

Creación y Transformaciones de RDDs en Databricks

Ações em RDDs que todo iniciante precisa saber

Lectura de Datos en Apache Spark con Databricks

Spark UI en Databricks: qué muestra cada sección

Cómo instalar librerías en Databricks

Alternativas para Trabajar con Apache Spark: Local vs. Nube

Apache Spark SQL y UDF

Lectura y escritura de DataFrames en Apache Spark

Comandos esenciales de Spark SQL con PySpark