- 1

Gestión Avanzada de Big Data con Databricks y Delta Lake
01:57 - 2

Fundamentos de Databricks para Big Data y Machine Learning
07:54 - 3

Arquitectura de Clústeres en Databricks: Procesamiento y Almacenamiento
07:49 - 4

Uso de Apache Spark en Big Data: Procesamiento y Análisis
06:25 Quiz - Fundamentos del Data Management con Databricks
Comandos en Apache Spark SQL: Uso Práctico y Ejemplos
Clase 16 de 25 • Curso de Databricks: Arquitectura Delta Lake
Contenido del curso
- 5

Creación y Configuración de Clúster en Databricks
07:03 - 6

Gestión de Datos y Notebooks en Databricks File System
11:26 - 7

Transformaciones y Acciones en Apache Spark
03:42 - 8

Conceptos básicos de RDDs en Apache Spark
02:30 - 9

Creación y Transformaciones de RDDs en Databricks
17:01 - 10

Acciones en Apache Spark: Uso y Ejemplos Prácticos
05:34 - 11

Lectura de Datos en Apache Spark con Databricks
09:36 - 12

Exploración de SparkUI en Databricks: Monitorización y Configuración
04:23 - 13

Instalación de Librerías en Databricks paso a paso
08:30 - 14

Alternativas para Trabajar con Apache Spark: Local vs. Nube
03:42 Quiz - Administración y gestión
- 19

Arquitecturas Data Lake y Delta Lake en Big Data
05:24 - 20
Delta Lake: Almacenamiento y Gestión de Datos en Big Data
01:32 - 21

Arquitectura Medallion en Data Lake House: Capas Bronze, Silver y Gold
03:41 - 22
Comandos Esenciales para Databricks File System (DBFS)
00:34 - 23

Implementación de arquitectura Delta Lake en Databricks
06:38 - 24

Arquitectura Delta Lake: Creación de Capas Bronce, Silver y Gold
05:26 - 25

Gestión de Datos Avanzada con Databricks y Delta Lake
02:14
¿Cómo utilizar comandos SQL en Apache Spark?
En esta era del Big Data, manejar grandes volúmenes de datos de forma eficiente es crucial. Apache Spark es una herramienta invaluable en este sentido, y su módulo Spark SQL permite trabajar con datos estructurados usando comandos SQL, lo que hace que la transición sea fluida para quienes ya están familiarizados con SQL. La creación y manipulación de DataFrames, una representación en fila y columna, facilitan la consulta de datos estructurados.
¿Cómo crear y visualizar DataFrames?
Para empezar a trabajar con Spark SQL, es esencial crear DataFrames a partir de estructuras de datos conocidas, como diccionarios. Por ejemplo:
from pyspark.sql import SparkSession
# Crear una sesión de Spark
spark = SparkSession.builder.appName("Ejemplo").getOrCreate()
# Definición de datos
empleados = [{'ID': 1, 'Nombre': 'Juan', 'Departamento': 1, 'Salario': 3000},
{'ID': 2, 'Nombre': 'Ana', 'Departamento': 2, 'Salario': 4000}]
departamentos = [{'ID': 1, 'Nombre': 'Recursos Humanos'},
{'ID': 2, 'Nombre': 'Finanzas'}]
# Convertir a DataFrames
df_empleados = spark.createDataFrame(empleados)
df_departamentos = spark.createDataFrame(departamentos)
# Mostrar datos
df_empleados.show()
df_departamentos.show()
Es fundamental verificar la correcta creación de los DataFrames usando el método show para obtener una vista tabular de los datos.
¿Cómo aplicar transformaciones básicas?
Una vez que tienes tus DataFrames, se pueden realizar diversas transformaciones. Algunas transformaciones básicas incluyen seleccionar columnas específicas y aplicar filtros.
Selección de columnas
La función select permite seleccionar campos específicos, similar a SQL:
# Seleccionar columnas ID y Nombre
df_empleados.select("ID", "Nombre").show()
Aplicación de filtros
Existen múltiples formas de filtrar datos. Por ejemplo:
# Filtrar donde ID es igual a 1
df_empleados.filter(df_empleados.ID == 1).show()
# Alternativa usando la función `col`
from pyspark.sql.functions import col
df_empleados.filter(col("ID") == 1).show()
Ambos métodos logran el mismo resultado, mostrando la flexibilidad de PySpark.
¿Cuáles son las funciones avanzadas en Spark SQL?
Las funciones avanzadas como drop, withColumn, y las funciones de agregación son esenciales para trabajos más complejos.
Eliminar columnas
La función drop se usa para eliminar columnas de un DataFrame:
# Eliminar columna ID
df_sin_id = df_empleados.drop("ID")
df_sin_id.show()
Crear columnas derivadas
La función withColumn permite derivar nuevas columnas a partir de otras:
# Crear una nueva columna llamada Bonus
df_con_bonus = df_empleados.withColumn("Bonus", df_empleados.Salario * 0.10)
df_con_bonus.show()
Funciones de agregación
La agregación de datos se logra usando la función agg con diversas funciones de agregación disponibles:
from pyspark.sql import functions as f
# Calcular agregados por Departamento
df_aggregado = df_empleados.groupBy("Departamento").agg(
f.count("Salario").alias("Conteo"),
f.sum("Salario").alias("Total Salario"),
f.max("Salario").alias("Salario Max"),
f.min("Salario").alias("Salario Min"),
f.avg("Salario").alias("Promedio Salario")
)
df_aggregado.show()
¿Cómo realizar uniones (joins) entre DataFrames?
Los joins combinan datos de dos DataFrames basados en una condición común. Existen varios tipos de joins: inner join, left outer join, right outer join, y full outer join.
Inner join
Un inner join muestra solo las filas que tienen coincidencias en ambos DataFrames.
# Inner join entre empleados y departamentos
df_inner_join = df_empleados.join(df_departamentos, df_empleados.Departamento == df_departamentos.ID)
df_inner_join.show()
Left outer join
Un left join incluye todos los registros del DataFrame de la izquierda y las coincidencias del de la derecha.
# Left join
df_left_join = df_empleados.join(df_departamentos, df_empleados.Departamento == df_departamentos.ID, "left")
df_left_join.show()
Estos ejemplos muestran cómo manejar diferentes tipos de joins, asegurando que puedas integrar datos de diversas fuentes eficientemente.
Al dominar el uso de estas funcionalidades en Spark SQL, puedes manejar grandes volúmenes de datos estructurados con la eficacia y flexibilidad que solo Apache Spark ofrece. Explora estas herramientas en tu entorno de Databricks y sigue desarrollando tus habilidades en el procesamiento de datos.