Joins y Selección de Datos en DataFrames con PySpark

Clase 16 de 25 • Curso de Fundamentos de Spark para Big Data

Contenido del curso

Conociendo Apache Spark

Configuración

Operaciones RDDs

Data Frames y SQL

Persistencia y particionado

Conclusiones

25
Uso de RDDs y DataFrames en Apache Spark
01:12 min

Tomar examen

Resumen

¿Cómo interactuar con múltiples DataFrames en PySpark?

Trabajar con múltiples DataFrames es una habilidad fundamental para manejar y analizar datos de manera efectiva en cualquier proyecto de análisis de datos. En este contexto, utilizaremos PySpark para interactuar con distintos DataFrames mediante operaciones de join. Esta práctica es esencial para unir diferentes conjuntos de datos y encontrar información valiosa de manera eficiente.

Para ilustrar este proceso, utilizaremos varios DataFrames como ejemplos, entre ellos, deportista_olímpico, resultado, y juego.

¿Qué es un Join en PySpark?

En PySpark, un join o unión es una operación que nos permite combinar columnas de dos DataFrames con base en una relación entre sus columnas. Existen varios tipos de uniones, tales como:

Inner join: Devuelve registros que tienen valores coincidentes en ambas tablas.
Left join: Devuelve todos los registros de la tabla izquierda y los registros coincidentes de la tabla derecha.
Right join: Devuelve todos los registros de la tabla derecha y los registros coincidentes de la tabla izquierda.
Full outer join: Devuelve registros cuando hay una coincidencia en la tabla izquierda o derecha.

¿Cómo realizar un Left Join con PySpark?

A continuación, te mostramos cómo realizar un left join usando PySpark. Iniciaremos el proceso utilizando el DataFrame deportista_olímpico:

# Ejemplo de Left Join en PySpark
from pyspark.sql.functions import col

# Join entre 'deportista_olímpico' y 'resultado'
joined_df = deportista_olímpico.join(
    resultado,
    deportista_olímpico.deportistaID == resultado.deportistaID,
    'left'
)

# Join entre 'joined_df' y 'juego'
joined_df = joined_df.join(
    juego,
    joined_df.resultadoID == juego.juegoID,
    'left'
)

# Join entre 'joined_df' y 'deportes_olímpicos'
joined_df = joined_df.join(
    deportes_olímpicos,
    joined_df.resultado_eventoID == deportes_olímpicos.eventoID,
    'left'
)

¿Cómo seleccionar las columnas deseadas?

Después de realizar las uniones, es crucial seleccionar las columnas relevantes para tu análisis. A continuación, te mostramos cómo hacerlo aplicando alias para mejorar la legibilidad:

# Selección de columnas con alias para una mejor interpretación
final_df = joined_df.select(
    deportista_olímpico.nombre.alias('Nombre del Jugador'),
    deportista_olímpico.edad.alias('Edad al Jugar'),
    resultado.medalla,
    juego.año.alias('Año de Juego'),
    deportes_olímpicos.nombre.alias('Nombre de Disciplina')
)

# Mostrar el resultado
final_df.show()

¿Cómo resolver problemas de ambigüedad?

En operaciones con múltiples DataFrames, es común enfrentar problemas de ambigüedad debido a columnas con nombres idénticos. Para evitar esto, es recomendable usar alias claros que identifiquen la procedencia de cada columna y hacer explícitas las referencias a las tablas:

# Resolviendo ambigüedad al hacer explícita la referencia a las tablas
final_df = joined_df.select(
    deportista_olímpico.nombre.alias('Nombre del Jugador'),
    deportista_olímpico.edad.alias('Edad al Jugar'),
    resultado.medalla,
    juego.año.alias('Año de Juego'),
    deportes_olímpicos.nombre.alias('Nombre de Disciplina')
)

# Mostrar el resultado de manera clara
final_df.show()

Reto práctico

Para consolidar lo aprendido, te proponemos un reto: intenta realizar un join que combine todas las medallas ganadoras junto con el país y el equipo al que pertenecen. Recuerda enfocarte solo en las medallas ganadoras y ten cuidado para evitar duplicados o ambigüedades.

A medida que avanzas en tu aprendizaje, estas prácticas te ayudarán a generar análisis robustos y eficientes. ¡Continúa explorando la fascinante cantidad de posibilidades que la ciencia de datos tiene para ofrecerte!

Comentarios

Daniel G Perico Sánchez

student•

El tema de crear los esquemas siempre es un poco tardado, por el momento creé una pequeña función en python que imprime un string de la estructura del esquema. Las consideraciones son:

La función recibe dos parámetros, un Pandas DataFrame y el nombre en el que se quiere guardar el Schema.
El print que devuelve la función tiene un StringType() para todas las columnas, hay que hacer el cambio manual.
Hay que copiar y pegar el print que devuelve la función en una nueva celda.
Funciona bien, cuando el csv tiene nombres correctos y sin espacios en las columnas, de lo contrario habrá que hacer unos pequeños arreglos manuales.

import pandas as pd
import re

def createSchema(df, variable_name):
    variable_name = str(variable_name)
    structColumns = [re.sub(r'(\w+)',"StructField('\g<1>', StringType(), False)\n",i) for i in df.columns]
    return print(variable_name + ' = StructType(' + '[%s]' % ', '.join(map(str, structColumns)) + ')')


#Uso de la función
resultados = pd.read_csv(path + 'resultados.csv', nrows = 2)
createSchema(resultados, 'resultadosSchema') 

#Devuelve:
resultadosSchema = StructType([StructField('resultado_id', StringType(), False)
, StructField('medalla', StringType(), False)
, StructField('deportista_id', StringType(), False)
, StructField('juego_id', StringType(), False)
, StructField('evento_id', StringType(), False)
])

Espero esto le sea de utilidad a alguien 😄

William Arevalo

student•

Excelente aporte; Le hice unas modificaciones a tu codigo y ahora retorna la estructura en vez de imprimirla ademas de ser dinamica, por lo que no solo te dara StringTypes

Podrias evaluar el dtypes de cada columna del dataframe de pandas y asignar dinamicamente si es StringType() o IntegerType() en el schema, ademas de volver un proceso que te returne el schema en si, con la funcion eval() lo puedes hacer

Te dejo documentacion de ambos

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.dtypes.html https://www.w3schools.com/python/ref_func_eval.asp

Al final me anime a hacerla este es el resultado

def createSchema(df):
    struct = "StructType(["
    for i, type_column in enumerate(list( map(lambda x: str(x), df.dtypes) )):
      if type_column == 'object':
        struct +=  f"StructField('{df.columns[i]}', StringType(), False),"
      elif type_column == 'int64':
        struct +=  f"StructField('{df.columns[i]}', IntegerType(), False),"
      elif type_column == 'float64':
        struct +=  f"StructField('{df.columns[i]}', FloatType(), False),"
      else:
        print('Error: Unknown type')
        break
    struct += "])"
    return eval(struct)

Y para usarla seria algo como esto:

resultadosSchema = createSchema(df)

Mario Alberto Vásquez Arias

student•

Hola chicos! Me sale este error cuando ejecuto el show() después de hacer todo el join. He intentado de todo y no se que podría ser. Agradecería su ayuda.

Carlos Alfredo Marin Gallego

student•

Buenas tardes mariovasqueza,

El error se produce porque en el archivo resultados.csv en la columna evento_id existen valores con #N/A, muy seguramente cargó los datos en un RDD y luego los transformó en un DF, lo que tiene que hacer es cargarlos directamente como DF:

resultadoSchema = StructType([
    StructField("resultado_id",IntegerType(),False),
    StructField("medalla",StringType(),False),
    StructField("deportista_id",IntegerType(),False),
    StructField("juego_id",IntegerType(),False),
    StructField("evento_id",IntegerType(),False),
])
resultadoDF = sqlContext.read.schema(resultadoSchema).option("header","true").csv(path+"resultados.csv")

Espero que esto resuelva su problema, saludos.

Jose Daniel Gallegos Padilla

student•

Esta es la solución al reto de Óscar:

resultadosDF.join(deportistaOlimpicoDF,\
                 deportistaOlimpicoDF.deportista_id == resultadosDF.deportista_id,
                 "left").join(
                 paisesDF, paisesDF.equipo_id == deportistaOlimpicoDF.equipo_id
                 ).select("medalla", "equipo","sigla").\
                 where(resultadosDF.medalla != "NA").show(20)

+-------+--------------+-----+
|medalla|        equipo|sigla|
+-------+--------------+-----+
|   Gold|Denmark/Sweden|  SWE|
| Bronze|       Finland|  FIN|
| Bronze|       Finland|  FIN|
| Bronze|       Finland|  FIN|
| Bronze|       Finland|  FIN|
|   Gold|       Finland|  FIN|
|   Gold|       Finland|  FIN|
|   Gold|       Finland|  FIN|
| Bronze|       Finland|  FIN|
|   Gold|        Norway|  NOR|
|   Gold|        Norway|  NOR|
|   Gold|        Norway|  NOR|
| Silver|        Norway|  NOR|
| Bronze|        Norway|  NOR|```

Caroline Prada Ventero

student•

Apenas me ando adentrando en este tema de Apache Spark y al inicio tenía algo de susto de pensar que sería una cosa de locos, pero me doy cuenta que está super emocionante el tema :D

Iván Mauricio Jaimes Niño

student•

Si se presenta el error: NameError: name 'col' is not defined

from pyspark.sql.functions import col

William Arevalo

student•

hay un typo en la ejecucion cuando hace los joins y es raro que le sirva escribe resultadosDF.deporitsta_id

Carlos Felipe Saldarriaga Bejarano

student•

en su esquema había nombrado esa columna como "deporitsta_id" por eso no le generó problemas 😅

Gerardo Miguel Pérez Solis

student•

Mi resultado del reto

deportista_df.join(paises_df,deportista_df.equipo_id == paises_df.id,"left") \
            .join(resultados_df,deportista_df.deportista_id == resultados_df.deportista_id, "left") \
            .filter(resultados_df.medalla != "NA") \
            .select("medalla","sigla","equipo") \
            .show(20)

+-------+-----+--------------+
|medalla|sigla|        equipo|
+-------+-----+--------------+
|   Gold|  SWE|Denmark/Sweden|
| Bronze|  FIN|       Finland|
| Bronze|  FIN|       Finland|
| Bronze|  FIN|       Finland|
| Bronze|  FIN|       Finland|
|   Gold|  FIN|       Finland|
|   Gold|  FIN|       Finland|
|   Gold|  FIN|       Finland|
| Bronze|  FIN|       Finland|
|   Gold|  NOR|        Norway|
|   Gold|  NOR|        Norway|
|   Gold|  NOR|        Norway|
| Silver|  NOR|        Norway|
| Bronze|  NOR|        Norway|
| Silver|  NOR|        Norway|
| Bronze|  NOR|        Norway|
|   Gold|  NOR|        Norway|
|   Gold|  NOR|        Norway|
| Silver|  NOR|        Norway|
| Bronze|  NED|   Netherlands|
+-------+-----+--------------+

Andres Antonio Santisteban Lino

student•

Hola se que ahora debes estar reompiendote la cabeza con el ejecicio, les dejo el desarrollo para quien se halla estancado aqui

Israel Flores

student•

¿Hay alguna manera de asignar más recursos de procesamiento antes de ejecutar múltiples joins?

Andrey Mena

student•

Hola, veo que se utiliza el campo evento_id en deportesOlimpicosDF, mi duda es que en el archivo que cargo (deporte.csv) no viene ese campo

Cómo llegaron ustedes a efectuar el join correctamente sin el campo? O agregaron el campo de alguna manera?

Andrey Mena

student•

Norma Natalia Moreno Espinoza

student•

Hola Andrey :D Es correcto debemos agregarlo, mira esta parte para que puedas agregar campos a evento_id

Nunca pares de aprender. 💚

Freddy Cardozo

student•

como sacaron el df de deportes olimpicos ? con eventoid deporte y deporteid?

Miguel Angel Velazquez Romero

student•

Saben por qué me sale este error? Podrían ayudarme a solucionarlo por favor?

rogelio cortez

student•

# union de medalla , pais y equipo que pertenecen
DeportistaDF.join(resultados,DeportistaDF.deportista_id == resultados.deportista_id,'left')\
.join(paises,paises.id == DeportistaDF.equipo_id,'left')\
.select('medalla','equipo','sigla').filter(resultados.medalla !='NA').show(5)
```# union de medalla , pais y equipo que pertenecenDeportistaDF.join(resultados,DeportistaDF.deportista\_id == resultados.deportista\_id,'left')\\.join(paises,paises.id == DeportistaDF.equipo\_id,'left')\\.select('medalla','equipo','sigla').filter(resultados.medalla !='NA').show(5)

Francisco Garcia [C6]

student•

Esta es mi solución al reto

deportistasDF.join(resultadosDF, deportistasDF.deportista_id == resultadosDF.deportista_id, "left") \
.join(paisesDF, paisesDF.id == deportistasDF.equipo_id, "left") \
.select(
    "medalla", 
    col("sigla").alias("pais"),
    "equipo"
) \
.where(resultadosDF.medalla != "NA").show()

Johan Steven Arias Pérez

student•

Les recomiendo que si por algún motivo le sale error a la hora de realizar el join y están seguros que la syntaxis es correcta importen el DataFrame directamente desde el csv y no lo hagan desde el RDD a DataFrame.

Sergio de Jesús Huesca Nieva

student•

resultadoDF.filter(resultadoDF.medalla!=“NA”)
.join(deportista1DF,deportista1DF.deportista_id == resultadoDF.deportista_id)
.join(paisDF,paisDF.pais_id == deportista1DF.equipo_id)
.select(“medalla”,paisDF.sigla,paisDF.equipo).show()

José Martínez Santana

student•

Reto:

from pyspark.sql.functions import *
df_athetles.join(df_results, df_results.athetle_id == df_athetles.athetle_id, 'inner') \
    .join(df_teams, df_teams.team_id == df_athetles.team_id, 'inner') \
    .select('medal', 'country').where(df_results.medal != 'NA').distinct() \
    .sort(col('country').desc()).show()

José Martínez Santana

student•

Reto:

df_athetles.join(df_teams, df_teams.team_id == df_athetles.team_id, 'inner') \
    .join(df_results, df_results.athetle_id == df_athetles.athetle_id, 'inner') \
    .select('medal', 'country', 'athetle_name', 'team').show()

Jose Luis Higuera Caraveo

student•

Este es el código que apliqué para resolver el reto

results_DF.join(
    player_DF, results_DF.player_id == player_DF.player_id, 'left'
) \
.join(
    countries_DF, player_DF.team_id == countries_DF.id, 'left'
) \
.select('medal', 'team', 'abbreviation') \
.filter(results_DF.medal != 'NA').show()

Este es el resultado

+------+--------------+------------+
| medal|          team|abbreviation|
+------+--------------+------------+
|  Gold|Denmark/Sweden|         SWE|
|Bronze|       Finland|         FIN|
|Bronze|       Finland|         FIN|
|Bronze|       Finland|         FIN|
|Bronze|       Finland|         FIN|
|  Gold|       Finland|         FIN|
|  Gold|       Finland|         FIN|
|  Gold|       Finland|         FIN|
|Bronze|       Finland|         FIN|
|  Gold|        Norway|         NOR|
|Bronze|        Norway|         NOR|
|Silver|        Norway|         NOR|
|Bronze|        Norway|         NOR|
|Silver|        Norway|         NOR|
|  Gold|        Norway|         NOR|
|  Gold|        Norway|         NOR|
|  Gold|        Norway|         NOR|
|  Gold|        Norway|         NOR|
|Silver|        Norway|         NOR|
|Bronze|   Netherlands|         NED|
+------+--------------+------------+

Pablo Rosa

student•

Comparto el resultado de la clase anterior

import pandas as pd
import re

def createSchema(df, variable_name):
    variable_name = str(variable_name)
    structColumns = [re.sub(r'(\w+)',"StructField('\g<1>', StringType(), False)\n",i) for i in df.columns]
    return print(variable_name + ' = StructType(' + '[%s]' % ', '.join(map(str, structColumns)) + ')')


#Uso de la función
resultados = pd.read_csv(path + 'resultados.csv', nrows = 2)
createSchema(resultados, 'resultadosSchema') 

#Devuelve:
resultadosSchema = StructType([StructField('resultado_id', StringType(), False)
, StructField('medalla', StringType(), False)
, StructField('deportista_id', StringType(), False)
, StructField('juego_id', StringType(), False)
, StructField('evento_id', StringType(), False)
])

def createSchema(df):
    struct = "StructType(["
    for i, type_column in enumerate(list( map(lambda x: str(x), df.dtypes) )):
      if type_column == 'object':
        struct +=  f"StructField('{df.columns[i]}', StringType(), False),"
      elif type_column == 'int64':
        struct +=  f"StructField('{df.columns[i]}', IntegerType(), False),"
      elif type_column == 'float64':
        struct +=  f"StructField('{df.columns[i]}', FloatType(), False),"
      else:
        print('Error: Unknown type')
        break
    struct += "])"
    return eval(struct)

resultadoSchema = StructType([
    StructField("resultado_id",IntegerType(),False),
    StructField("medalla",StringType(),False),
    StructField("deportista_id",IntegerType(),False),
    StructField("juego_id",IntegerType(),False),
    StructField("evento_id",IntegerType(),False),
])
resultadoDF = sqlContext.read.schema(resultadoSchema).option("header","true").csv(path+"resultados.csv")

resultadosDF.join(deportistaOlimpicoDF,\
                 deportistaOlimpicoDF.deportista_id == resultadosDF.deportista_id,
                 "left").join(
                 paisesDF, paisesDF.equipo_id == deportistaOlimpicoDF.equipo_id
                 ).select("medalla", "equipo","sigla").\
                 where(resultadosDF.medalla != "NA").show(20)

+-------+--------------+-----+
|medalla|        equipo|sigla|
+-------+--------------+-----+
|   Gold|Denmark/Sweden|  SWE|
| Bronze|       Finland|  FIN|
| Bronze|       Finland|  FIN|
| Bronze|       Finland|  FIN|
| Bronze|       Finland|  FIN|
|   Gold|       Finland|  FIN|
|   Gold|       Finland|  FIN|
|   Gold|       Finland|  FIN|
| Bronze|       Finland|  FIN|
|   Gold|        Norway|  NOR|
|   Gold|        Norway|  NOR|
|   Gold|        Norway|  NOR|
| Silver|        Norway|  NOR|
| Bronze|        Norway|  NOR|```

deportista_df.join(paises_df,deportista_df.equipo_id == paises_df.id,"left") \
            .join(resultados_df,deportista_df.deportista_id == resultados_df.deportista_id, "left") \
            .filter(resultados_df.medalla != "NA") \
            .select("medalla","sigla","equipo") \
            .show(20)

+-------+-----+--------------+
|medalla|sigla|        equipo|
+-------+-----+--------------+
|   Gold|  SWE|Denmark/Sweden|
| Bronze|  FIN|       Finland|
| Bronze|  FIN|       Finland|
| Bronze|  FIN|       Finland|
| Bronze|  FIN|       Finland|
|   Gold|  FIN|       Finland|
|   Gold|  FIN|       Finland|
|   Gold|  FIN|       Finland|
| Bronze|  FIN|       Finland|
|   Gold|  NOR|        Norway|
|   Gold|  NOR|        Norway|
|   Gold|  NOR|        Norway|
| Silver|  NOR|        Norway|
| Bronze|  NOR|        Norway|
| Silver|  NOR|        Norway|
| Bronze|  NOR|        Norway|
|   Gold|  NOR|        Norway|
|   Gold|  NOR|        Norway|
| Silver|  NOR|        Norway|
| Bronze|  NED|   Netherlands|
+-------+-----+--------------+

# union de medalla , pais y equipo que pertenecen
DeportistaDF.join(resultados,DeportistaDF.deportista_id == resultados.deportista_id,'left')\
.join(paises,paises.id == DeportistaDF.equipo_id,'left')\
.select('medalla','equipo','sigla').filter(resultados.medalla !='NA').show(5)
```# union de medalla , pais y equipo que pertenecenDeportistaDF.join(resultados,DeportistaDF.deportista\_id == resultados.deportista\_id,'left')\\.join(paises,paises.id == DeportistaDF.equipo\_id,'left')\\.select('medalla','equipo','sigla').filter(resultados.medalla !='NA').show(5)

deportistasDF.join(resultadosDF, deportistasDF.deportista_id == resultadosDF.deportista_id, "left") \
.join(paisesDF, paisesDF.id == deportistasDF.equipo_id, "left") \
.select(
    "medalla", 
    col("sigla").alias("pais"),
    "equipo"
) \
.where(resultadosDF.medalla != "NA").show()

resultadoDF.filter(resultadoDF.medalla!=“NA”)
.join(deportista1DF,deportista1DF.deportista_id == resultadoDF.deportista_id)
.join(paisDF,paisDF.pais_id == deportista1DF.equipo_id)
.select(“medalla”,paisDF.sigla,paisDF.equipo).show()

from pyspark.sql.functions import *
df_athetles.join(df_results, df_results.athetle_id == df_athetles.athetle_id, 'inner') \
    .join(df_teams, df_teams.team_id == df_athetles.team_id, 'inner') \
    .select('medal', 'country').where(df_results.medal != 'NA').distinct() \
    .sort(col('country').desc()).show()

df_athetles.join(df_teams, df_teams.team_id == df_athetles.team_id, 'inner') \
    .join(df_results, df_results.athetle_id == df_athetles.athetle_id, 'inner') \
    .select('medal', 'country', 'athetle_name', 'team').show()

results_DF.join(
    player_DF, results_DF.player_id == player_DF.player_id, 'left'
) \
.join(
    countries_DF, player_DF.team_id == countries_DF.id, 'left'
) \
.select('medal', 'team', 'abbreviation') \
.filter(results_DF.medal != 'NA').show()

+------+--------------+------------+
| medal|          team|abbreviation|
+------+--------------+------------+
|  Gold|Denmark/Sweden|         SWE|
|Bronze|       Finland|         FIN|
|Bronze|       Finland|         FIN|
|Bronze|       Finland|         FIN|
|Bronze|       Finland|         FIN|
|  Gold|       Finland|         FIN|
|  Gold|       Finland|         FIN|
|  Gold|       Finland|         FIN|
|Bronze|       Finland|         FIN|
|  Gold|        Norway|         NOR|
|Bronze|        Norway|         NOR|
|Silver|        Norway|         NOR|
|Bronze|        Norway|         NOR|
|Silver|        Norway|         NOR|
|  Gold|        Norway|         NOR|
|  Gold|        Norway|         NOR|
|  Gold|        Norway|         NOR|
|  Gold|        Norway|         NOR|
|Silver|        Norway|         NOR|
|Bronze|   Netherlands|         NED|
+------+--------------+------------+

Joins y Selección de Datos en DataFrames con PySpark

Conociendo Apache Spark

Fundamentos de Apache Spark: ETL y Limpieza de Datos

Introducción a Apache Spark y sus diferencias con Hadoop

Diferencias entre RDDs y DataFrames en Apache Spark

Configuración

Instalación de Spark y Anaconda en Linux

Ejecución y Configuración de Spark en Línea de Comando y Anaconda

Configuración de PySpark con Jupyter y Anaconda

Operaciones RDDs

Transformaciones y Acciones en RDD de Spark

Transformaciones y acciones

Interacción con RDDs en Spark: Operaciones Básicas y Avanzadas

Operaciones avanzadas con RDDs en Spark: Uniones y Joins

Unión de Datos en RDD para Deportistas Olímpicos

Operaciones Numéricas con RDDs en Juegos Olímpicos

Data Frames y SQL

Creación y Gestión de Data Frames en PySpark

Creación de DataFrame desde RDD en PySpark

Manipulación de Data Frames en PySpark