Filtrado y Join de Datos Olímpicos en Pandas

Clase 17 de 25 • Curso de Fundamentos de Spark para Big Data

Contenido del curso

Conociendo Apache Spark

Configuración

Operaciones RDDs

Data Frames y SQL

Persistencia y particionado

Conclusiones

25
Uso de RDDs y DataFrames en Apache Spark
01:12 min

Tomar examen

Resumen

Cruzar múltiples dataframes mediante joins y aplicar filtros es una de las operaciones más frecuentes cuando trabajas con PySpark. En esta práctica se resuelve un reto que combina datos de resultados olímpicos, deportistas y países para obtener únicamente las medallas de oro, plata y bronce junto con la información del equipo ganador.

¿Cómo filtrar valores no deseados antes de un join?

El primer paso consiste en limpiar el dataframe de resultados eliminando todas las filas cuya columna de medalla contenga valores nulos o no correspondan a oro, plata o bronce [0:12]. Esto se logra excluyendo los valores NA de la columna medalla, lo que reduce el volumen de datos antes de realizar cualquier cruce.

Esta técnica es una buena práctica porque:

Reduce el costo computacional del join posterior.
Garantiza que solo trabajas con registros relevantes.
Evita arrastrar filas innecesarias a lo largo de toda la transformación.

¿Cómo encadenar múltiples joins en PySpark?

Una vez filtrado el dataframe de resultados, se realizan dos left joins consecutivos [0:30]:

Primer join: resultados con deportistas

Se cruza resultado_dataframe con deportista_olimpico_dataframe utilizando la columna deportista_id como llave de unión. Ambos dataframes comparten esta columna, por lo que la comparación es directa. Se indica explícitamente que el tipo de join es left, lo cual asegura que se conserven todos los registros del dataframe izquierdo.

Segundo join: deportistas con países

El resultado del primer cruce se une con paises_dataframe comparando la columna id de países contra equipo_id de deportista olímpico [0:52]. De nuevo se emplea un left join para mantener la integridad de los datos del lado izquierdo.

Selección final de columnas

Después de los cruces, se aplica un .select() para conservar únicamente las columnas que interesan: medalla, equipo y sigla [1:06]. Esta selección limpia el dataframe resultante y lo deja listo para análisis.

¿Cómo ordenar resultados con sort en PySpark?

Como paso adicional, se muestra el uso de .sort() sobre la columna sigla [1:12]. Dentro de este método puedes indicar si el ordenamiento será ascendente o descendente pasando el parámetro correspondiente. Esto funciona de forma análoga al ORDER BY que ya conoces de SQL.

Algunos puntos importantes a considerar al escribir joins encadenados:

Los joins deben escribirse en una sola línea o con el formato adecuado para evitar errores de sintaxis [1:42].
No deben existir espacios adicionales después de ciertas expresiones, ya que PySpark puede interpretarlos como errores [1:55].
Verificar la salida después de cada transformación ayuda a detectar problemas rápidamente.

El resultado final muestra un dataframe limpio con las medallas, los equipos ganadores y sus siglas ordenadas. Si obtuviste una salida similar, el reto fue resuelto correctamente. Comparte tus dudas o tu propia solución en la sección de comentarios.

Comentarios

Jose Daniel Gallegos Padilla

student•

Note que hay duplicados en el resultado, por lo que le agregue la function distinct()

resultadosDF.join(deportistaOlimpicoDF,\
                 deportistaOlimpicoDF.deportista_id == resultadosDF.deportista_id,
                 "left").join(
                 paisesDF, paisesDF.equipo_id == deportistaOlimpicoDF.equipo_id, 
                 "left").select("medalla", "equipo","sigla").\
                 where(resultadosDF.medalla != "NA").distinct().\
                 sort(col("sigla").desc()).show(20)

+-------+--------------------+-----+
|medalla|              equipo|sigla|
+-------+--------------------+-----+
| Silver|            Zimbabwe|  ZIM|
| Bronze|            Zimbabwe|  ZIM|
|   Gold|            Zimbabwe|  ZIM|
| Silver|              Zambia|  ZAM|
|   Gold|          Yugoslavia|  YUG|
| Silver|          Yugoslavia|  YUG|
| Bronze|          Yugoslavia|  YUG|
| Bronze|West Indies Feder...|  WIF|
| Silver|             Vietnam|  VIE|
|   Gold|             Vietnam|  VIE|
|   Gold|           Venezuela|  VEN|
| Bronze|           Venezuela|  VEN|
| Silver|           Venezuela|  VEN|```

Víctor Macedo Becerril

student•

Es buen aporte el conocimiento sobre la función distinct(), sin embargo este caso me parece correcto que existan repeticiones ya que un equipo pudo haber competido en más de una ocación en distintas disciplinas. Ejemplo: Competencia de 100 metros y competencia de 200 metros.

Jose Daniel Gallegos Padilla

student•

En tu ejemplo es correcto tener datos "duplicados" ya que todo va a ser lo mismo menos la disciplina. Pero en el caso del ejercicio, solamente se muestra medalla, equipo y siglas, lo cual está mostrando datos duplicados y es buena práctica eliminarlos para tener una mejor visualización de ellos.

Saludos.

rusbel bermúdez rivera

student•

Tengo la duda respecto a respetar PEP8 y la recomendación de que los JOIN se deben escribir en una sola línea, en mi caso aunque resolví el reto anterior igual tome la parte que hizo el profesor, aquí mi aporte

resultadoDF.filter(resultadoDF.medalla != "NA") \
    .join(
        deportistaOlimpicoDF,
        resultadoDF.deportista_id == deportistaOlimpicoDF.deportista_id,
        "left"
    ) \
    .join(
        paisesDF,
        deportistaOlimpicoDF.equipo_id == paisesDF.id,
        "left"
    ) \
    .select("medalla", paisesDF.equipo, paisesDF.sigla) \
    .sort(col("sigla").desc()) \
    .show()

Óscar Gutiérrez Castillo

teacher•

El 'fracionamiento' de código solo se hizo para que se pudiera grabar con una letra de tamaño aceptable Rusben. Pero tienes toda la razón, en medida de lo posible sigue buenas prácticas.

rusbel bermúdez rivera

student•

Gracias profesor Oscar, hoy termine el curso, aprobé mi examen y deje mi reseña, estoy muy agradecido por los conocimientos adquiridos en este curso, ojala pronto nos puedas traer la parte avanzada.

Centli Allan Garcés Buendia

student•

Yo noté que si los ordenamos de manera ascendente existen datos en País y Nombre del equipo "null" por lo que guardé todo el código del profe en una variable llamada " retoClase16 " y le agregué este filtro al final:


retoClase16.filter( (retoClase16.País != "null")).show()

+-------+--------------------+----+
|medalla|   Nombre del equipo|País|
+-------+--------------------+----+
| Bronze|         Afghanistan| AFG|
| Bronze|         Afghanistan| AFG|
| Silver|Netherlands Antilles| AHO|
|   Gold|             Albania| ALB|
| Bronze|             Albania| ALB|
| Silver|             Albania| ALB|
| Silver|             Algeria| ALG|
| Bronze|             Algeria| ALG|
|   Gold|             Algeria| ALG|
| Silver|             Algeria| ALG|
| Bronze|             Algeria| ALG|
|   Gold|             Algeria| ALG|
| Bronze|             Algeria| ALG|
| Bronze|             Algeria| ALG|
|   Gold|             Algeria| ALG|
| Silver|             Algeria| ALG|
| Bronze|             Algeria| ALG|
|   Gold|             Algeria| ALG|
| Bronze|             Algeria| ALG|
| Bronze|             Algeria| ALG|
+-------+--------------------+----+
only showing top 20 rows

Elberth Ramón Cabrales Gutierrez

student•

La velocidad al realizar consultas en SQL a traves de spark depende de mi maquina o de la cantidad de datos con los que este trabajando, por lo que veo no es tan complejo utlizar spark pero hay un moton de cosas que hace por detras que no me quedan muy claras. Por que usar spark para hacer consultas y no en un motor de base de datos? a partir de que cantidad de datos se debe trabajar con spark? porque los datos con los que trabaja el teacher son pocos y facilmente se podrian trabajar con pandas, que pasaria si trabajaramos con miles de millones de datos? habria que configurar mas cosas para hacerlo con spark o la configuracion sigue siendo igual como lo hemos echo hasta ahora?

Oscar Eduardo Palomino Cárdenas

student•

Les comparto una captura de mi salida.

Platzi Team

student•

En PySpark, col("nombre_columna") se utiliza para referirse a columnas de manera explícita, lo que es especialmente útil en operaciones complejas, como las que implican funciones de agregación o cuando se trabaja con DataFrames que tienen columnas con nombres similares. Por otro lado, referirse a la columna directamente (por ejemplo, dataframe.nombre_columna) es más sencillo y legible en contextos más simples. Ambos métodos son válidos, y la elección depende del contexto y de la complejidad de la operación que estés realizando.

Francisco Garcia [C6]

student•

Solución con sort

deportistasDF.join(resultadosDF, deportistasDF.deportista_id == resultadosDF.deportista_id, "left") \
.join(paisesDF, paisesDF.id == deportistasDF.equipo_id, "left") \
.select(
    "medalla", 
    col("sigla").alias("pais"),
    "equipo"
) \
.where(resultadosDF.medalla != "NA") \
.sort(col("sigla").asc()).show()

Caroline Prada Ventero

student•

Hice un TOP 10 de los quipos con más y con menos medallas ganadas Llevo 6 Años desde que aprendí SQL y hoy en día trato de utilizarlo y de llevarlo en cada cosa que aprendo y esto es prueba de ello (Spark y SQL ❤)

frank hurtado

student•

Hola a todos, agregue un groupby para mejorar la lectura y saber cuantas medalla por pais hay.

resultadoDF.filter(resultadoDF.medalla != "NA") \
    .join(deportistaOlimpicoDF,deportistaOlimpicoDF.deportista_id == resultadoDF.deportista_id,"left") \
    .join(paisesDF,paisesDF.id == deportistaOlimpicoDF.equipo_id, "left") \
    .select("medalla", "equipo","sigla").groupBy("medalla", "equipo").count().sort( col("count").desc() ).show()

Michael Lan Alvarez

student•

Este curso no me gustó mucho por varios factores, uno de los principales es que siempre obtenía errores en los archivos, no sé si es que en el github los modificaron pero me la he paso es resolviendo errores y modificando cosas para poder seguir el curso bien, por último opté por ver las clases sin seguir nada y estudiar spark por aparte, con algún curso introductorio de YouTube.

También debe corregir algunas cositas de las convenciones python, pero esto son detalles menores.

Juan Camilo Alvarez Jurado

student•

Por eso es importante que aprovechemos el sistema de feedback y reseña de una manera objetiva, para poder ayudar al equipo de Platzi a identificar estas falencias y a refinar el curso en una próxima entrega. Si todo mundo mantiene tirando 5 estrellas porque sí, nunca se va a determinar una calificación acorde a la calidad real del curso. Y si no reportamos propuestas de mejora con el botón banderita, se tardarán bastante más en darse cuenta de los aspectos por pulir.

Pablo Rosa

student•

Comparto mi solución.

Bruce Leonel Ramirez La Rosa

student•

Genial, este sí se parece mas al mío.

Juan Sebastian Gómez

student•

Esta fue mi solución, en vez de usar "filter", usé un "where":

deportistasDF\
  .join(
      resultadosDF,
      deportistasDF.deportista_id == resultadosDF.deportista_id,
      "left"
    ) \
  .join(
    equiposDF,
    deportistasDF.equipo_id == equiposDF.id,
    "left"
    ) \
  .where(resultadosDF.medalla != 'NA') \
  .select(deportistasDF.nombre,
          "edad_al_jugar",
          "medalla",
          equiposDF.equipo,
          col("sigla").alias("pais_equipo")
         ) \
  .show()

Gabriela Barrezueta

student•

Agregué un nuevo csv en la carpeta files donde detalla los campos y los valores de la tabla género del MR , pero cuando quiero mostrar el contenido del csv en jupyter, me arroja un error indicando que spark no encontró el archivo, entonces hice un Dir para ver el contenido de la carpeta files (Ya que uso windows) y resulta que que no me muestra este archivo, o como que no lo reconoce spark, aunque el archivo esta guardado físicamente en files. A alguien más le pasa esto ? o hay una forma de crear o guardar archivos para que spark los reconozca ??

Carlos Javier Guevara Contreras

student•

muy interesante

resultadosDF.join(deportistaOlimpicoDF,\
                 deportistaOlimpicoDF.deportista_id == resultadosDF.deportista_id,
                 "left").join(
                 paisesDF, paisesDF.equipo_id == deportistaOlimpicoDF.equipo_id, 
                 "left").select("medalla", "equipo","sigla").\
                 where(resultadosDF.medalla != "NA").distinct().\
                 sort(col("sigla").desc()).show(20)

+-------+--------------------+-----+
|medalla|              equipo|sigla|
+-------+--------------------+-----+
| Silver|            Zimbabwe|  ZIM|
| Bronze|            Zimbabwe|  ZIM|
|   Gold|            Zimbabwe|  ZIM|
| Silver|              Zambia|  ZAM|
|   Gold|          Yugoslavia|  YUG|
| Silver|          Yugoslavia|  YUG|
| Bronze|          Yugoslavia|  YUG|
| Bronze|West Indies Feder...|  WIF|
| Silver|             Vietnam|  VIE|
|   Gold|             Vietnam|  VIE|
|   Gold|           Venezuela|  VEN|
| Bronze|           Venezuela|  VEN|
| Silver|           Venezuela|  VEN|```

resultadoDF.filter(resultadoDF.medalla != "NA") \
    .join(
        deportistaOlimpicoDF,
        resultadoDF.deportista_id == deportistaOlimpicoDF.deportista_id,
        "left"
    ) \
    .join(
        paisesDF,
        deportistaOlimpicoDF.equipo_id == paisesDF.id,
        "left"
    ) \
    .select("medalla", paisesDF.equipo, paisesDF.sigla) \
    .sort(col("sigla").desc()) \
    .show()

+-------+--------------------+----+
|medalla|   Nombre del equipo|País|
+-------+--------------------+----+
| Bronze|         Afghanistan| AFG|
| Bronze|         Afghanistan| AFG|
| Silver|Netherlands Antilles| AHO|
|   Gold|             Albania| ALB|
| Bronze|             Albania| ALB|
| Silver|             Albania| ALB|
| Silver|             Algeria| ALG|
| Bronze|             Algeria| ALG|
|   Gold|             Algeria| ALG|
| Silver|             Algeria| ALG|
| Bronze|             Algeria| ALG|
|   Gold|             Algeria| ALG|
| Bronze|             Algeria| ALG|
| Bronze|             Algeria| ALG|
|   Gold|             Algeria| ALG|
| Silver|             Algeria| ALG|
| Bronze|             Algeria| ALG|
|   Gold|             Algeria| ALG|
| Bronze|             Algeria| ALG|
| Bronze|             Algeria| ALG|
+-------+--------------------+----+
only showing top 20 rows

deportistasDF.join(resultadosDF, deportistasDF.deportista_id == resultadosDF.deportista_id, "left") \
.join(paisesDF, paisesDF.id == deportistasDF.equipo_id, "left") \
.select(
    "medalla", 
    col("sigla").alias("pais"),
    "equipo"
) \
.where(resultadosDF.medalla != "NA") \
.sort(col("sigla").asc()).show()

resultadoDF.filter(resultadoDF.medalla != "NA") \
    .join(deportistaOlimpicoDF,deportistaOlimpicoDF.deportista_id == resultadoDF.deportista_id,"left") \
    .join(paisesDF,paisesDF.id == deportistaOlimpicoDF.equipo_id, "left") \
    .select("medalla", "equipo","sigla").groupBy("medalla", "equipo").count().sort( col("count").desc() ).show()

deportistasDF\
  .join(
      resultadosDF,
      deportistasDF.deportista_id == resultadosDF.deportista_id,
      "left"
    ) \
  .join(
    equiposDF,
    deportistasDF.equipo_id == equiposDF.id,
    "left"
    ) \
  .where(resultadosDF.medalla != 'NA') \
  .select(deportistasDF.nombre,
          "edad_al_jugar",
          "medalla",
          equiposDF.equipo,
          col("sigla").alias("pais_equipo")
         ) \
  .show()

Filtrado y Join de Datos Olímpicos en Pandas

Conociendo Apache Spark

Fundamentos de Apache Spark: ETL y Limpieza de Datos

Introducción a Apache Spark y sus diferencias con Hadoop

Diferencias entre RDDs y DataFrames en Apache Spark

Configuración

Instalación de Spark y Anaconda en Linux

Ejecución y Configuración de Spark en Línea de Comando y Anaconda

Configuración de PySpark con Jupyter y Anaconda

Operaciones RDDs

Transformaciones y Acciones en RDD de Spark

Transformaciones y acciones

Interacción con RDDs en Spark: Operaciones Básicas y Avanzadas

Operaciones avanzadas con RDDs en Spark: Uniones y Joins

Unión de Datos en RDD para Deportistas Olímpicos

Operaciones Numéricas con RDDs en Juegos Olímpicos

Data Frames y SQL

Creación y Gestión de Data Frames en PySpark

Creación de DataFrame desde RDD en PySpark

Manipulación de Data Frames en PySpark

Joins y Selección de Datos en DataFrames con PySpark