Hola observando la solucion de Óscar y realizando lo mismo me di cuenta que esta haciendo la relación mal. Ya que la relación la esta haciendo con deportistaOlimpico.equipo_id = resultadoGanador.resultado_id.
Por ejemplo. Patimat Abakarova tiene un deportista_id = 65 y cuando busco ese id en el excel de resultados.csv y observo que si gano una medalla, pero la medalla no es de Oro, sino de Bronce.
Por lo que tuve que separar los join y crear dos RDDs. Aquí esta mi solución:
resultado_id medalla deportista_id juego_id evento_id
162 Bronze 65 51 81
Pero en la forma en que lo esta haciendo Óscar, esta buscando el 74, que es el equipo_id, en la columna de resultado_id, lo cual da lo siguiente:
resultado_id medalla deportista_id juego_id evento_id
74 Gold 20 44 32
Saludos.
¿Quieres ver más aportes, preguntas y respuestas de la comunidad?