Operaciones Numéricas con RDDs en Juegos Olímpicos

Curso de Fundamentos de Spark para Big Data

Contenido del curso

Conociendo Apache Spark

Configuración

Operaciones RDDs

Data Frames y SQL

Persistencia y particionado

Conclusiones

25
Uso de RDDs y DataFrames en Apache Spark
01:12 min

Tomar examen

Operaciones Numéricas con RDDs en Juegos Olímpicos

Resumen

¿Cómo realizar operaciones numéricas con RDDs?

Las operaciones numéricas en RDDs (Resilient Distributed Datasets) son esenciales para procesar y analizar grandes volúmenes de datos de manera eficiente en entornos distribuidos. Aprovechando la flexibilidad y capacidad de escalado de RDDs, es posible obtener información valiosa de datos numéricos. En este caso, nos centraremos en analizar los puntajes de los países que han competido en los Juegos Olímpicos mediante RDDs. Vamos a analizar el proceso, paso a paso, proporcionándote un entendimiento claro de cómo trabajar con estas estructuras de datos.

¿Cómo asignar puntajes a las medallas olímpicas?

Para comenzar nuestro análisis, necesitamos un sistema de puntuación que refleje los logros de los países en los Juegos Olímpicos. La Comisión de los Juegos Olímpicos asigna puntajes en base a las medallas ganadas:

Medallas de oro: 7 puntos
Medallas de plata: 5 puntos
Medallas de bronce: 4 puntos

Estos valores los almacenamos en un diccionario para utilizarlos fácilmente durante los cálculos en nuestro ejercicio.

valores_medallas = {'Oro': 7, 'Plata': 5, 'Bronce': 4}

¿Cómo extraer y preparar datos de los RDDs?

Una vez definido el sistema de puntuación, el siguiente paso es extraer la información relevante de los RDDs. En nuestro caso, partimos de una estructura de datos que incluye varios valores, y nos interesa centrarnos en el país y el tipo de medalla que ha ganado. Usamos los métodos de manipulación de RDDs para acceder a estos datos.

# Extraer el país y la medalla de la subtupla
pais_medalla = rdd.map(lambda x: (x[1][0], x[1][1]))

¿Cómo calcular los puntajes de los países con RDDs?

Para calcular el puntaje total acumulado por cada país, debemos sumar los puntos asignados a cada tipo de medalla. Primero, necesitamos las importaciones necesarias para sumar los valores. Utilizamos métodos de reducción disponibles en Spark.

Reducir por llave (reduceByKey): combina los valores de las mismas claves (en este caso, los países).
Sumar puntos con operator.add: usando la función de sumas de la librería operator.

from operator import add

paises_medallas = pais_medalla.map(lambda x: (x[0], valores_medallas[x[1]]))
resultado = paises_medallas.reduceByKey(add)

¿Cómo ordenar y mostrar los resultados?

Finalmente, después de calcular los puntajes, es fundamental presentar la información de manera ordenada para una fácil comprensión. Podemos ordenar los resultados alfabéticamente o por puntaje de manera ascendente o descendente, utilizando sortBy.

# Ordenar los resultados por puntaje en orden descendente
resultado_ordenado = resultado.sortBy(lambda x: x[1], ascending=False)

# Mostrar los resultados
for pais in resultado_ordenado.collect():
    print(pais)

¿Qué hacer si hay discrepancias en las sumas?

Es posible que encuentres ciertas inconsistencias en los resultados debido a la forma en que se manejan los nombres y siglas de los países en los sistemas de puntuación olímpica. Algunas veces, diferentes equipos del mismo país pueden tener siglas idénticas, lo cual puede llevar a errores en los conteos. Se recomienda explorar y comprender bien los RDDs y considerar posibles soluciones para corregir estos errores.

Continuar aprendiendo sobre RDDs te proporcionará habilidades invaluables para gestionar y analizar grandes conjuntos de datos. Los RDDs son fundamentales en la analítica de datos y te invito a seguir avanzando en tu dominio de estas herramientas.

Rodolfo benjamin Aseretto coronel

Estudiante

from pyspark.sql import SparkSession from operator import add

Crear una instancia de SparkSession

spark = SparkSession.builder
.appName("Mi aplicacion de Spark")
.getOrCreate()

Obtener el contexto de Spark

sc = spark.sparkContext

Ruta del archivo CSV

path = "C:\Users\Benja\OneDrive\Escritorio\curso-apache-spark-platzi-master\files\"

Leer el archivo CSV y aplicar la transformación

equiposOlimpicosRDD = sc.textFile(path + "paises.csv")
.map(lambda line: line.split(","))

Leer el archivo de resultados

resultado = sc.textFile(path + "resultados.csv")
.map(lambda line: line.split(","))

Filtrar resultados y obtener ganadores

resultadoGanador = resultado.filter(lambda line: 'NA' not in line[1])

Obtener valores de las medallas

valoresMedallas = { 'Gold': 7, 'Silver': 5, 'Bronze': 4 }

Realizar join entre deportistas, países y resultados

deportistapaises = deportistaOlimpicoRDD.map(lambda l: [l[-1], l[:-1]])
.join(equiposOlimpicosRDD.map(lambda x: [x[0], x[2]]))

paisesMedallas = deportistapaises.join(resultadoGanador)

Calcular la suma de las medallas por país

paisesMedallas_rdd = paisesMedallas.map(lambda x: (x[1][0][-1], valoresMedallas[x[1][1]])) conclusion = paisesMedallas_rdd.groupByKey().mapValues(sum).sortBy(lambda row: row[1], ascending=False)

Obtener el resultado

resultado_final = conclusion.collect()

Imprimir el resultado

for pais, medallas in resultado_final: print(pais, medallas)

Jose Daniel Gallegos Padilla

JAVIER SANTIAGO SALGADO

John Cogua

César Pérez

Elisa Almazán

Fredy Alberto Orozco Loaiza

Javier Guevara

Carlos Felipe Saldarriaga Bejarano

Gerardo Mayel Fernández Alamilla

Mitchell Mirano

Daniel Díaz

Charly Nieves

Jhampier Edison Quispe Huallpa

Juliana Gil Navarro

Carlos Javier Guevara Contreras

Joan Sebastián Muñoz Ramírez

Josefina Andrea Araya Tapia

Juan Jose Tovar

Operaciones Numéricas con RDDs en Juegos Olímpicos

Conociendo Apache Spark

Fundamentos de Apache Spark: ETL y Limpieza de Datos

Introducción a Apache Spark y sus diferencias con Hadoop

Diferencias entre RDDs y DataFrames en Apache Spark

Configuración

Instalación de Spark y Anaconda en Linux

Ejecución y Configuración de Spark en Línea de Comando y Anaconda

Configuración de PySpark con Jupyter y Anaconda

Operaciones RDDs

Transformaciones y Acciones en RDD de Spark

Transformaciones y acciones

Interacción con RDDs en Spark: Operaciones Básicas y Avanzadas

Operaciones avanzadas con RDDs en Spark: Uniones y Joins

Unión de Datos en RDD para Deportistas Olímpicos