Interacción con RDDs en Spark: Operaciones Básicas y Avanzadas

Clase 9 de 25 • Curso de Fundamentos de Spark para Big Data

Resumen

¿Cómo interactuar con un RDD en Spark?

Interactuar con RDDs en Apache Spark es clave para manejar grandes volúmenes de datos. En esta lección, aprenderemos a explorar y manipular RDDs, enfatizando la eficiencia y buenas prácticas. Conoceremos cómo contar, agrupar y filtrar datos, además de optimizar el rendimiento y evitar errores comunes. ¡Vamos al grano!

¿Cómo contar las diferentes siglas en los Juegos Olímpicos?

El conteo de siglas representa la cantidad de países participantes en los Olímpicos y nos ayuda a entender la composición general del evento. Para contar las distintas siglas en un RDD de equipos olímpicos, sigue estos pasos:

Reexaminar el RDD cargado: Asegúrate de poder visualizar más contenido para verificar la estructura y posibilitar un análisis correcto.
Identificar la columna de interés: Localiza la posición de la sigla. Recuerda que los índices en arreglos inician en cero. En nuestro caso, la sigla está en la posición dos.
Eliminar duplicados: Antes de contar, asegura eliminar duplicados aplicando distinct().
Usar tuplas para realizar operaciones: Las operaciones tipo llave-valor son más eficientes con tuplas en vez de listas.

distinct_team_codes = olympic_teams.map(lambda x: x[2]).distinct().count()
print(distinct_team_codes)

Este método asegura que contamos cada país una sola vez, incluidas naciones ya extintas como la Unión Soviética, que aún aparecen en los registros históricos.

¿Cómo agrupar valores con Group By en RDDs?

Utilizar groupByKey() en RDDs nos permite entender la distribución interna de equipos en diferentes países. Este paso es crucial para identificar patrones en los datos:

Elegir la clave correcta: Piensa en tu RDD como pares llave-valor y define qué quieres agrupar. Aquí enfocamos las siglas de los países.
Implementar un Group By: Crea una función lambda para asociar la sigla de cada equipo y calcula cuántos equipos componen cada conjunto.
Considerar el uso de mapValues: Mapea los valores de la agrupación antes de procesarlos.

grouped_teams = olympic_teams.map(lambda x: (x[2], x)).groupByKey()
team_counts = grouped_teams.mapValues(len)

# Para mostrar un subconjunto de los resultados
result = team_counts.take(5)
for r in result:
    print(r)

Con esta técnica, revelamos cómo países como Australia tienen diferentes equipos internos y cuántos.

¿Cómo filtrar valores específicos en un RDD?

Filtrar es esencial cuando solo necesitas un subconjunto de tu data. Si quieres averiguar cuántos equipos tiene un país en particular, filter es tu aliado:

Usar Filter con una Lambda: Solo muestra datos que coincidan con un criterio determinado, como un país específico.

argentinian_teams = olympic_teams.filter(lambda x: x[2] == 'ARG')
print(argentinian_teams.collect())

Saber cuándo collect es seguro: Collect es adecuado solo cuando el conjunto de datos es pequeño. Ser cuidadosos con collect evitará sobrecargar tu servidor.

¿Cómo optimizar el uso de Collect y Count?

El manejo eficiente de datos es crucial en entornos con millones de registros. Aquí, algunos consejos y funciones alternativas:

Ser precavido con Collect: Evita dicha función en grandes volúmenes de datos para no saturar recursos.
Usar take(...): En lugar de collect, emplea take para extraer una cantidad limitada de datos.
Utilizar CountAprox: Para contar rápidamente y evitar tiempos de espera largos, countAprox es útil ya que estima el conteo en un tiempo limitado.

approx_count = olympic_teams.countApprox(5000)
print(approx_count)

Con estas herramientas y técnicas, puedes manejar RDDs de forma eficaz y segura, permitiéndote explorar vastos conjuntos de datos con confianza. Como siempre, ¡sigue aprendiendo y explorando!

- -

student•

no explica muy bien para que sirven las cosas como la funcion map(), simplemente va y las usa

Ricardo Andrés Gómez Torres

student•

Spark está construido sobre Scala. Este es un lenguaje de programación funcional, para entender estos conceptos te recomendaría el curso de 'programación funcional con Scala' es muy bueno y te pone a pensar con una lógica distinta.

Elias Ojeda Medina

student•

Map es programación funcional, entonces cuando agarra el dataset lo que hace es iterar por cada fila y aplicar una función de transformación, en este caso un Lambda que los separa por una coma, como dice Ricardo, puedes pasar a ver el cursos de Scala :D

Blanca Morillo Sierralta

student•

Me pareció interesante buscar sobre las diferencias entre map() y mapValues(). Por lo que entiendo, mapValues es aplicable en RDDs pares y solo opera sobre el valor (en este caso x[1], o los equipos). Mientras que map opera sobre toda la tupla.

LINK

Fernando Garcia de la Cruz

student•

Gracias por la referencia Blanca!

Carlos Javier Guevara Contreras

student•

si de verdad el profesor olvida que muchas personas no tienen la misma experiencia eso hace que el sistema de aprendizaje sea complejo

Mitchell Mirano

student•

Graficando a los 10 países, con la mayor cantidad de equipos.

Luis Arturo Cruz Cruz

student•

Buenas noches, hermosa comunidad de Platzi que esta tomando este curso de Spark.

Personalmente me quedo con la historia del método .collect() .Aunque nadie experimenta en cabeza agena, considero que el ejemplo que expone Oscar es valioso.

Saludos.

Francisco Ruben Méndez Gómez

student•

Aquí dejo dos links donde describen muy bien que son las funciones de Lambda y map.

lambda: https://docs.hektorprofe.net/python/funcionalidades-avanzadas/funciones-lambda/#:~:text=El%20contenido%20de%20una%20funci%C3%B3n,significa%20realizar%20algo%20sobre%20algo.

map: https://docs.hektorprofe.net/python/funcionalidades-avanzadas/funcion-map/

Pero en general lambda es una función simple que se escribe de manera corta, no tiene tantos parámetros. map se utiliza cuando queremos aplica cierta condición a un grupo de datos y como resultado devuelve un iterador.

Sergio de Jesús Huesca Nieva

student•

Excelentes referencias, muchas gracias.

Juan Dolorier Aburto Zapata

student•

Usan Mac pero la mayoría somos pobres con Windows crackeado

César Pérez

student•

Usa Linux, es gratis, y más eficiente. Ganar ganar

Juan Jose Tovar

student•

Configura WSL2 en windows, te da acceso a una terminal de Linux.

Johan Steven Arias Pérez

student•

Cuando ejecutamos

equiposOlimpicosRDD.map(lambda x: x[2]).distinct().count()

para contar las siglas es importante tener encuenta que el 231 esta contando también la palabra "sigla" que corresponde al header del archivo.

Bruce Leonel Ramirez La Rosa

student•

En el minuto 11:37... brutal Momento programador jejeje

Gerardo Mayel Fernández Alamilla

student•

Comandos más usados de RDD:

https://spark.apache.org/docs/latest/rdd-programming-guide.html

Hugo Fernandez Quiroz

student•

Cuál es la diferencia entre map y map.Values?

Bruno Guillaume Hernández Villamil

student•

En lo que le sale al profesor en el notebook, cuando usa mapValues() la salida es un objeto de tipo llave valor. Cuando usa map para cargar el CSV le regresa un arreglo. En resumen mapValues transforma los elementos del RDD en un elemento llave valor, map lo transforma en otro elemento según indiquemos.

Gabriela Andreina García Uzcategui

student•

Jose Orlando Barrera Cocunubo

student•

eso ultimo me acuerda de los "analistas de datos" que he visto explorando una tabla con un select *

Adrian Lara Gallardo

student•

Aquí algunas de las diferencias entre map() y mapValues() obtenido con GPT-3:

map:

Opera en todo el registro (tupla de clave y valor).
Puede transformar tanto las claves como los valores.
Devuelve un nuevo RDD aplicando una función a cada elemento del RDD original.

mapValues:

Opera solo en los valores (la segunda parte de la tupla) en un RDD de pares (PairRDD).
Transforma solo los valores, manteniendo las claves inalteradas.
Preserva cualquier particionador establecido en el RDD, ya que solo modifica los valores y no las claves.

Elias Dudamel

student•

Otra forma de contar además de la que compartió el profesor:

equiposOlimpicosRDD.map(lambda x: (x[2], x[1])).groupByKey().mapValues(len).take(5)

Podrías ser esta:

equiposOlimpicosRDD.map(lambda x: (x[2], x[1])).countByKey()

Múltiples maneras para llegar al mismo resultado!!! Igual quedarse con el conocimiento de mapValues suma un montón porque no solo nos va a seguir para contar si no para realizar distintas operaciones, es como el apply de pandas si buscamos analogías.

jhon velasque

student•

buenas le comparto esta alicacion para poner modo oscuro la pantalla del navegador

https://microsoftedge.microsoft.com/addons/detail/dark-reader/ifoakfbpdcdoeenechcleahebpibofpc

Alfonso Andres Zapata Guzman

student•

Usa Jupyter lab y listo man, tienes pantalla oscura configurable en el area de temas de la configuracion, resuelves el problema de los directorios visto en clases pasadas y ganas todos los beneficiosque tiene jupyter lab sobre jupyter notebook: Ejecuta:

conda install -c conda-forge jupyterlab

modifica en el .bashrc:

export PYSPARK_DRIVER_PYTHON="jupyter"
export PYSPARK_DRIVER_PYTHON_OPTS="lab --config config.py --notebook-dir=~/notebooks/"

~ Que tal Platzinauta, ya conectamos en LinkedIn? ~

¡Que estas esperando! Conectemos en LinkedIn, GitHub, Medium o Redes sociales

Diego Andrés González Pérez

student•

Les recomiendo este video para entender mejor las funcuiones Map y Filter, muy sencillo de entender https://www.youtube.com/watch?v=vRy0Vw7KwJQ

José Alberto Núñez Magadán

student•

Muy buen profesor, en lo personal me gusta cómo explica

Alberto Gurrion

student•

Si a alguien le sirve recordemos que estamos usando el framework de Spark (para hacer análitca al vuelo) en este caso usando Python como lenguaje, por lo tanto debemos comprender al menos como usar slices :** string[start:stop:step]** . e.g. string = "freecodecamp" print(string[-1]) #print p Tambien sirve checar la sintaxis de las lambdas en python lambda argumentos: expresión e.g. lambda_func = lambda x: True if x**2 >= 10 else False lambda_func(3) # Retorna False

Juan Pablo Corona

student•

CountApprox recibe un valor número que esta en ms por ejemplo: MiRDD.countApprox(100) : va a contar hasta completar los 100 milisegundos