Interacción con RDDs en Spark: Operaciones Básicas y Avanzadas

Clase 9 de 25 • Curso de Fundamentos de Spark para Big Data

Contenido del curso

Conociendo Apache Spark

Configuración

Operaciones RDDs

Data Frames y SQL

Persistencia y particionado

Conclusiones

25
Uso de RDDs y DataFrames en Apache Spark
01:12 min

Tomar examen

Resumen

Trabajar con datos distribuidos requiere dominar las operaciones fundamentales que permiten extraer información valiosa sin comprometer el rendimiento del servidor. A partir de un dataset de equipos olímpicos cargado en un RDD, es posible aplicar transformaciones como map, filter y groupByKey para responder preguntas concretas sobre los datos, siempre respetando la naturaleza inmutable y distribuida de estas estructuras.

¿Cómo contar valores únicos en un RDD con distinct y count?

Una de las primeras operaciones al explorar un RDD es determinar cuántos elementos únicos contiene. En el dataset de equipos olímpicos, cada país tiene una sigla identificadora, pero un mismo país puede tener múltiples equipos internos. Estados Unidos, por ejemplo, cuenta con alrededor de treinta equipos que compiten bajo la misma bandera [01:00].

Para contar cuántos países distintos participan, se utiliza map con una expresión lambda que selecciona la columna de siglas. Los arreglos comienzan en la posición cero, por lo que la sigla se ubica en el índice dos [01:30]. Antes de contar, es indispensable aplicar distinct para eliminar duplicados y obtener una cifra real.

Se selecciona la columna deseada con map(lambda x: x[2]).
Se aplica distinct() para eliminar valores repetidos.
Se ejecuta count() para obtener el total.

Un detalle importante es que las operaciones internas de Spark funcionan con formato llave-valor y procesan mejor las tuplas que las listas [02:28]. Si se intenta usar listas, puede generar errores. El resultado arroja doscientos treinta y un países participantes, aunque esta cifra incluye naciones ya extintas como la Unión Soviética [03:02].

¿Cómo funciona groupByKey junto con map values en RDDs?

La operación groupByKey permite agrupar valores a partir de una llave, de forma similar al GROUP BY de SQL [03:18]. Dado que los RDDs son inmutables, el dataset original no se modifica al realizar transformaciones; cada operación genera una salida nueva sin alterar el RDD original [03:30].

Para agrupar por sigla de país y conocer cuántos equipos posee cada uno, se construye una lambda que selecciona las columnas de sigla y nombre. El orden importa: la llave debe ir primero en la tupla, ya que groupByKey agrupa a partir del primer valor [04:00].

map_values permite procesar los valores agrupados sin tocar la llave.
Con len se obtiene la cantidad de equipos por país.
Con list se visualizan los nombres de los equipos agrupados.

Los resultados muestran que Australia tiene once equipos, México nueve, Argentina dieciocho y Afganistán solo uno [05:10]. En lugar de collect, se utiliza take para traer únicamente los primeros cinco grupos, evitando problemas de rendimiento.

¿Cómo filtrar datos específicos con filter?

Cuando solo interesa un subconjunto, filter permite seleccionar registros que cumplan una condición específica [06:18]. Por ejemplo, para obtener exclusivamente los equipos argentinos, se pasa una lambda que busca coincidencias con "Argentina".

Se asigna el resultado a una variable como equipos_argentinos.
Al ser un subconjunto pequeño (dieciocho registros), usar collect es aceptable [06:50].

¿Por qué collect puede ser peligroso y cuándo usar count approx?

La operación collect reúne todos los datos distribuidos en la máquina que ejecutó la instrucción [07:05]. Si el RDD contiene mil millones de registros y la máquina solo soporta una fracción, el servidor se ralentiza gravemente.

Una experiencia real ilustra este riesgo: un desarrollador ejecutó collect sobre una tabla con datos desde 1900 en un entorno de producción, lo que alentó toda la red durante casi media hora y afectó procesos críticos [07:40]. La recomendación es clara: nunca ejecutar collect sin conocer el volumen de datos.

Como alternativa al conteo tradicional con count(), existe countApprox [08:40]. Esta función recibe un valor en milisegundos que actúa como límite de tiempo.

Si el conteo finaliza antes del límite, devuelve el resultado completo.
Si detecta que tardará más, aborta y entrega un conteo parcial.
Es ideal cuando no se tiene certeza del tamaño del dataset.

¿Has tenido alguna experiencia con operaciones costosas en entornos distribuidos? Comparte tu caso y cómo lo resolviste.

Comentarios

- -

student•

no explica muy bien para que sirven las cosas como la funcion map(), simplemente va y las usa

Ricardo Andrés Gómez Torres

student•

Spark está construido sobre Scala. Este es un lenguaje de programación funcional, para entender estos conceptos te recomendaría el curso de 'programación funcional con Scala' es muy bueno y te pone a pensar con una lógica distinta.

Elias Ojeda Medina

student•

Map es programación funcional, entonces cuando agarra el dataset lo que hace es iterar por cada fila y aplicar una función de transformación, en este caso un Lambda que los separa por una coma, como dice Ricardo, puedes pasar a ver el cursos de Scala :D

Blanca Morillo Sierralta

student•

Me pareció interesante buscar sobre las diferencias entre map() y mapValues(). Por lo que entiendo, mapValues es aplicable en RDDs pares y solo opera sobre el valor (en este caso x[1], o los equipos). Mientras que map opera sobre toda la tupla.

LINK

Fernando Garcia de la Cruz

student•

Gracias por la referencia Blanca!

Carlos Javier Guevara Contreras

student•

si de verdad el profesor olvida que muchas personas no tienen la misma experiencia eso hace que el sistema de aprendizaje sea complejo

Mitchell Mirano

student•

Graficando a los 10 países, con la mayor cantidad de equipos.

Luis Arturo Cruz Cruz

student•

Buenas noches, hermosa comunidad de Platzi que esta tomando este curso de Spark.

Personalmente me quedo con la historia del método .collect() .Aunque nadie experimenta en cabeza agena, considero que el ejemplo que expone Oscar es valioso.

Saludos.

Francisco Ruben Méndez Gómez

student•

Aquí dejo dos links donde describen muy bien que son las funciones de Lambda y map.

lambda: https://docs.hektorprofe.net/python/funcionalidades-avanzadas/funciones-lambda/#:~:text=El%20contenido%20de%20una%20funci%C3%B3n,significa%20realizar%20algo%20sobre%20algo.

map: https://docs.hektorprofe.net/python/funcionalidades-avanzadas/funcion-map/

Pero en general lambda es una función simple que se escribe de manera corta, no tiene tantos parámetros. map se utiliza cuando queremos aplica cierta condición a un grupo de datos y como resultado devuelve un iterador.

Sergio de Jesús Huesca Nieva

student•

Excelentes referencias, muchas gracias.

Juan Dolorier Aburto Zapata

student•

Usan Mac pero la mayoría somos pobres con Windows crackeado

César Pérez

student•

Usa Linux, es gratis, y más eficiente. Ganar ganar

Juan Jose Tovar

student•

Configura WSL2 en windows, te da acceso a una terminal de Linux.

Johan Steven Arias Pérez

student•

Cuando ejecutamos

equiposOlimpicosRDD.map(lambda x: x[2]).distinct().count()

para contar las siglas es importante tener encuenta que el 231 esta contando también la palabra "sigla" que corresponde al header del archivo.

Bruce Leonel Ramirez La Rosa

student•

En el minuto 11:37... brutal Momento programador jejeje

Gerardo Mayel Fernández Alamilla

student•

Comandos más usados de RDD:

https://spark.apache.org/docs/latest/rdd-programming-guide.html

Hugo Fernandez Quiroz

student•

Cuál es la diferencia entre map y map.Values?

Bruno Guillaume Hernández Villamil

student•

En lo que le sale al profesor en el notebook, cuando usa mapValues() la salida es un objeto de tipo llave valor. Cuando usa map para cargar el CSV le regresa un arreglo. En resumen mapValues transforma los elementos del RDD en un elemento llave valor, map lo transforma en otro elemento según indiquemos.

Gabriela Andreina García Uzcategui

student•

Jose Orlando Barrera Cocunubo

student•

eso ultimo me acuerda de los "analistas de datos" que he visto explorando una tabla con un select *

Adrian Lara Gallardo

student•

Aquí algunas de las diferencias entre map() y mapValues() obtenido con GPT-3:

map:

Opera en todo el registro (tupla de clave y valor).
Puede transformar tanto las claves como los valores.
Devuelve un nuevo RDD aplicando una función a cada elemento del RDD original.

mapValues:

Opera solo en los valores (la segunda parte de la tupla) en un RDD de pares (PairRDD).
Transforma solo los valores, manteniendo las claves inalteradas.
Preserva cualquier particionador establecido en el RDD, ya que solo modifica los valores y no las claves.

Elias Dudamel

student•

Otra forma de contar además de la que compartió el profesor:

equiposOlimpicosRDD.map(lambda x: (x[2], x[1])).groupByKey().mapValues(len).take(5)

Podrías ser esta:

equiposOlimpicosRDD.map(lambda x: (x[2], x[1])).countByKey()

Múltiples maneras para llegar al mismo resultado!!! Igual quedarse con el conocimiento de mapValues suma un montón porque no solo nos va a seguir para contar si no para realizar distintas operaciones, es como el apply de pandas si buscamos analogías.

jhon velasque

student•

buenas le comparto esta alicacion para poner modo oscuro la pantalla del navegador

https://microsoftedge.microsoft.com/addons/detail/dark-reader/ifoakfbpdcdoeenechcleahebpibofpc

Alfonso Andres Zapata Guzman

student•

Usa Jupyter lab y listo man, tienes pantalla oscura configurable en el area de temas de la configuracion, resuelves el problema de los directorios visto en clases pasadas y ganas todos los beneficiosque tiene jupyter lab sobre jupyter notebook: Ejecuta:

conda install -c conda-forge jupyterlab

modifica en el .bashrc:

export PYSPARK_DRIVER_PYTHON="jupyter"
export PYSPARK_DRIVER_PYTHON_OPTS="lab --config config.py --notebook-dir=~/notebooks/"

~ Que tal Platzinauta, ya conectamos en LinkedIn? ~

¡Que estas esperando! Conectemos en LinkedIn, GitHub, Medium o Redes sociales

Diego Andrés González Pérez

student•

Les recomiendo este video para entender mejor las funcuiones Map y Filter, muy sencillo de entender https://www.youtube.com/watch?v=vRy0Vw7KwJQ

José Alberto Núñez Magadán

student•

Muy buen profesor, en lo personal me gusta cómo explica

Alberto Gurrion

student•

Si a alguien le sirve recordemos que estamos usando el framework de Spark (para hacer análitca al vuelo) en este caso usando Python como lenguaje, por lo tanto debemos comprender al menos como usar slices :** string[start:stop:step]** . e.g. string = "freecodecamp" print(string[-1]) #print p Tambien sirve checar la sintaxis de las lambdas en python lambda argumentos: expresión e.g. lambda_func = lambda x: True if x**2 >= 10 else False lambda_func(3) # Retorna False

Juan Pablo Corona

student•

CountApprox recibe un valor número que esta en ms por ejemplo: MiRDD.countApprox(100) : va a contar hasta completar los 100 milisegundos

Interacción con RDDs en Spark: Operaciones Básicas y Avanzadas

Conociendo Apache Spark

Fundamentos de Apache Spark: ETL y Limpieza de Datos

Introducción a Apache Spark y sus diferencias con Hadoop

Diferencias entre RDDs y DataFrames en Apache Spark

Configuración

Instalación de Spark y Anaconda en Linux

Ejecución y Configuración de Spark en Línea de Comando y Anaconda

Configuración de PySpark con Jupyter y Anaconda

Operaciones RDDs

Transformaciones y Acciones en RDD de Spark

Transformaciones y acciones