Creación y uso de UDFs en PySpark para manejo de datos faltantes

Clase 21 de 25 • Curso de Fundamentos de Spark para Big Data

Contenido del curso

Conociendo Apache Spark

Configuración

Operaciones RDDs

Data Frames y SQL

Persistencia y particionado

Conclusiones

25
Uso de RDDs y DataFrames en Apache Spark
01:12 min

Tomar examen

Resumen

Cuando trabajas con archivos CSV que contienen valores ausentes, las transformaciones estándar de Spark pueden no ser suficientes. Aquí es donde las UDF (User Defined Functions) se convierten en una herramienta esencial, ya que permiten registrar funciones personalizadas que operan de forma nativa dentro de tus DataFrames y consultas SQL. A continuación se explica paso a paso cómo cargar un archivo problemático, construir un esquema y aplicar una UDF para convertir valores vacíos en null.

¿Por qué un archivo con valores ausentes requiere una UDF?

El archivo deportista_error.csv presenta celdas vacías en columnas que deberían contener datos numéricos como altura o peso [01:02]. Cuando se carga directamente, esos campos quedan como cadenas vacías en lugar de reflejar la ausencia de valor. Para que Spark los interprete correctamente como null, necesitamos una función que evalúe cada celda y decida si puede convertirse a entero o debe devolver None.

¿Cómo se carga el RDD y se elimina el encabezado?

Se crea el RDD con spark.textFile apuntando a la ruta del archivo deportista_error.csv [01:22].
Se aplica un .map con una lambda que separa cada línea por coma: lambda l: l.split(',') [01:38].
Se reutiliza la función elimina_encabezado, que recibe un índice y un iterador, y devuelve todos los elementos menos el primero [01:52].
Se invoca con mapPartitionsWithIndex para retirar la fila de encabezado respetando la inmutabilidad del RDD, es decir, reasignando el resultado a una nueva variable [02:15].

¿Cómo se construye el esquema del DataFrame?

Se define un StructType con varios StructField, todos inicialmente de tipo StringType [03:10]. Los campos son: deportista_id, nombre, género, altura, peso y equipo_id. Mantenerlos como cadena en esta etapa es intencional, porque la conversión a entero se delegará a la UDF.

El DataFrame se genera con sqlContext.createDataFrame, pasando el RDD remapeado y el esquema como parámetros [03:55]. Al visualizarlo, las celdas vacías aparecen como cadenas sin contenido, no como null.

¿Cómo se crea y registra una UDF en PySpark?

Primero se importa udf desde pyspark.sql.functions [04:30]. Luego se define la función Python que contendrá la lógica:

python def conversion_enteros(valor): if len(valor) > 0: return int(valor) else: return None

Esta función verifica si la longitud del valor es mayor a cero. Si lo es, lo convierte a entero; de lo contrario, retorna None, que Spark interpreta como null en el DataFrame [04:42].

El siguiente paso es envolver la función en un objeto UDF:

python conversion_enteros_udf = udf(lambda z: conversion_enteros(z), IntegerType())

La convención de usar z como variable en la lambda es habitual al registrar UDFs [05:15]. El segundo argumento, IntegerType(), indica el tipo de dato que devolverá la función.

Finalmente se registra en el contexto SQL para que Spark la reconozca de forma nativa:

python sqlContext.udf.register("conversion_enteros_udf", conversion_enteros)

Con register se asigna un nombre con el cual Spark podrá invocarla incluso desde consultas SQL puras [05:35].

¿Cómo se aplica la UDF al DataFrame?

Se utiliza select sobre el DataFrame y se pasa la columna altura a través de la UDF [05:55]:

python deportista_error_df.select( "altura", conversion_enteros_udf("altura").alias("altura_udf") ).show()

La columna original altura muestra las cadenas vacías.
La nueva columna altura_udf ya refleja valores null donde no existía dato y enteros donde sí.
El método .alias() permite renombrar la columna resultante para mayor claridad [06:15].

¿Por qué las UDF son tan relevantes en la industria?

En entornos productivos es común contar con librerías completas de UDFs que encapsulan operaciones repetitivas de limpieza y transformación [06:50]. Algunas UDFs incluso registran múltiples RDDs y ejecutan toda la curaduría de datos en un solo paso. Al registrarlas, quedan disponibles tanto para la API de DataFrames como para consultas SQL, lo que las hace extremadamente versátiles.

Si ya lograste cargar y limpiar tu primer archivo con una UDF, comparte en los comentarios qué otras transformaciones te gustaría automatizar con funciones personalizadas.

Comentarios

Jose Daniel Gallegos Padilla

student•

En mi caso como cargue deportistaError usando directamente el csv de la siguiente manera:

DeportistaError_schema = StructType([
    StructField("deportista_id", StringType(), False),
    StructField("nombre", StringType(), False),
    StructField("genero", StringType(), False),
    StructField("edad", StringType(), False),
    StructField("altura", StringType(), False), 
    StructField("peso", StringType(), False),
    StructField("equipo_id", StringType(), False)
])

DeportistaErrorDF = sqlContext.read.format("csv").\
            option("header", True).\
            schema(DeportistaError_schema).\
            load(path+"deportistaError.csv")

Entonces, me salian las alturas faltantes como "null" por lo que modifique la funcion udf para que en vez de poner None, me ponga un 0. Tambien agregue una function que converte el valor a tipo flotante.

def conversionEnteros(valor):
    return int(valor) if valor else 0

def conversionFlotante(valor):
    return float(valor) if valor else 0.0

conversionEnteros_udf = udf(lambda z: conversionEnteros(z), IntegerType())
sqlContext.udf.register("conversionEnteros_udf", conversionEnteros_udf)

conversionFlotante_udf = udf(lambda z: conversionFlotante(z), FloatType())
sqlContext.udf.register("conversionFlotante_udf", conversionFlotante_udf)

DeportistaErrorDF.select(conversionEnteros_udf("altura").alias("alturaUDF"),\
                        conversionFlotante_udf("peso").alias("pesoUDF")).show(10)

+---------+-------+
|alturaUDF|pesoUDF|
+---------+-------+
|      180|   80.0|
|      170|   60.0|
|        0|    0.0|
|        0|    0.0|
|      185|   82.0|
|      188|   75.0|
|      183|   72.0|
|      168|    0.0|
|      186|   96.0|
|        0|    0.0|
+---------+-------+

rusbel bermúdez rivera

student•

A mi la libreria py4j me genera un error, me parece mas eficiente la forma en que lo manejaste

rusbel bermúdez rivera

student•

En mi caso muy particular utilizando python 3.7.9, wls2 y siguiendo los pasos para crear el DataFrame como en la clase me tope con un error, este es del tipo TypeError, en mi notebook los datos “vacíos” de altura al pasarlos por la función conversionEnteros() levantaba un error “TypeError: object of type ‘NoneType’ has no len()”, lo solucione manejando la excepción con un bloque try/catch.

def conversionEnteros(valor):
    try:
        return int(valor) if len(valor) > 0 else 0
    except TypeError as e:
        return 0
    
conversionEnteros_udf = udf(lambda z: conversionEnteros(z), IntegerType())
sqlContext.udf.register("conversionEnteros_udf", conversionEnteros_udf)

DeportistaErrorDF.select(conversionEnteros_udf("altura")
                         .alias("alturaUDF")).show()

Para el aporte de Jose Daniel Gallegos (eres un crack!) funciona de maravilla al importarlo directamente desde el csv se hacen las conversiones de tipos de datos de manera automática a diferencia de la versión RDD.

Gustavo Peralta Guzman

student•

Para los que usen colab y no puedan registrar la UDF con el método del curso, les dejo la siguiente manera:

#CREAR UDF PARA QUITAR ESPACIOS Y AGREGAR NULL
from pyspark.sql.functions import udf

def conversionEnteros(valor):
  return int(valor) if len(valor) > 0 else None

#Z es comun al registrar una udf
conversionEnteros_udf = udf(lambda z: conversionEnteros(z), IntegerType())
#Dar de alta UDF

spark.udf.register("conversionEnteros_udf", conversionEnteros_udf)

Carlos Javier Guevara Contreras

student•

interesante

Gerardo Miguel Pérez Solis

student•

Hice un udf para cambiar el genero del atleta de 1 y 2 a MALE y FEMALE.

from pyspark.sql.functions import udf
#CREO MI FUNCIÓN PERSONALIZADA
def select_gen(s):
    return "MALE" if s == 1 else "FEMALE" 

#LA VUELVO UN UDF PARA USARLA CON DATAFRAMES Y LA REGISTRO PARA USARLA COMO SQL
select_gen_udf = udf(select_gen,StringType())
spark.udf.register("select_gen_udf",select_gen_udf)

deportista_error_df.select("nombre",select_gen_udf("genero").alias("Genero")).show(5)

spark.sql("SELECT nombre,select_gen_udf(genero) AS GENERO FROM deportista_error").show(5)

No utilicé la parte de lambda del profesor, ya que basandome en este url ví que no lo usaba. ¿Alguién sabe cuál es la diferencia de hacerlo con el lambda?

Cesar Alejandro Rodriguez Muñoz

student•

bro pero te debe marcar error ya que pusiste == 1 y es == '1' caracter

Edith Montes Polanco

student•

las udf se pueden quedar almacenadas para reutilizar en otras notebooks o en cada una es necesario volverla a generar y guardar?

Diego Buesaquillo

student•

Sólo quedan disponibles en el notebook del proyecto.

David Marín García

student•

Se puede mapear un DataFrame??????

rogelio cortez

student•

Hola comunidad!

Actualmente es mas sencillo cargar el df con error con una spark session ya pone nulos los valores vacíos automáticamente , a continuacion muestro mi codigo:

# Create a SparkSession
spark = SparkSession.builder.appName("DataFrameExample").getOrCreate()
```# Create a SparkSessionspark = SparkSession.builder.appName("DataFrameExample").getOrCreate()



```js
deportistaError = spark.read.csv(path + '/deportistaError.csv',header = True)
```deportistaError = spark.read.csv(path + '/deportistaError.csv',header = True)

Diana Catalina Velásquez Gaviria

student•

SPOILER : Solo a partir del minuto 8 se habla sobre las UDF .

Pablo Rosa

student•

Alguien me puede explicar porque en la función lambda le pasa el parámetro IntegerType, siendo que ya la función conversionEnteros el return es un entero.

NAHUEL GABIOUD FERNANDEZ

student•

Entiendo que convierte el entero de Python a entero de Spark, pero no estoy seguro.

Alfonso Andres Zapata Guzman

student•

al lambda no se le esta pasando ese parametro, si quieres verlo claramente seria asi:

nuestra_funcion_lambda = lambda z : ci(z)

ci_udf = udf(nuestra_funcion_lambda, IntegerType())

IntegerType() se le esta pasando es a la funcion udf(), y esto se denota porque hay una coma "," y ademas estan en un parentesis, IntegerType() es indicativo del tipo de valor que esperamos obtener.

DeportistaError_schema = StructType([
    StructField("deportista_id", StringType(), False),
    StructField("nombre", StringType(), False),
    StructField("genero", StringType(), False),
    StructField("edad", StringType(), False),
    StructField("altura", StringType(), False), 
    StructField("peso", StringType(), False),
    StructField("equipo_id", StringType(), False)
])

DeportistaErrorDF = sqlContext.read.format("csv").\
            option("header", True).\
            schema(DeportistaError_schema).\
            load(path+"deportistaError.csv")

def conversionEnteros(valor):
    return int(valor) if valor else 0

def conversionFlotante(valor):
    return float(valor) if valor else 0.0

conversionEnteros_udf = udf(lambda z: conversionEnteros(z), IntegerType())
sqlContext.udf.register("conversionEnteros_udf", conversionEnteros_udf)

conversionFlotante_udf = udf(lambda z: conversionFlotante(z), FloatType())
sqlContext.udf.register("conversionFlotante_udf", conversionFlotante_udf)

DeportistaErrorDF.select(conversionEnteros_udf("altura").alias("alturaUDF"),\
                        conversionFlotante_udf("peso").alias("pesoUDF")).show(10)

+---------+-------+
|alturaUDF|pesoUDF|
+---------+-------+
|      180|   80.0|
|      170|   60.0|
|        0|    0.0|
|        0|    0.0|
|      185|   82.0|
|      188|   75.0|
|      183|   72.0|
|      168|    0.0|
|      186|   96.0|
|        0|    0.0|
+---------+-------+

def conversionEnteros(valor):
    try:
        return int(valor) if len(valor) > 0 else 0
    except TypeError as e:
        return 0
    
conversionEnteros_udf = udf(lambda z: conversionEnteros(z), IntegerType())
sqlContext.udf.register("conversionEnteros_udf", conversionEnteros_udf)

DeportistaErrorDF.select(conversionEnteros_udf("altura")
                         .alias("alturaUDF")).show()

#CREAR UDF PARA QUITAR ESPACIOS Y AGREGAR NULL
from pyspark.sql.functions import udf

def conversionEnteros(valor):
  return int(valor) if len(valor) > 0 else None

#Z es comun al registrar una udf
conversionEnteros_udf = udf(lambda z: conversionEnteros(z), IntegerType())
#Dar de alta UDF

spark.udf.register("conversionEnteros_udf", conversionEnteros_udf)

from pyspark.sql.functions import udf
#CREO MI FUNCIÓN PERSONALIZADA
def select_gen(s):
    return "MALE" if s == 1 else "FEMALE" 

#LA VUELVO UN UDF PARA USARLA CON DATAFRAMES Y LA REGISTRO PARA USARLA COMO SQL
select_gen_udf = udf(select_gen,StringType())
spark.udf.register("select_gen_udf",select_gen_udf)

deportista_error_df.select("nombre",select_gen_udf("genero").alias("Genero")).show(5)

# Create a SparkSession
spark = SparkSession.builder.appName("DataFrameExample").getOrCreate()
```# Create a SparkSessionspark = SparkSession.builder.appName("DataFrameExample").getOrCreate()



```js
deportistaError = spark.read.csv(path + '/deportistaError.csv',header = True)
```deportistaError = spark.read.csv(path + '/deportistaError.csv',header = True)

Creación y uso de UDFs en PySpark para manejo de datos faltantes

Conociendo Apache Spark

Fundamentos de Apache Spark: ETL y Limpieza de Datos

Introducción a Apache Spark y sus diferencias con Hadoop

Diferencias entre RDDs y DataFrames en Apache Spark

Configuración

Instalación de Spark y Anaconda en Linux

Ejecución y Configuración de Spark en Línea de Comando y Anaconda

Configuración de PySpark con Jupyter y Anaconda

Operaciones RDDs

Transformaciones y Acciones en RDD de Spark

Transformaciones y acciones

Interacción con RDDs en Spark: Operaciones Básicas y Avanzadas

Operaciones avanzadas con RDDs en Spark: Uniones y Joins

Unión de Datos en RDD para Deportistas Olímpicos

Operaciones Numéricas con RDDs en Juegos Olímpicos

Data Frames y SQL

Creación y Gestión de Data Frames en PySpark

Creación de DataFrame desde RDD en PySpark

Manipulación de Data Frames en PySpark

Joins y Selección de Datos en DataFrames con PySpark

Filtrado y Join de Datos Olímpicos en Pandas

Funciones de Agregación en Spark para DataFrames

Uso de SQLContext para Registro y Consultas con DataFrames en Spark

Creación y Uso de Funciones UDF en Spark