Creación de DataFrame desde RDD en PySpark

Curso de Fundamentos de Spark para Big Data

Contenido del curso

Conociendo Apache Spark

Configuración

Operaciones RDDs

Data Frames y SQL

Persistencia y particionado

Conclusiones

25
Uso de RDDs y DataFrames en Apache Spark
01:12 min

Tomar examen

Creación de DataFrame desde RDD en PySpark

Resumen

Transformar un RDD en un dataframe es una habilidad fundamental cuando trabajas con PySpark, ya que te permite aprovechar las ventajas de SQL y las optimizaciones del motor Catalyst. A continuación se explica paso a paso cómo lograrlo: desde limpiar el encabezado del RDD hasta aplicar un esquema tipado y obtener un dataframe listo para consultas.

¿Cómo eliminar el encabezado de un RDD antes de transformarlo?

Cuando un RDD proviene de un archivo CSV, la primera fila suele contener los nombres de las columnas. Ese encabezado debe retirarse antes de cualquier conversión.

Para ello se construye una función llamada elimina_encabezado que recibe dos parámetros:

índice: la posición de la partición dentro del RDD.
iterador: los elementos contenidos en esa partición.

Dentro de la función se convierte el iterador a lista y se retorna a partir del segundo elemento (lista[1:]), descartando así la primera fila [01:00].

La función se aplica al RDD mediante mapPartitionsWithIndex, un método que pasa a la función tanto el contenido de cada partición como su índice. De este modo, solo la partición que contiene el encabezado lo elimina [01:37].

python def elimina_encabezado(indice, iterador): l = list(iterador) return iter(l[1:])

deportista_olimpico = deportista_olimpico_rdd.mapPartitionsWithIndex(elimina_encabezado)

Al ejecutar deportista_olimpico.take(5) se confirma que el encabezado ya no aparece.

¿Por qué es necesario transformar los tipos de datos del RDD?

Un RDD creado desde un CSV almacena todo como string. Antes de construir el dataframe es imprescindible convertir cada campo al tipo correcto [02:22].

Se utiliza un map con lambda para recorrer cada registro y aplicar las conversiones:

int() para columnas enteras como el identificador del deportista, la edad, la altura y el equipo.
float() para la columna de peso, que contiene valores decimales.
Las columnas de texto, como nombre y género, permanecen como string.

python deportista_olimpico = deportista_olimpico.map( lambda x: (int(x[0]), x[1], x[2], int(x[3]), int(x[4]), float(x[5]), int(x[6])) )

Un error frecuente es olvidar la conversión a float en campos decimales, lo que provoca pérdida de precisión o excepciones en tiempo de ejecución.

¿Cómo definir el esquema con StructType y StructField?

El esquema describe la estructura del futuro dataframe: nombre de columna, tipo de dato y si acepta nulos. Se define con StructType, que recibe una lista de objetos StructField [03:10].

python from pyspark.sql.types import StructType, StructField, IntegerType, StringType, FloatType

esquema = StructType([ StructField("deportista_id", IntegerType(), False), StructField("nombre", StringType(), False), StructField("genero", StringType(), False), StructField("edad", IntegerType(), False), StructField("altura", IntegerType(), False), StructField("peso", FloatType(), False), StructField("equipo_id", IntegerType(), False) ])

El tercer parámetro de cada StructField indica si el campo puede ser nulo. Al establecerlo en False se exige que todos los valores estén presentes, evitando registros incompletos.

¿Cómo aplicar el esquema al RDD para obtener el dataframe?

Con el esquema listo, se utiliza sqlContext.createDataFrame pasando el RDD y el esquema como argumentos [04:30].

python deportista_df = sqlContext.createDataFrame(deportista_olimpico, esquema) deportista_df.show()

Si aparece un error de cierre de llaves o tipos incorrectos, revisa que cada StructField esté correctamente escrito y que las conversiones del map coincidan con los tipos declarados en el esquema [04:48].

Una vez creado, el dataframe puede visualizarse con .show() y almacenarse para transformaciones posteriores. Es importante no guardar el dataframe en modo de solo visualización, sino asignarlo a una variable que permita reutilizarlo en operaciones futuras.

Como práctica recomendada, convierte todos los archivos CSV que hayas cargado como RDD a dataframes con sus respectivos esquemas; esto prepara el entorno para trabajar con múltiples fuentes de datos de forma integrada. Si tienes dudas sobre algún paso, compártelas en la sección de comentarios.

José Martínez Santana

Estudiante

La clase muestra el uso de SQLContext para Spark 2.4, pero a la fecha que esribo esto es 08-noviembre-2021 y ya se encuntra depreacado SQLContext en la vesión 3.2.

Me salió un mensaje de error porque no puede transformar los RDD's que habiamos trabajado en clases anteriores.

Lo solucioné de la siguiente manera:

Borrar los headers de cafa RDD con la función creada en la clase.
Transformar cada RDD a dataframe con el método propio del RDD llamdo .toDF().

## Ejemplo
deportistaDF = deportistaOlimpicoRDD.toDF([lista con el nombre de cada columna])

Con el método anterior, transforma todo el esquema a tipo de dato string. Lo puedes berificar con:

deportistaDF.printSchema()

Para poder transformar el esquema de cada RDD, cree una función que pocas palabras itera sobre el diccionario y sobreescribe el dataframe.

from typing import Dict, Any
def change_types_df(dict_types: Dict[str, Any], df: Any) -> Any:
    """
    Change data types.

    This function cast data types of a *Spark* dataframe.

    Parameters:
    - **dict_types: Dict[str, Any]**: A Python dictionary with columns names and data types to cast in the dataframe.
    - **df: DataFrame**: A *Spark* dataframe.

    Returns:
    - **df: Any**: The dataframe with data types casted of every column.

    """
    for column, data_type in dict_types.items():
        df = df.withColumn(
            column,
        df[column].cast(data_type)
    )
    return df

Cree una lista de diccionarios con los tipos de datos para cada esquema (los nombres de headers son las llaves y nombrarlas como quieras):

from typing import List
casting: List[Dict[str, Any]] = [
    {
        'athetle_id': IntegerType(),
        'athetle_name': StringType(),
        'athetle_gender': IntegerType(),
        'athetle_age': IntegerType(),
        'athetle_height': FloatType(),
        'athetle_weight': FloatType(),
        'team_id': IntegerType()
    },
    {
        'country_id': IntegerType(),
        'team': StringType(),
        'country': StringType()
    },
    {
        'result_id': IntegerType(),
        'medal': StringType(),
        'athetle_id': IntegerType(),
        'game_id': IntegerType(),
        'event_id': IntegerType()
    }
]

Ejecutar la función para realizar el casting de los tipos de datos para cada dataframe.

# Ejemplo
deportistaDF = change_types_df(casting[0], deportistaDF)

Para verificar el esquema de cada dataframe:

deportistaDF.printSchema()

Creo que más fácil resubir los data del archivo csv directamente a un dataframe porque ya están semiestrucurados.

Jose Daniel Gallegos Padilla

Carlos Javier Guevara Contreras

Frida Ruh

Profesor

Pablo Rosa

Kenny José Miranda Deluque

Jose Luis Gamarra Palacios

Johan Steven Arias Pérez

Jaziel Flores

Juan Jose Tovar

Josefina Andrea Araya Tapia

Gerardo Sebastian Ramos Reyes

Francisco Garcia [C6]

Rodolfo benjamin Aseretto coronel

Alfonso Andres Zapata Guzman

Gerardo Mayel Fernández Alamilla

Carlos Felipe Saldarriaga Bejarano

Cesar Elías Armendariz Ruano

Magdiel Gutiérrez

Sebastian Granda Gallego

Creación de DataFrame desde RDD en PySpark

Conociendo Apache Spark

Fundamentos de Apache Spark: ETL y Limpieza de Datos

Introducción a Apache Spark y sus diferencias con Hadoop

Diferencias entre RDDs y DataFrames en Apache Spark

Configuración

Instalación de Spark y Anaconda en Linux

Ejecución y Configuración de Spark en Línea de Comando y Anaconda

Configuración de PySpark con Jupyter y Anaconda

Operaciones RDDs

Transformaciones y Acciones en RDD de Spark

Transformaciones y acciones

Interacción con RDDs en Spark: Operaciones Básicas y Avanzadas

Operaciones avanzadas con RDDs en Spark: Uniones y Joins

Unión de Datos en RDD para Deportistas Olímpicos

Operaciones Numéricas con RDDs en Juegos Olímpicos

Data Frames y SQL

Creación y Gestión de Data Frames en PySpark