Creación de DataFrame desde RDD en PySpark

Clase 14 de 25 • Curso de Fundamentos de Spark para Big Data

Contenido del curso

Conociendo Apache Spark

Configuración

Operaciones RDDs

Data Frames y SQL

Persistencia y particionado

Conclusiones

25
Uso de RDDs y DataFrames en Apache Spark
01:12 min

Tomar examen

Resumen

Transformar un RDD en un dataframe es una habilidad fundamental cuando trabajas con PySpark, ya que te permite aprovechar las ventajas de SQL y las optimizaciones del motor Catalyst. A continuación se explica paso a paso cómo lograrlo: desde limpiar el encabezado del RDD hasta aplicar un esquema tipado y obtener un dataframe listo para consultas.

¿Cómo eliminar el encabezado de un RDD antes de transformarlo?

Cuando un RDD proviene de un archivo CSV, la primera fila suele contener los nombres de las columnas. Ese encabezado debe retirarse antes de cualquier conversión.

Para ello se construye una función llamada elimina_encabezado que recibe dos parámetros:

índice: la posición de la partición dentro del RDD.
iterador: los elementos contenidos en esa partición.

Dentro de la función se convierte el iterador a lista y se retorna a partir del segundo elemento (lista[1:]), descartando así la primera fila [01:00].

La función se aplica al RDD mediante mapPartitionsWithIndex, un método que pasa a la función tanto el contenido de cada partición como su índice. De este modo, solo la partición que contiene el encabezado lo elimina [01:37].

python def elimina_encabezado(indice, iterador): l = list(iterador) return iter(l[1:])

deportista_olimpico = deportista_olimpico_rdd.mapPartitionsWithIndex(elimina_encabezado)

Al ejecutar deportista_olimpico.take(5) se confirma que el encabezado ya no aparece.

¿Por qué es necesario transformar los tipos de datos del RDD?

Un RDD creado desde un CSV almacena todo como string. Antes de construir el dataframe es imprescindible convertir cada campo al tipo correcto [02:22].

Se utiliza un map con lambda para recorrer cada registro y aplicar las conversiones:

int() para columnas enteras como el identificador del deportista, la edad, la altura y el equipo.
float() para la columna de peso, que contiene valores decimales.
Las columnas de texto, como nombre y género, permanecen como string.

python deportista_olimpico = deportista_olimpico.map( lambda x: (int(x[0]), x[1], x[2], int(x[3]), int(x[4]), float(x[5]), int(x[6])) )

Un error frecuente es olvidar la conversión a float en campos decimales, lo que provoca pérdida de precisión o excepciones en tiempo de ejecución.

¿Cómo definir el esquema con StructType y StructField?

El esquema describe la estructura del futuro dataframe: nombre de columna, tipo de dato y si acepta nulos. Se define con StructType, que recibe una lista de objetos StructField [03:10].

python from pyspark.sql.types import StructType, StructField, IntegerType, StringType, FloatType

esquema = StructType([ StructField("deportista_id", IntegerType(), False), StructField("nombre", StringType(), False), StructField("genero", StringType(), False), StructField("edad", IntegerType(), False), StructField("altura", IntegerType(), False), StructField("peso", FloatType(), False), StructField("equipo_id", IntegerType(), False) ])

El tercer parámetro de cada StructField indica si el campo puede ser nulo. Al establecerlo en False se exige que todos los valores estén presentes, evitando registros incompletos.

¿Cómo aplicar el esquema al RDD para obtener el dataframe?

Con el esquema listo, se utiliza sqlContext.createDataFrame pasando el RDD y el esquema como argumentos [04:30].

python deportista_df = sqlContext.createDataFrame(deportista_olimpico, esquema) deportista_df.show()

Si aparece un error de cierre de llaves o tipos incorrectos, revisa que cada StructField esté correctamente escrito y que las conversiones del map coincidan con los tipos declarados en el esquema [04:48].

Una vez creado, el dataframe puede visualizarse con .show() y almacenarse para transformaciones posteriores. Es importante no guardar el dataframe en modo de solo visualización, sino asignarlo a una variable que permita reutilizarlo en operaciones futuras.

Como práctica recomendada, convierte todos los archivos CSV que hayas cargado como RDD a dataframes con sus respectivos esquemas; esto prepara el entorno para trabajar con múltiples fuentes de datos de forma integrada. Si tienes dudas sobre algún paso, compártelas en la sección de comentarios.

Comentarios

Jose Daniel Gallegos Padilla

student•

Aqui esta la solucion del reto: Crear DF con los archivos faltantes

evento_schema = StructType([
    StructField("evento_id", IntegerType(), False),
    StructField("evento", StringType(), False), 
    StructField("deporte_id", IntegerType(), False)
])

eventoDF = sqlContext.read.format("csv").\
        option("header", True).\
        schema(evento_schema).\
        load(path+"evento.csv")

eventoDF.show(4)

+---------+--------------------+----------+
|evento_id|              evento|deporte_id|
+---------+--------------------+----------+
|        1|Basketball Men's ...|         1|
|        2|Judo Men's Extra-...|         2|
|        3|Football Men's Fo...|         3|
|        4|Tug-Of-War Men's ...|         4|
+---------+--------------------+----------+
only showing top 4 rows

paises_schema = StructType([
    StructField("paises_id", IntegerType(), False),
    StructField("equipo", StringType(), False), 
    StructField("sigla", StringType(), False)
])

paisesDF = sqlContext.read.format("csv").\
        option("header", True).\
        schema(paises_schema).\
        load(path+"paises.csv")

paisesDF.show(4)

+---------+--------------------+-----+
|paises_id|              equipo|sigla|
+---------+--------------------+-----+
|        1|         30. Februar|  AUT|
|        2|A North American ...|  MEX|
|        3|           Acipactli|  MEX|
|        4|             Acturus|  ARG|
+---------+--------------------+-----+
only showing top 4 rows

resultados_schema = StructType([
    StructField("resultado_id", IntegerType(), False),
    StructField("medalla", StringType(), False),
    StructField("deportista_id", IntegerType(), False),
    StructField("juego_id", IntegerType(), False),
    StructField("evento_id", IntegerType(), False)
])

resultadosDF = sqlContext.read.format("csv").\
            option("header", True).\
            schema(resultados_schema).\
            load(path+"resultados.csv")

resultadosDF.show(4)

+------------+-------+-------------+--------+---------+
|resultado_id|medalla|deportista_id|juego_id|evento_id|
+------------+-------+-------------+--------+---------+
|           1|     NA|            1|      39|        1|
|           2|     NA|            2|      49|        2|
|           3|     NA|            3|       7|        3|
|           4|   Gold|            4|       2|        4|
+------------+-------+-------------+--------+---------+
only showing top 4 rows

Carlos Javier Guevara Contreras

student•

de verdad pienso que deberia explicar de manera mas detalladas

Frida Ruh

teacher•

En qué te estás atorando? Tal vez pueda ayudarte...

Pablo Rosa

student•

A modo de comentario constructivo me parece que no está tan bien explicado este curso. Si bien exige cierto nivel hay cosas que sinceramente no se de donde salen y tengo que estar mucho tiempo en la web o leyendo la documentación para entender como funciona tal o cual funcion que utiliza. por ejemplo mapPartitionsWithIndex no se explica que hace ni sus diferencias con map. es super constructivo, me gusta el curso pero solo ese comentario.

Kenny José Miranda Deluque

student•

Función alternativa para eliminar el encabezado del RDD

def without_header(rdd):
    header = rdd.first()
    rdd = rdd.filter( lambda l: l != header)
    return rdd

Jose Luis Gamarra Palacios

student•

Mas intuitiva y clara tu función. Gracias!

José Martínez Santana

student•

La clase muestra el uso de SQLContext para Spark 2.4, pero a la fecha que esribo esto es 08-noviembre-2021 y ya se encuntra depreacado SQLContext en la vesión 3.2.

Me salió un mensaje de error porque no puede transformar los RDD's que habiamos trabajado en clases anteriores.

Lo solucioné de la siguiente manera:

Borrar los headers de cafa RDD con la función creada en la clase.
Transformar cada RDD a dataframe con el método propio del RDD llamdo .toDF().

## Ejemplo
deportistaDF = deportistaOlimpicoRDD.toDF([lista con el nombre de cada columna])

Con el método anterior, transforma todo el esquema a tipo de dato string. Lo puedes berificar con:

deportistaDF.printSchema()

Para poder transformar el esquema de cada RDD, cree una función que pocas palabras itera sobre el diccionario y sobreescribe el dataframe.

from typing import Dict, Any
def change_types_df(dict_types: Dict[str, Any], df: Any) -> Any:
    """
    Change data types.

    This function cast data types of a *Spark* dataframe.

    Parameters:
    - **dict_types: Dict[str, Any]**: A Python dictionary with columns names and data types to cast in the dataframe.
    - **df: DataFrame**: A *Spark* dataframe.

    Returns:
    - **df: Any**: The dataframe with data types casted of every column.

    """
    for column, data_type in dict_types.items():
        df = df.withColumn(
            column,
        df[column].cast(data_type)
    )
    return df

Cree una lista de diccionarios con los tipos de datos para cada esquema (los nombres de headers son las llaves y nombrarlas como quieras):

from typing import List
casting: List[Dict[str, Any]] = [
    {
        'athetle_id': IntegerType(),
        'athetle_name': StringType(),
        'athetle_gender': IntegerType(),
        'athetle_age': IntegerType(),
        'athetle_height': FloatType(),
        'athetle_weight': FloatType(),
        'team_id': IntegerType()
    },
    {
        'country_id': IntegerType(),
        'team': StringType(),
        'country': StringType()
    },
    {
        'result_id': IntegerType(),
        'medal': StringType(),
        'athetle_id': IntegerType(),
        'game_id': IntegerType(),
        'event_id': IntegerType()
    }
]

Ejecutar la función para realizar el casting de los tipos de datos para cada dataframe.

# Ejemplo
deportistaDF = change_types_df(casting[0], deportistaDF)

Para verificar el esquema de cada dataframe:

deportistaDF.printSchema()

Creo que más fácil resubir los data del archivo csv directamente a un dataframe porque ya están semiestrucurados.

Johan Steven Arias Pérez

student•

Definitivamente hay conceptos que no son claros. La función mapPartitionsWithIndex() va más allá de la vaga explicación que da el profesor. mapPartitionsWithIndex() se relaciona con el concepto de "partición" ¿qué significa una partición de un RDD?¿cómo se trabajan las particiones?

Pablo Rosa

student•

que es y para que sirve mapPartitionsWithIndex?

Jaziel Flores

student•

La verdad no estuvo padre que hicieras la transición de la última clase a esta sin una apropiada da introducción de las dependencias y en especial de sqlContext.

Jose Luis Gamarra Palacios

student•

El profesor sabe bastante sobre Big data. Seria bueno que reflexionara sobre los temas que imparte, su secuencia y la manera que explica. Da saltos cuánticos entre detalles vitales.

Juan Jose Tovar

student•

PROFUNDIZAR ESTE CONCEPTO PARA OPTIMIZAR LOS RECURSOS

Los headers del archivo leido también se pueden remover de la siguiente forma:

header = olympicAthletesRDD.first()
txt = olympicAthletesRDD.filter(lambda line: line != header)
txt.take(5)

Sin embargo, filter() al igual que map() aplican la función sobre cada elemento del RDD. mapPartitions() y mapPartitionsWithIndex() ejecutan la función por partición (si no distribuiste manualmente los recursos, Spark lo hace por defecto y para una laptop regularmente divide la carga de trabajo en el número de cores) lo cual hace mucho mas rápida la operación.

Josefina Andrea Araya Tapia

student•

Acá mi Código del Reto:

Francisco Garcia [C6]

student•

Mi solución fue crear una funcion que genere los los DataFrame a partir del CSV

def crearDF(schema, pathfilename):
    return sqlContext.read.schema(schema).option("header", "true").csv(pathfilename)

Y luego generar los schemas y los path y pasarlos a la funcion que me retorma un dataframe

Rodolfo benjamin Aseretto coronel

student•

Crear una instancia de SparkSession

spark = SparkSession.builder
.appName("Inferencia de datos")
.getOrCreate() deportistaDF = spark.createDataFrame(deportistaOlimpicoRDD, schema) Esto se us¿tiliza en lugar de sqlContext

Alfonso Andres Zapata Guzman

student•

Si man, es lo que se usa ahora, el curso esta muy desactualizado, luego hay que usar es:

deportistaOlimpicoRDD =  spark.read.text(path+"deportista.csv", lineSep=",")
deportistaOlimpico2RDD = spark.read.text(path+"deportista2.csv", lineSep=",")

Pero igual hay que ir parcheando funciones aqui y alla, yo decidi mejor tomar el curso como oyente, porque hay muchas funciones que ya no se aplican y seria gastar tiempo en aprender algo que es obsoleto desde que lo aprendes

Gerardo Mayel Fernández Alamilla

student•

No entendí el por qué de los parámetros de la función eliminaEncabezado y luego porque esa función de usa como parámetros de la función mapPartitionsWithIndex()

Carlos Felipe Saldarriaga Bejarano

student•

Otra inquietud que me surge al revisar el reto es que hay datos que al hacer map se dividen en más columnas de las que deberían.

Ejemplo este sexto dato en evento.csv 👉🏽 ['6', "'Speed Skating Women's 1", "000 metres'", '5']

la ',' dentro del nombre de evento genera que el split realizado con map me divida en más componentes esta fila.

Se me ocurre que puedo modificarlo manualmente editando el csv pero me gustaría saber si hay maneras de manejar este tipo de casos desde donde estamos trabajando.

Gracias por la ayuda!

Cesar Elías Armendariz Ruano

student•

Comparto mi código en google colaboratory

Schemas

deportistaOlimpicoRDD = deportistaOlimpicoRDD.map(lambda l : (
    int(l[0]),
    l[1],
    int(l[2]),
    int(l[3]),
    int(l[4]),
    float(l[5]),
    int(l[6])
))

schemaDeportista = StructType([
                     StructField("deportista_id",IntegerType(),False),
                     StructField("nombre",StringType(),False),
                     StructField("genero",IntegerType(),False),
                     StructField("edad",IntegerType(),False),
                     StructField("altura",IntegerType(),False),
                     StructField("peso",FloatType(),False),
                     StructField("equipo_id",IntegerType(),False),
])

deporte_schema = StructType([
                             StructField("deporte_id",IntegerType(),False),
                             StructField("deporte", StringType(),False)
])

evento_schema = StructType([
                            StructField("evento_id",IntegerType(),False),
                            StructField("evento",StringType(),False),
                            StructField("deporte_id",IntegerType(),False)
])

paises_schema = StructType([
                            StructField("id",IntegerType(),False),
                            StructField("equipo",StringType(),False),
                            StructField("sigla",StringType(),False)
])

resultados_schema = StructType([
                            StructField("resultado_id",IntegerType(),False),
                            StructField("medalla",StringType(),False),
                            StructField("deportista_id",IntegerType(),False),
                            StructField("juego_id",IntegerType(),False),
                            StructField("evento_id",IntegerType(),False)
])

función de eliminación de encabezados

def eliminaEncabezado(indice, iterador):
  return iter(list(iterador)[1:])

tipos de datos al RDD

deportistaOlimpicoRDD = deportistaOlimpicoRDD.map(lambda l : (
    int(l[0]),
    l[1],
    int(l[2]),
    int(l[3]),
    int(l[4]),
    float(l[5]),
    int(l[6])
))

deporteRDD = deporteRDD.map(lambda l : (
    int(l[0]),
    l[1]
))

eventoRDD = eventoRDD.map(lambda l : (
    int(l[0]),
    l[1],
    int(l[2])
))

paisesRDD = paisesRDD.map(lambda l : (
    int(l[0]),
    l[1],
    l[2]
))

resultadosRDD = resultadosRDD.map(lambda l : (
    int(l[0]),
    l[1],
    int(l[2]),
    int(l[3]),
    int(l[4])
))

creación de dataframes

deportistaDF = sqlContext.createDataFrame(deportistaOlimpicoRDD, schemaDeportista).show(5)
deporteDF = sqlContext.createDataFrame(deporteRDD, deporte_schema).show(5)
eventoDF = sqlContext.createDataFrame(eventoRDD, evento_schema).show(2)
paisesDF = sqlContext.createDataFrame(paisesRDD, paises_schema).show(5)
resultadosDF = sqlContext.createDataFrame(resultadosRDD, resultados_schema).show(5)

Carlos Felipe Saldarriaga Bejarano

student•

¿Cual sería la principal diferencia entre crear DataFrame entre estas dos alternativas o en qué casos debemos usar una u otra? eventoDF = sqlContext.createDataFrame(deporteRDD,deporte_schema)

eventoDF = sqlContext.read.schema(evento_schema).option('header','true').csv(path+'evento.csv')

Gerardo Sebastian Ramos Reyes

student•

Para que realizamos ese proceso de borrado de header y crear un schema(? Es realmente necesario (?

Deja demasiados conceptos al aire, encima de estar desactualizado

Magdiel Gutiérrez

student•

Yo lo he realizado en Databricks y me ah quedado asi, la lectura de todos los archivos CSV creando los dataframe.

# File location and type
file_source = "/FileStore/shared_uploads/correo@gmail.com/"
file_type = "csv"

# File options
infer_schema = "true"
first_row_is_header = "true"
delimiter = ","
list_files= ['deportista.csv','evento.csv','paises.csv','resultados.csv']

# The applied options are for CSV files.
for name in range(len(list_files)):
    string='raw_' + re.sub(".csv","",list_files[name]) 
    globals()[string] = spark.read.format(file_type ) \
                              .option("inferSchema", infer_schema) \
								.option("header", first_row_is_header) \
								.option("multiline", "true") \
                              .option("sep", delimiter).load(file_source + list_files[name])
    print(' DF_Name: ', string)

#Output:
 DF_Name:  raw_deportista
 DF_Name:  raw_evento
 DF_Name:  raw_paises
 DF_Name:  raw_resultados

Sebastian Granda Gallego

student•

Esta es mi solución al reto

Schemas

# Schemas

schemas = {
    "deporte": StructType([
        StructField("deporte_id", IntegerType(), False),
        StructField("deporte", StringType(), False)
    ]),
    "deportista": StructType([
        StructField("deportista_id", IntegerType(), False),
        StructField("nombre", StringType(), False),
        StructField("genero", StringType(), False),
        StructField("edad", IntegerType(), False),
        StructField("altura", IntegerType(), False),
        StructField("peso", FloatType(), False),
        StructField("equipo_id", IntegerType(), False)
    ]),
    "evento": StructType([
        StructField("evento_id", IntegerType(), False),
        StructField("evento", StringType(), False),
        StructField("deporte_id", IntegerType(), False)
    ]),
    "juegos": StructType([
        StructField("juego_id", IntegerType(), False),
        StructField("nombre_juego", StringType(), False),
        StructField("anio", IntegerType(), False),
        StructField("temporada", StringType(), False),
        StructField("ciudad", StringType(), False)
    ]),
    "paises": StructType([
        StructField("pais_id", IntegerType(), False),
        StructField("equipo", StringType(), False),
        StructField("sigla", StringType(), False)
    ]),
    "resultados": StructType([
        StructField("resultado_id", IntegerType(), False),
        StructField("medalla", StringType(), False),
        StructField("deportista_id", IntegerType(), False),
        StructField("juego_id", IntegerType(), False),
        StructField("evento_id", IntegerType(), False)
    ])
}

DataFrames

# Dataframes

dp1 = sql_context.read.schema(schemas['deportista']).option("header", "true").csv(f"{data_dir}/deportista.csv")
dp2 = sql_context.read.schema(schemas['deportista']).option("header", "false").csv(f"{data_dir}/deportista2.csv")

dataframes = {
    "deporte": sql_context.read.schema(schemas['deporte']).option("header", "true").csv(f"{data_dir}/deporte.csv"),
    "deportista": dp1.union(dp2),
    "evento": sql_context.read.schema(schemas['evento']).option("header", "true").csv(f"{data_dir}/evento.csv"),
    "juegos": sql_context.read.schema(schemas['juegos']).option("header", "true").csv(f"{data_dir}/juegos.csv"),
    "paises": sql_context.read.schema(schemas['paises']).option("header", "true").csv(f"{data_dir}/paises.csv"),
    "resultados": sql_context.read.schema(schemas['resultados']).option("header", "true").csv(f"{data_dir}/resultados.csv")
}
del(dp1, dp2)

Ejemplo show

dataframes['deporte'].show(5)

evento_schema = StructType([
    StructField("evento_id", IntegerType(), False),
    StructField("evento", StringType(), False), 
    StructField("deporte_id", IntegerType(), False)
])

eventoDF = sqlContext.read.format("csv").\
        option("header", True).\
        schema(evento_schema).\
        load(path+"evento.csv")

eventoDF.show(4)

+---------+--------------------+----------+
|evento_id|              evento|deporte_id|
+---------+--------------------+----------+
|        1|Basketball Men's ...|         1|
|        2|Judo Men's Extra-...|         2|
|        3|Football Men's Fo...|         3|
|        4|Tug-Of-War Men's ...|         4|
+---------+--------------------+----------+
only showing top 4 rows

paises_schema = StructType([
    StructField("paises_id", IntegerType(), False),
    StructField("equipo", StringType(), False), 
    StructField("sigla", StringType(), False)
])

paisesDF = sqlContext.read.format("csv").\
        option("header", True).\
        schema(paises_schema).\
        load(path+"paises.csv")

paisesDF.show(4)

+---------+--------------------+-----+
|paises_id|              equipo|sigla|
+---------+--------------------+-----+
|        1|         30. Februar|  AUT|
|        2|A North American ...|  MEX|
|        3|           Acipactli|  MEX|
|        4|             Acturus|  ARG|
+---------+--------------------+-----+
only showing top 4 rows

resultados_schema = StructType([
    StructField("resultado_id", IntegerType(), False),
    StructField("medalla", StringType(), False),
    StructField("deportista_id", IntegerType(), False),
    StructField("juego_id", IntegerType(), False),
    StructField("evento_id", IntegerType(), False)
])

resultadosDF = sqlContext.read.format("csv").\
            option("header", True).\
            schema(resultados_schema).\
            load(path+"resultados.csv")

resultadosDF.show(4)

+------------+-------+-------------+--------+---------+
|resultado_id|medalla|deportista_id|juego_id|evento_id|
+------------+-------+-------------+--------+---------+
|           1|     NA|            1|      39|        1|
|           2|     NA|            2|      49|        2|
|           3|     NA|            3|       7|        3|
|           4|   Gold|            4|       2|        4|
+------------+-------+-------------+--------+---------+
only showing top 4 rows

from typing import Dict, Any
def change_types_df(dict_types: Dict[str, Any], df: Any) -> Any:
    """
    Change data types.

    This function cast data types of a *Spark* dataframe.

    Parameters:
    - **dict_types: Dict[str, Any]**: A Python dictionary with columns names and data types to cast in the dataframe.
    - **df: DataFrame**: A *Spark* dataframe.

    Returns:
    - **df: Any**: The dataframe with data types casted of every column.

    """
    for column, data_type in dict_types.items():
        df = df.withColumn(
            column,
        df[column].cast(data_type)
    )
    return df

from typing import List
casting: List[Dict[str, Any]] = [
    {
        'athetle_id': IntegerType(),
        'athetle_name': StringType(),
        'athetle_gender': IntegerType(),
        'athetle_age': IntegerType(),
        'athetle_height': FloatType(),
        'athetle_weight': FloatType(),
        'team_id': IntegerType()
    },
    {
        'country_id': IntegerType(),
        'team': StringType(),
        'country': StringType()
    },
    {
        'result_id': IntegerType(),
        'medal': StringType(),
        'athetle_id': IntegerType(),
        'game_id': IntegerType(),
        'event_id': IntegerType()
    }
]

deportistaOlimpicoRDD = deportistaOlimpicoRDD.map(lambda l : (
    int(l[0]),
    l[1],
    int(l[2]),
    int(l[3]),
    int(l[4]),
    float(l[5]),
    int(l[6])
))

schemaDeportista = StructType([
                     StructField("deportista_id",IntegerType(),False),
                     StructField("nombre",StringType(),False),
                     StructField("genero",IntegerType(),False),
                     StructField("edad",IntegerType(),False),
                     StructField("altura",IntegerType(),False),
                     StructField("peso",FloatType(),False),
                     StructField("equipo_id",IntegerType(),False),
])

deporte_schema = StructType([
                             StructField("deporte_id",IntegerType(),False),
                             StructField("deporte", StringType(),False)
])

evento_schema = StructType([
                            StructField("evento_id",IntegerType(),False),
                            StructField("evento",StringType(),False),
                            StructField("deporte_id",IntegerType(),False)
])

paises_schema = StructType([
                            StructField("id",IntegerType(),False),
                            StructField("equipo",StringType(),False),
                            StructField("sigla",StringType(),False)
])

resultados_schema = StructType([
                            StructField("resultado_id",IntegerType(),False),
                            StructField("medalla",StringType(),False),
                            StructField("deportista_id",IntegerType(),False),
                            StructField("juego_id",IntegerType(),False),
                            StructField("evento_id",IntegerType(),False)
])

deportistaOlimpicoRDD = deportistaOlimpicoRDD.map(lambda l : (
    int(l[0]),
    l[1],
    int(l[2]),
    int(l[3]),
    int(l[4]),
    float(l[5]),
    int(l[6])
))

deporteRDD = deporteRDD.map(lambda l : (
    int(l[0]),
    l[1]
))

eventoRDD = eventoRDD.map(lambda l : (
    int(l[0]),
    l[1],
    int(l[2])
))

paisesRDD = paisesRDD.map(lambda l : (
    int(l[0]),
    l[1],
    l[2]
))

resultadosRDD = resultadosRDD.map(lambda l : (
    int(l[0]),
    l[1],
    int(l[2]),
    int(l[3]),
    int(l[4])
))

deportistaDF = sqlContext.createDataFrame(deportistaOlimpicoRDD, schemaDeportista).show(5)
deporteDF = sqlContext.createDataFrame(deporteRDD, deporte_schema).show(5)
eventoDF = sqlContext.createDataFrame(eventoRDD, evento_schema).show(2)
paisesDF = sqlContext.createDataFrame(paisesRDD, paises_schema).show(5)
resultadosDF = sqlContext.createDataFrame(resultadosRDD, resultados_schema).show(5)

# File location and type
file_source = "/FileStore/shared_uploads/correo@gmail.com/"
file_type = "csv"

# File options
infer_schema = "true"
first_row_is_header = "true"
delimiter = ","
list_files= ['deportista.csv','evento.csv','paises.csv','resultados.csv']

# The applied options are for CSV files.
for name in range(len(list_files)):
    string='raw_' + re.sub(".csv","",list_files[name]) 
    globals()[string] = spark.read.format(file_type ) \
                              .option("inferSchema", infer_schema) \
								.option("header", first_row_is_header) \
								.option("multiline", "true") \
                              .option("sep", delimiter).load(file_source + list_files[name])
    print(' DF_Name: ', string)

#Output:
 DF_Name:  raw_deportista
 DF_Name:  raw_evento
 DF_Name:  raw_paises
 DF_Name:  raw_resultados

# Schemas

schemas = {
    "deporte": StructType([
        StructField("deporte_id", IntegerType(), False),
        StructField("deporte", StringType(), False)
    ]),
    "deportista": StructType([
        StructField("deportista_id", IntegerType(), False),
        StructField("nombre", StringType(), False),
        StructField("genero", StringType(), False),
        StructField("edad", IntegerType(), False),
        StructField("altura", IntegerType(), False),
        StructField("peso", FloatType(), False),
        StructField("equipo_id", IntegerType(), False)
    ]),
    "evento": StructType([
        StructField("evento_id", IntegerType(), False),
        StructField("evento", StringType(), False),
        StructField("deporte_id", IntegerType(), False)
    ]),
    "juegos": StructType([
        StructField("juego_id", IntegerType(), False),
        StructField("nombre_juego", StringType(), False),
        StructField("anio", IntegerType(), False),
        StructField("temporada", StringType(), False),
        StructField("ciudad", StringType(), False)
    ]),
    "paises": StructType([
        StructField("pais_id", IntegerType(), False),
        StructField("equipo", StringType(), False),
        StructField("sigla", StringType(), False)
    ]),
    "resultados": StructType([
        StructField("resultado_id", IntegerType(), False),
        StructField("medalla", StringType(), False),
        StructField("deportista_id", IntegerType(), False),
        StructField("juego_id", IntegerType(), False),
        StructField("evento_id", IntegerType(), False)
    ])
}

# Dataframes

dp1 = sql_context.read.schema(schemas['deportista']).option("header", "true").csv(f"{data_dir}/deportista.csv")
dp2 = sql_context.read.schema(schemas['deportista']).option("header", "false").csv(f"{data_dir}/deportista2.csv")

dataframes = {
    "deporte": sql_context.read.schema(schemas['deporte']).option("header", "true").csv(f"{data_dir}/deporte.csv"),
    "deportista": dp1.union(dp2),
    "evento": sql_context.read.schema(schemas['evento']).option("header", "true").csv(f"{data_dir}/evento.csv"),
    "juegos": sql_context.read.schema(schemas['juegos']).option("header", "true").csv(f"{data_dir}/juegos.csv"),
    "paises": sql_context.read.schema(schemas['paises']).option("header", "true").csv(f"{data_dir}/paises.csv"),
    "resultados": sql_context.read.schema(schemas['resultados']).option("header", "true").csv(f"{data_dir}/resultados.csv")
}
del(dp1, dp2)

Creación de DataFrame desde RDD en PySpark

Conociendo Apache Spark

Fundamentos de Apache Spark: ETL y Limpieza de Datos

Introducción a Apache Spark y sus diferencias con Hadoop

Diferencias entre RDDs y DataFrames en Apache Spark

Configuración

Instalación de Spark y Anaconda en Linux

Ejecución y Configuración de Spark en Línea de Comando y Anaconda

Configuración de PySpark con Jupyter y Anaconda

Operaciones RDDs

Transformaciones y Acciones en RDD de Spark

Transformaciones y acciones

Interacción con RDDs en Spark: Operaciones Básicas y Avanzadas

Operaciones avanzadas con RDDs en Spark: Uniones y Joins

Unión de Datos en RDD para Deportistas Olímpicos

Operaciones Numéricas con RDDs en Juegos Olímpicos

Data Frames y SQL

Creación y Gestión de Data Frames en PySpark