No tienes acceso a esta clase

¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera

Curso de Fundamentos de Spark para Big Data

Curso de Fundamentos de Spark para Big Data

Óscar Gutiérrez Castillo

Óscar Gutiérrez Castillo

Particionando datos

24/25
Recursos

Aportes 5

Preguntas 1

Ordenar por:

Los aportes, preguntas y respuestas son vitales para aprender en comunidad. Regístrate o inicia sesión para participar.

Usé este modo de lectura que a mí parecer es el más simple

rdd_schema = StructType([
    StructField("deporte_id", IntegerType(), False),
    StructField("deporte", StringType(), False)
])

rdd = spark.read.csv(path+"/rddDesdeArchivo",rdd_schema)
rdd.take(2)

interesante

Una pregunta Oscar, me surge una duda al particionar los datos, ¿Qué criterio debo tomar en cuenta a la hora de realizar una correcta partición de datos?

Yo estaba buscando, sistemas de almacenamiento de datos y llegué aquí.

En realidad lo que se tiene que extraer son todas las particiones en un lista, se puede hacer con os o cualquier otra herramienta, lo importante es que todas las particiones estén en la lista. Dejo la solución mia

from pathlib import Path

path = Path("salida")
files = [i for i in path.iterdir() if str(i).split("/")[1][0] == "p"]
val = list(map(lambda x: str(x.absolute()), files))
val.sort()
spark.sparkContext.textFile(','.join(val), 10).map(lambda l: l.split(",")).take(5)

Aqui muestro los resultados

[['deporte_id', 'deporte'],
 ['1', 'Basketball'],
 ['2', 'Judo'],
 ['3', 'Football'],
 ['4', 'Tug-Of-War']]