No tienes acceso a esta clase

¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera

Particionando datos

24/25
Recursos

Aportes 7

Preguntas 1

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad?

o inicia sesión.

sería bueno que este curso se actualizara para trabajar spark completamente en la nube, tomando archivos desde azure, aws o google cloud, convirtiendo los datos con spark desde una herramienta como databricks y subiendo todo este contenido a un storage también en la nube

Una pregunta Oscar, me surge una duda al particionar los datos, ¿Qué criterio debo tomar en cuenta a la hora de realizar una correcta partición de datos?

interesante

Usé este modo de lectura que a mí parecer es el más simple

rdd_schema = StructType([
    StructField("deporte_id", IntegerType(), False),
    StructField("deporte", StringType(), False)
])

rdd = spark.read.csv(path+"/rddDesdeArchivo",rdd_schema)
rdd.take(2)

En realidad lo que se tiene que extraer son todas las particiones en un lista, se puede hacer con os o cualquier otra herramienta, lo importante es que todas las particiones estén en la lista. Dejo la solución mia

from pathlib import Path

path = Path("salida")
files = [i for i in path.iterdir() if str(i).split("/")[1][0] == "p"]
val = list(map(lambda x: str(x.absolute()), files))
val.sort()
spark.sparkContext.textFile(','.join(val), 10).map(lambda l: l.split(",")).take(5)

Aqui muestro los resultados

[['deporte_id', 'deporte'],
 ['1', 'Basketball'],
 ['2', 'Judo'],
 ['3', 'Football'],
 ['4', 'Tug-Of-War']]


Quise simplificar el ejemplo de fredy
NOTA: p* indica que solo va a tomar todos los archivos que inicien con p por ende se omite el archivo _success

import glob
path = glob.glob("TuRuta/p* ")
path.sort()
rdd3 = spark.sparkContext.textFile(','.join(path),10).map(lambda l: l.split(','))
rdd3.take(5)

Yo estaba buscando, sistemas de almacenamiento de datos y llegué aquí.