Aqui esta la solucion del reto: Crear DF con los archivos faltantes
evento_schema = StructType([
StructField("evento_id", IntegerType(), False),
StructField("evento", StringType(), False),
StructField("deporte_id", IntegerType(), False)
])
eventoDF = sqlContext.read.format("csv").\
option("header", True).\
schema(evento_schema).\
load(path+"evento.csv")
eventoDF.show(4)
+---------+--------------------+----------+
|evento_id| evento|deporte_id|
+---------+--------------------+----------+
| 1|Basketball Men's ...| 1|
| 2|Judo Men's Extra-...| 2|
| 3|Football Men's Fo...| 3|
| 4|Tug-Of-War Men's ...| 4|
+---------+--------------------+----------+
only showing top 4 rows
paises_schema = StructType([
StructField("paises_id", IntegerType(), False),
StructField("equipo", StringType(), False),
StructField("sigla", StringType(), False)
])
paisesDF = sqlContext.read.format("csv").\
option("header", True).\
schema(paises_schema).\
load(path+"paises.csv")
paisesDF.show(4)
+---------+--------------------+-----+
|paises_id| equipo|sigla|
+---------+--------------------+-----+
| 1| 30. Februar| AUT|
| 2|A North American ...| MEX|
| 3| Acipactli| MEX|
| 4| Acturus| ARG|
+---------+--------------------+-----+
only showing top 4 rows
resultados_schema = StructType([
StructField("resultado_id", IntegerType(), False),
StructField("medalla", StringType(), False),
StructField("deportista_id", IntegerType(), False),
StructField("juego_id", IntegerType(), False),
StructField("evento_id", IntegerType(), False)
])
resultadosDF = sqlContext.read.format("csv").\
option("header", True).\
schema(resultados_schema).\
load(path+"resultados.csv")
resultadosDF.show(4)
+------------+-------+-------------+--------+---------+
|resultado_id|medalla|deportista_id|juego_id|evento_id|
+------------+-------+-------------+--------+---------+
| 1| NA| 1| 39| 1|
| 2| NA| 2| 49| 2|
| 3| NA| 3| 7| 3|
| 4| Gold| 4| 2| 4|
+------------+-------+-------------+--------+---------+
only showing top 4 rows
¿Quieres ver más aportes, preguntas y respuestas de la comunidad?