Aún no tienes acceso a esta clase

Crea una cuenta y continúa viendo este curso

Creación de DataFrames

13/25
Recursos

Aportes 8

Preguntas 3

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad? Crea una cuenta o inicia sesión.

con humildad les comparto mis apuntes sobre el curso, es buenísimo, y si le hacen fork dejen su Estrellita en el repo, devuelvan algo a la comunidad de platzi, y nunca paren de aprender.

https://github.com/rb-one/Cuso_Introductorio_de_Spark/blob/master/Notes/notes.md

Encontre el equivalente de !head en windows.

%alias head powershell -command "& {Get-Content '/Spark Most Current/Platzi - Spark/curso-apache-spark-platzi-master/files/juegos.csv' -Head 10}"
%head "/Spark Most Current/Platzi - Spark/curso-apache-spark-platzi-master/files/juegos.csv"```

En esta Clase y para el archivo “Juegos” el Schema Correcto Seria:

juegoSchema = StructType([
    StructField("juego_id",IntegerType(),False),
    StructField("nombre_juego",StringType(),False),
    StructField("anio",IntegerType(),False),
    StructField("temporada",StringType(),False),  
    StructField("ciudad",StringType(),False) 
])

De que me sirve a mi definir el schema? no sería más fácil simplemente leer el csv con read.load que viene en el sparksession?o tiene algun cambio en eficiencia si le doy el schema del dataset?

Ojo, SQLContext se usa para compatibilidad con versiones viejas y hoy día está obsoleto desde la versión 2.0; se recomienda trabajar con el objeto de sesión (SparkSession)

https://spark.apache.org/docs/2.2.1/api/java/org/apache/spark/sql/SQLContext.html

En el minuto 3:24 se usan diferentes import del mismo paquete solo para que todo quepa horizontalmente en la pantalla, eso no es necesario, pero una alternativa a eso podría ser poner los imports entre paréntesis:

from pyspark.sql.types import (StructType, StructField, 
                               IntegerType, StringType, Row, FloatType)

El constructor de dataframes es pandas.DataFrame. Acepta cuatro parámetros principales:

data: estructura de datos ndarray (array NumPy), diccionario u otro dataframe
index: índice a aplicar a las filas. Si no se especifica, se asignará uno por defecto formado por números enteros entre 0 y n-1, siendo n el número de filas del dataframe.
columns: etiquetas a aplicar a las columnas. Al igual que ocurre con el índice de filas, si no se añade se asignará uno automático formado por números enteros entre 0 y n-1, siendo n el número de columnas.
dtype: tipo a aplicar a los datos. Solo se permite uno. Si no se especifica, se infiere el tipo de cada columna a partir de los datos que contengan.
Los valores de los índices de filas y columnas no tienen por qué ser necesariamente distintos.