Interesante clase
Conociendo Apache Spark
Todo lo que aprenderás sobre Spark para Big Data
Introducción a Apache Spark
Introducción a los RDDs y DataFrames
Configuración
Instalación del ambiente de trabajo
Jupyter vs CLI: ejecución de Spark desde la lÃnea de comandos
Jupyter vs CLI: ejecución de Spark en Jupyter Notebook
Operaciones RDDs
RDD y DataFrames
Transformaciones y acciones
Acciones de modificación sobre RDDs
Acciones de conteo sobre RDDs
Solución reto deportistas
Operaciones numéricas
Data Frames y SQL
Creación de DataFrames
Inferencia de tipos de datos
Operaciones sobre DF
Agrupaciones y operaciones join sobre DF
Solución reto joins
Funciones de agrupación
SQL
¿Qué es un UDF?
UDF
Persistencia y particionado
Particionado
Comprendiendo la persistencia y particionado
Particionando datos
Conclusiones
Conclusiones
No tienes acceso a esta clase
¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera
Óscar Gutiérrez Castillo
Aportes 8
Preguntas 2
Interesante clase
interesante
Gran clase!!
from pyspark.storagelevel import StorageLevel
# Para saber si está almacenado en cache?
# Cada vez que llame los valores se debe traer la info desde la fuente
medallista.is_cached
# Para guardarlo en cache
medallista.rdd.chache()
# Para ver en que forma se persiste la información
medallista.rdd.getStorageLevel()
# Para quitar una persistencia
medallista.rdd.unpersist()
# Para aplicar una persistencia
# Es una replica de todo el RDD
medallista.rdd.persist(StorageLevel.MEMORY_AND_DISK_2)
#Para crear un particionamiento
StorageLevel.MEMORY_AND_DISK_3 = StorageLevel(True,True,False,False,3)
# Aplicar la persistemcia creata
medallista.rdd.persist(StorageLevel.MEMORY_AND_DISK_3)
¿Quieres ver más aportes, preguntas y respuestas de la comunidad?