Las UDF trabajan registro a registro, por lo que puede relantizar mucho un proceso si en cada registro se hace algun tipo de acción que sea costosa.
Conociendo Apache Spark
Todo lo que aprenderás sobre Spark para Big Data
Introducción a Apache Spark
Introducción a los RDDs y DataFrames
Configuración
Instalación del ambiente de trabajo
Jupyter vs CLI: ejecución de Spark desde la línea de comandos
Jupyter vs CLI: ejecución de Spark en Jupyter Notebook
Operaciones RDDs
RDD y DataFrames
Transformaciones y acciones
Acciones de modificación sobre RDDs
Acciones de conteo sobre RDDs
Solución reto deportistas
Operaciones numéricas
Data Frames y SQL
Creación de DataFrames
Inferencia de tipos de datos
Operaciones sobre DF
Agrupaciones y operaciones join sobre DF
Solución reto joins
Funciones de agrupación
SQL
¿Qué es un UDF?
UDF
Persistencia y particionado
Particionado
Comprendiendo la persistencia y particionado
Particionando datos
Conclusiones
Conclusiones
Las funciones definidas por el usuario o UDF, por sus siglas en inglés, son una funcionalidad agregada en Spark para definir funciones basadas en columnas las cuales permiten extender las capacidades de Spark al momento de transformar el set de datos.
...
Regístrate o inicia sesión para leer el resto del contenido.
Aportes 3
Preguntas 0
Las UDF trabajan registro a registro, por lo que puede relantizar mucho un proceso si en cada registro se hace algun tipo de acción que sea costosa.
El uso de UDF no implica que las funciones que podemos crear nativamente con Python, Scala, R o Java no sean útiles.
interesante
¿Quieres ver más aportes, preguntas y respuestas de la comunidad?