no explica muy bien para que sirven las cosas como la funcion map(), simplemente va y las usa
Conociendo Apache Spark
Todo lo que aprenderás sobre Spark para Big Data
Introducción a Apache Spark
Introducción a los RDDs y DataFrames
Configuración
Instalación del ambiente de trabajo
Jupyter vs CLI: ejecución de Spark desde la línea de comandos
Jupyter vs CLI: ejecución de Spark en Jupyter Notebook
Operaciones RDDs
RDD y DataFrames
Transformaciones y acciones
Acciones de modificación sobre RDDs
Acciones de conteo sobre RDDs
Solución reto deportistas
Operaciones numéricas
Data Frames y SQL
Creación de DataFrames
Inferencia de tipos de datos
Operaciones sobre DF
Agrupaciones y operaciones join sobre DF
Solución reto joins
Funciones de agrupación
SQL
¿Qué es un UDF?
UDF
Persistencia y particionado
Particionado
Comprendiendo la persistencia y particionado
Particionando datos
Conclusiones
Conclusiones
Aún no tienes acceso a esta clase
Crea una cuenta y continúa viendo este curso
Aportes 12
Preguntas 0
no explica muy bien para que sirven las cosas como la funcion map(), simplemente va y las usa
si de verdad el profesor olvida que muchas personas no tienen la misma experiencia eso hace que el sistema de aprendizaje sea complejo
Me pareció interesante buscar sobre las diferencias entre map() y mapValues(). Por lo que entiendo, mapValues es aplicable en RDDs pares y solo opera sobre el valor (en este caso x[1], o los equipos). Mientras que map opera sobre toda la tupla.
Buenas noches, hermosa comunidad de Platzi que esta tomando este curso de Spark.
Personalmente me quedo con la historia del método .collect()
.Aunque nadie experimenta en cabeza agena, considero que el ejemplo que expone Oscar es valioso.
Saludos.
Usan Mac pero la mayoría somos pobres con Windows crackeado
Aquí dejo dos links donde describen muy bien que son las funciones de Lambda y map.
map: https://docs.hektorprofe.net/python/funcionalidades-avanzadas/funcion-map/
Pero en general
lambda es una función simple que se escribe de manera corta, no tiene tantos parámetros.
map se utiliza cuando queremos aplica cierta condición a un grupo de datos y como resultado devuelve un iterador.
Comandos más usados de RDD:
https://spark.apache.org/docs/latest/rdd-programming-guide.html
Si a alguien le sirve recordemos que estamos usando el framework de Spark (para hacer análitca al vuelo) en este caso usando Python como lenguaje, por lo tanto debemos comprender al menos como usar slices 😗* string[start:stop:step]** .
e.g. string = "freecodecamp"
print(string[-1]) #print p
Tambien sirve checar la sintaxis de las lambdas en python
lambda argumentos: expresión
e.g. lambda_func = lambda x: True if x**2 >= 10 else False
lambda_func(3) # Retorna False
CountApprox recibe un valor número que esta en ms
por ejemplo:
MiRDD.countApprox(100) : va a contar hasta completar los 100 milisegundos
En el minuto 11:37… brutal
Momento programador jejeje
Liga donde explican la función lambda:
https://www.w3schools.com/python/python_lambda.asp
Ligas donde explican la función map:
https://www.programiz.com/python-programming/methods/built-in/map
https://www.w3schools.com/python/ref_func_map.asp
¿Quieres ver más aportes, preguntas y respuestas de la comunidad? Crea una cuenta o inicia sesión.