Curso de Fundamentos de Spark para Big Data

Curso de Fundamentos de Spark para Big Data

Instruido por:
Óscar Gutiérrez Castillo
Óscar Gutiérrez Castillo
Básico
4 horas de contenido
Ver la ruta de aprendizaje
Manipula un amplio volumen de datos de los Juegos Olímpicos
Proyecto del curso
Manipula un amplio volumen de datos de los Juegos Olímpicos

Te encargarás de limpiar, procesar y filtrar los datos registrados durante décadas en los Juegos Olímpicos para obtener información clara de los mismos gracias al poder de Spark.

Curso de Fundamentos de Spark para Big Data

Curso de Fundamentos de Spark para Big Data

Progreso del curso:0/25contenidos(0%)

Contenido del Curso
Tutoriales de estudiantes
Preguntas de estudiantes

Progreso del curso:0/25contenidos(0%)

Conociendo Apache Spark

Material Thumbnail

Presentación del curso

02:47 min

Material Thumbnail

Introducción a Apache Spark

07:45 min

Material Thumbnail

Introducción a los RDDs y DataFrames

08:39 min

Configuración

Material Thumbnail

Instalación del ambiente de trabajo

09:35 min

Material Thumbnail

Jupyter vs CLI: ejecución de Spark desde la línea de comandos

13:04 min

Material Thumbnail

Jupyter vs CLI: ejecución de Spark en Jupyter Notebook

12:02 min

Operaciones RDDs

Material Thumbnail

Transformaciones y acciones

11:27 min

Material Thumbnail

Acciones de modificación sobre RDDs

14:35 min

Material Thumbnail

Acciones de conteo sobre RDDs

14:13 min

Material Thumbnail

Solución reto deportistas

03:09 min

Material Thumbnail

Operaciones numéricas

08:59 min

Data Frames y SQL

Material Thumbnail

Creación de DataFrames

14:09 min

Material Thumbnail

Inferencia de tipos de datos

09:15 min

Material Thumbnail

Operaciones sobre DF

12:32 min

Material Thumbnail

Agrupaciones y operaciones join sobre DF

09:34 min

Material Thumbnail

Solución reto joins

05:02 min

Material Thumbnail

Funciones de agrupación

10:00 min

¿Qué es un UDF?

01:06 min

Persistencia y particionado

Material Thumbnail

Comprendiendo la persistencia y particionado

10:43 min

Material Thumbnail

Particionando datos

13:38 min

Conclusiones

nuevosmás votadossin responder
Javier Guevara
Javier Guevara
Estudiante

Mi grafo tiene los pasos en otro orden, ¿alguien sabe por qué?

grafo.png
0
Carlos Felipe Saldarriaga Bejarano
Carlos Felipe Saldarriaga Bejarano
Estudiante

Tengo nuevamente un error al iniciar llamando spark en Jupyter
"Java gateway process exited before sending its port number."

Sin título.pngMe siento muy estancado en el curso 😓
inicié en windows y me aburrió no poder ir a la par, me cree la máquina virtual con ubuntu para ir "a la par con el curso"y volvieron estos detallitos.

1
Juan Jose Tovar
Juan Jose Tovar
Estudiante

¿Cómo hago para que me queden los headers después del Join?

0
Juan Jose Tovar
Juan Jose Tovar
Estudiante

Es posible usar de alguna forma la interfaz gráfica en google colab?

1
Miguel Angel Velazquez Romero
Miguel Angel Velazquez Romero
Estudiante

Me salen estos errores, ya lo google, revisé que estuvieran los pasos correctamente tal y como indica el profe, casi casi intente de todo en WSL2 y Ubuntu 20 nativo y no logro solucionarlo, podrían ayudarme por favor?

1.PNG
2.PNG
0
Luis Ernesto Domínguez Velásquez
Luis Ernesto Domínguez Velásquez
Estudiante

Estimado Oscar:
Es posible instalar el SW Java, Python, Scala, OPP3, Anaconda, S park, py4j…en su última versión en ubuntu Ubuntu 20.04.2?, gracias de antemano.

1
Mario Alberto Vásquez Arias
Mario Alberto Vásquez Arias
Estudiante

Hola chicos! Me sale este error cuando ejecuto el show() después de hacer todo el join. He intentado de todo y no se que podría ser. Agradecería su ayuda.
Error.png

1
Erick Arroyo
Erick Arroyo
Estudiante

Si quisiera procesar toda una base de datos y almacenar/actualizar el resultado de un par de tablas ¿me convendría utilizar spark en lugar de hacerlo directamente en el manejador de BD mediante SQL? ¿me ahorraría tiempo de procesamiento?

0
Luis Carlos Gutierrez Cruz
Luis Carlos Gutierrez Cruz
Estudiante

Me sale el siguiente error al ejecutar el notebook: Java gateway process exited before sending its port number. He buscado en línea pero no encuentro alguna solución. Estoy trabajando en Windows 10.

1
Mitchell Mirano
Mitchell Mirano
Estudiante

se puede utilizar Spark con Google Coolab?

0