Si utilizas wsl2 y obtienes este error
WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Traceback (most recent call last):
File "/home/rb/Platzi/Escuela de Data Science/22.- Curso Introductorio de Spark/codeExample.py", line 3, in <module>
Es porque pySpark de momento solo es soportado hasta la versión 3.7.9 de python, en mi caso python3.8.2 es la versión por defecto con debian/ubuntu. En mis apuntes al terminar el curso dejo detallado como solucionar el error y algunos warnings
De momento esto hace el truco
La solución instala python 3.7
sudo add-apt-repository ppa:deadsnakes/ppa
sudo apt update
sudo apt install python3.7
Modifica las variables de entorno
# de esto
export PYSPARK_PYTHON=python3
# a esto
export PYSPARK_PYTHON=python3.7
¿Quieres ver más aportes, preguntas y respuestas de la comunidad?
o inicia sesión.