Utilizar un ambiente virtual para trabajar con nuevas tecnologías y probar cosas nuevas sin preocuparse por romper algo en nuestra máquina es una de las mejor opciones. Es por esto que encontré esta forma de utilizar PySpark localmente desde un ambiente virtual utilizando Pipenv, lo cual hace el proceso de instalación muy fácil.
Estoy trabajando en Windows y con el command line CMD
Pasos:
pip install pipenv
pipenv shell
pipenv install pyspark
pipenv install jupyter
Al instalar PySpark, pipenv también incluye como dependencia py4j. Adicionalmente Pipenv genera un archivo pipfile.lock para un mejor manejo de nuestras dependencias
Con estos pasos ya podemos dirigirnos a nuestro Jupyter Notebook y utilizar PySpark.
Cualquier aporte o corrección la tutorial son bienvenidos!