1

Instalar PySpark en ambiente virtual (para manejo local)

Utilizar un ambiente virtual para trabajar con nuevas tecnologías y probar cosas nuevas sin preocuparse por romper algo en nuestra máquina es una de las mejor opciones. Es por esto que encontré esta forma de utilizar PySpark localmente desde un ambiente virtual utilizando Pipenv, lo cual hace el proceso de instalación muy fácil.

Estoy trabajando en Windows y con el command line CMD

Pasos:

  1. Instalar Pipenv, podemos usar pip
pip install pipenv
  1. Una vez estemos en el directorio del projecto, creamos el ambiente virtual
pipenv shell
  1. Ya estando activo el ambiente, podemos realizar la instalaciones necesarias
pipenv install pyspark
pipenv install jupyter

Al instalar PySpark, pipenv también incluye como dependencia py4j. Adicionalmente Pipenv genera un archivo pipfile.lock para un mejor manejo de nuestras dependencias
Con estos pasos ya podemos dirigirnos a nuestro Jupyter Notebook y utilizar PySpark.

Cualquier aporte o corrección la tutorial son bienvenidos!

Escribe tu comentario
+ 2