Instalación del ambiente de trabajo

4/25
Recursos

Aportes 36

Preguntas 6

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad? Crea una cuenta o inicia sesión.

Si usan Windows, como yo, pueden realizar los ejercicios usando Docker, he creado un repositorio con la configuración y los ejercicios para que puedan realizar sus prácticas:

https://github.com/eocode/Docker-Spark-Big-Data

Denle estrellita, siganme, clonen el repo y listo solo ejecuten, pueden borrar el contenido de la carpeta codes y hacer los suyos

Personalmente me resultó mejor usar Google Colab para seguir este curso. De esta manera pueden seguir los ejercicios inmediatamente sin necesidad de perder tiempo y gastar recursos de sus equipos en la instalación.
Les dejo un tutorial que hice la instalación de PySpark en Google Colab

https://medium.com/analytics-vidhya/ultimate-guide-for-setting-up-pyspark-in-google-colab-7637f697daf1

Aquí pueden encontrar una guía de instalación para windows 10:
https://phoenixnap.com/kb/install-spark-on-windows-10

Creo que vale la pena mencionar que no se debe confundir la ruta /home/spark/ con ./spark. Cuando Óscar exporta la variable del sistema usa la ruta /home/spark porque spark es el nombre de usuario en el que está logueado, deben usar el nombre de usuario de cada uno. En mi caso el comando es el siguiente:
export PATH=/home/daniel/anaconda3/bin:$PATH

con humildad les comparto mis apuntes sobre el curso, es buenísimo, y si le hacen fork dejen su Estrellita en el repo, devuelvan algo a la comunidad de platzi, y nunca paren de aprender.

https://github.com/rb-one/Cuso_Introductorio_de_Spark/blob/master/Notes/notes.md

Después de tanto, al fin pude instalar en Windows…!
Si usan Windows sigan los siguientes pasos:
https://www.youtube.com/watch?v=k9raEiYiU2w

Si por alguna razón les da un error en la instalación, actualicen pip.
Me sirvieron estos comandos:
–> pip install --upgrade setuptools
–> pip install wheel

Para evitar todos estos pasos, les recomiendo usar Databricks community. el servicio de spark en la nube, desarrollada por los creadores de Spark.

Por si alguien ocupa W10, para la instalación, hice lo siguiente:

***** Spark 2.4.7 *****

  1. Instalar JDK, minimo Java 8
  2. Instalar Python 3
    pip install pyspark, py4j, numpy
  3. Descomprimir Spark en un directorio

En esta ruta se descomprime Spark
C:\Spark\spark-2.4.7
winutils
https://github.com/steveloughran/winutils/blob/master/hadoop-2.7.1/bin/winutils.exe
En esta ruta winutils
C:\Spark\spark-2.4.7\hadoop\bin


  1. Agregar variables de entorno
    JAVA_HOME
    SPARK_HOME
    HADOOP_HOME

Nota: Las variables anteriares se deben agregar al path
%JAVA_HOME%\bin
%SPARK_HOME%\bin
%HADOOP_HOME%\bin

Desde una terminal podemos ejecutar spark-shell

Si desean pueden instalar docker y seguir las instrucciones de este enlace aqui

Si desean pueden utilizar Spark en Deepnote ya que es muy fácil instalar https://docs.deepnote.com/integrations/spark

He perdido mucho tiempo tratando de instalar Spark en windows sería bueno una explicación y no tener que recurrir a otros lados para poder seguir con el curso de verdad se vuelve tedioso. No es el primer curso en el que me pasa esto.

Pasos para instalar en Windows
1.- Descargar SPARK y HADOOP: https://spark.apache.org/downloads.html
1.a.- Descomprimirlo en una carpeta, por ejemplo "D:\Apache\spark-3.1.2-bin-hadoop3.2"
2.- Descargar el binario para la version de HADOOP que se descargo: https://github.com/steveloughran/winutils
2.a.- Dentro de la carpeta de “spark-3.1.2-bin-hadoop3.2/bin” pegar el .exe
3.- Descargar JDK 8: https://www.oracle.com/java/technologies/downloads/#java8
3.a.- Instalar JDK
4.- Crear y modificar las variables de sistema. Para eso hay que apretar boton derecho en el boton de inicio, SISTEMA/Configuracion Avanzada del Sistema/Variable de entorno…
Ahi en "Variable de sistemas"
4.a.- HADOOP-HOME = D:\Apache\spark-3.1.2-bin-hadoop3.2
4.b.- SPARK_HOME = D:\Apache\spark-3.1.2-bin-hadoop3.2
4.c.- JAVA_HOME = C:\Program Files\Java\jdk1.8.0_301 (Esta es la ruta donde se haya instalado el JDK)
4.d.- Modificar la variable “Path” y agregar las siguiente sin las comillas: “%SPARK_HOME%\bin”, “%HADOOP-HOME%\bin”, "%JAVA_HOME%\bin"
5.- Reiniciar Windows
6.- Para probar si java quedo bien, abrir cmd y ejecutar: java -version
7.- Para iniciar el Master: spark-class org.apache.spark.deploy.master.Master
8.- Para inciar el slave o worker: spark-class org.apache.spark.deploy.worker.Worker spark://192.168.56.1:7077
9.- Si se quiere inicar el shell de spark: spark-shell

Saludos

Gente les comparto la configuración de Spark y su interfaz gráfica usando Google Colab. Yo realizé el curso de esta manera ya que la instalación de mi máquina me genero problemas en los que preferí no gastar tiempo.

https://github.com/lcgc99/configure_Apache_Spark_using_Colab

Comprobado el 07-11-2020
Si usan alguna versión de ubuntu 20, con python3.8 e instalan la version de Spark 2.4, por ahi les da algun problema. (Me paso a mi)
Pero, Si usan la version 3 de Spark, no les da error. Al menos hasta ahora no he tenido problemas y llevo aprox 6 videos adelante.

Si están en Mac OS:

brew tap eddies/spark-tap
brew install apache-spark
brew install java
brew install python
brew install scala
brew install pipx
python3 -m pip install --upgrade pip
python3 -m pip install py4j

Alguien a quien le salga onda command not found, ya intenté varias cosas pero no me funciona.

Hola! yo la verdad estaba batallando un chorro para instalarlo y vi que otros compañeros usaban colab pero igual me hice bolas resolviendo errores por problemas de versiones. Encontré este colab que un amable ser humano hizo tomando esas consideraciones: https://colab.research.google.com/github/JoseRZapata/JoseRZapata.github.io/blob/master/Jupyter_Notebook/Pyspark_Colab_es.ipynb Se los comparto (:

interesante

Hol, au e linux y versión me aconsejan para usar spark? Gracias

📌 Para usar con Google colab:
Actualización: abril 2022

# Start here! Select spark version
ver_spark = '3.1.2'

# Install Java JDK
!apt-get install openjdk-8-jdk-headless -qq > /dev/null

# Download Spark version
import os 

os.system(f"wget -q https://archive.apache.org/dist/spark/spark-{ver_spark}/spark-{ver_spark}-bin-hadoop2.7.tgz")
os.system(f"tar xf spark-{ver_spark}-bin-hadoop2.7.tgz")

# Define environment variables
import os
os.environ["JAVA_HOME"] = f"/usr/lib/jvm/java-8-openjdk-amd64"
os.environ["SPARK_HOME"] = f"/content/spark-{ver_spark}-bin-hadoop2.7"

# Install findspark: it will locate Spark on the system and import it as a regular library.
!pip install -q findspark
import findspark
findspark.init()

# Create a SparkSession
from pyspark.sql import SparkSession
spark = SparkSession.builder\
        .master("local")\
        .appName("Colab")\
        .config('spark.ui.port', '4050')\
        .getOrCreate()

Source: Towards data science

Me parece que el hecho de correr la instalación en Linux y que el resto de los mortales tengamos Windows fue un problema. Me vi algunos tutoriales para entrarle de lleno desde Windows y espero poder salir adelante.

Para los amamantes de docker, les dejo una imagen de pyspark. https://hub.docker.com/r/jupyter/pyspark-notebook

Recuerden que hoy día VSCode ya permite trabajar Notebooks IPython. Solamente instalen las extensión de Jupyter (y otra del kernel de IPython que les pide el IDE al abrir cualquier Notebook con extensión .ipynb)

Para trabajarlo desde Windows ocupo WSL desde el cual me conecto de forma remota a VSCode y simplemente requiere que en el sistema Linux estén las dependencias instaladas (Java, Scala, Python, Spark, etc.; creo que también se puede con ambientes virtuales y PySpark). He estado trabajando con la versión más reciente de Spark para evitarme problemas de compatibilidad con las versiones modernas de Python y todo ha ido bien hasta ahora

https://www.youtube.com/watch?v=uZ12n5SWK1A
Este video te explica paso a paso como instalar spark en el 2021 y 2022

Tuve dificultades para entender varias cosas de uso de Google Colab para Spark pero e encontrado una pagina espectacular que explica muchas cosas y me parece un excelente complemento a este curso porfavor véanla, la pagina es:

https://www.youtube.com/watch?v=0WFrHRJh0Gg

Buen día, compañ[email protected]
Estoy iniciando en la ruta de Data Engieneer y tengo experiencia en Bases Relacionales y esto me a explotado la mente y me encanta, gracias a mis compañeros e conocido el entorno de Google Colab que me parece estupendo.

Gracias!

Os dejo un video de como crear un acceso directo de anaconda en linux https://www.youtube.com/watch?v=qlr1qc_43bQ&list=PL64hZnht9qcaAfq6z-B9IyiEcpqptBUFg&index=3

Hola. Como han visto, hay diferentes formas y ambientes para utilizar esta herramienta. Dado que son como ideales para Unix o Linux, les dejo acá una forma de utilizar todo esto si es que utilizan Windows. Es una instalación de una terminal Ubuntu para utilizar todos estos comandos Unix:
https://www.youtube.com/watch?v=QiPEKsTBJt4&t=23s

La manera más rápida de montar un ambiente de trabajo es utilizar Docker. Os dejo una guía: https://seraph13.medium.com/como-correr-apache-spark-desde-una-imagen-docker-88f62c676b2f

la mayoría usan windows y se le ocurre en linux 😦

Si estan usando WSL en windows 10 alguien sabe como arreglar el error cuando se ingresa el comando

tar -xvf spark-2.4.7-bin-hadoop2.7.tgz

ya que me sale siempre este error

gzip: stdin: not in gzip format
tar: Child returned status 1
tar: Error is not recoverable: exiting now```


Para los que precisen instalar en windows 10 y usar jupyter
https://www.youtube.com/watch?v=t63PS3kiTTQ&t=43s

En este link pueden ver como instalar Spark en macOS: https://medium.com/beeranddiapers/installing-apache-spark-on-mac-os-ce416007d79f

Otra ruta para la instalación de Spark en Windows10 en español.
https://www.youtube.com/watch?v=k9raEiYiU2w