Crea una cuenta o inicia sesión

¡Continúa aprendiendo sin ningún costo! Únete y comienza a potenciar tu carrera

Instalación del ambiente de trabajo

4/25
Recursos

Aportes 48

Preguntas 13

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad?

Creo que vale la pena mencionar que no se debe confundir la ruta /home/spark/ con ./spark. Cuando Óscar exporta la variable del sistema usa la ruta /home/spark porque spark es el nombre de usuario en el que está logueado, deben usar el nombre de usuario de cada uno. En mi caso el comando es el siguiente:
export PATH=/home/daniel/anaconda3/bin:$PATH

Aquí pueden encontrar una guía de instalación para windows 10:
https://phoenixnap.com/kb/install-spark-on-windows-10

con humildad les comparto mis apuntes sobre el curso, es buenísimo, y si le hacen fork dejen su Estrellita en el repo, devuelvan algo a la comunidad de platzi, y nunca paren de aprender.

https://github.com/rb-one/Cuso_Introductorio_de_Spark/blob/master/Notes/notes.md

Después de tanto, al fin pude instalar en Windows…!
Si usan Windows sigan los siguientes pasos:
https://www.youtube.com/watch?v=k9raEiYiU2w

Si por alguna razón les da un error en la instalación, actualicen pip.
Me sirvieron estos comandos:
–> pip install --upgrade setuptools
–> pip install wheel

Para evitar todos estos pasos, les recomiendo usar Databricks community. el servicio de spark en la nube, desarrollada por los creadores de Spark.

Por si alguien ocupa W10, para la instalación, hice lo siguiente:

***** Spark 2.4.7 *****

  1. Instalar JDK, minimo Java 8
  2. Instalar Python 3
    pip install pyspark, py4j, numpy
  3. Descomprimir Spark en un directorio

En esta ruta se descomprime Spark
C:\Spark\spark-2.4.7
winutils
https://github.com/steveloughran/winutils/blob/master/hadoop-2.7.1/bin/winutils.exe
En esta ruta winutils
C:\Spark\spark-2.4.7\hadoop\bin


  1. Agregar variables de entorno
    JAVA_HOME
    SPARK_HOME
    HADOOP_HOME

Nota: Las variables anteriares se deben agregar al path
%JAVA_HOME%\bin
%SPARK_HOME%\bin
%HADOOP_HOME%\bin

Desde una terminal podemos ejecutar spark-shell

He perdido mucho tiempo tratando de instalar Spark en windows sería bueno una explicación y no tener que recurrir a otros lados para poder seguir con el curso de verdad se vuelve tedioso. No es el primer curso en el que me pasa esto.

Si quieren usar Google Colab:

# innstall java
!apt-get install openjdk-8-jdk-headless -qq > /dev/null

# install spark (change the version number if needed)
!wget -q https://archive.apache.org/dist/spark/spark-3.0.0/spark-3.0.0-bin-hadoop3.2.tgz

# unzip the spark file to the current folder
!tar xf spark-3.0.0-bin-hadoop3.2.tgz

# set your spark folder to your system path environment. 
import os
os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64"
os.environ["SPARK_HOME"] = "/content/spark-3.0.0-bin-hadoop3.2"


# install findspark using pip
import findspark
findspark.init()
from pyspark.sql import SparkSession
spark = SparkSession.builder.master("local[*]").getOrCreate()

Si desean pueden utilizar Spark en Deepnote ya que es muy fácil instalar https://docs.deepnote.com/integrations/spark

Si desean pueden instalar docker y seguir las instrucciones de este enlace aqui

Se debía aclarar, al menos en este punto, que la instalación del video sería en otro OS. Si consideramos tomar el curso en Platzi, es porque planeamos seguir cada una de las etapas y no buscar recursos en fuentes externas y buscar cómo enlazarlo con cada uno de los módulos. Tengo un macOS y un computador con Windows, sería de utilidad decir el porqué se trabaja en Linux o si es una práctica recomendada, al menos para quienes empezamos en este campo de acción.

Pasos para instalar en Windows
1.- Descargar SPARK y HADOOP: https://spark.apache.org/downloads.html
1.a.- Descomprimirlo en una carpeta, por ejemplo "D:\Apache\spark-3.1.2-bin-hadoop3.2"
2.- Descargar el binario para la version de HADOOP que se descargo: https://github.com/steveloughran/winutils
2.a.- Dentro de la carpeta de “spark-3.1.2-bin-hadoop3.2/bin” pegar el .exe
3.- Descargar JDK 8: https://www.oracle.com/java/technologies/downloads/#java8
3.a.- Instalar JDK
4.- Crear y modificar las variables de sistema. Para eso hay que apretar boton derecho en el boton de inicio, SISTEMA/Configuracion Avanzada del Sistema/Variable de entorno…
Ahi en "Variable de sistemas"
4.a.- HADOOP-HOME = D:\Apache\spark-3.1.2-bin-hadoop3.2
4.b.- SPARK_HOME = D:\Apache\spark-3.1.2-bin-hadoop3.2
4.c.- JAVA_HOME = C:\Program Files\Java\jdk1.8.0_301 (Esta es la ruta donde se haya instalado el JDK)
4.d.- Modificar la variable “Path” y agregar las siguiente sin las comillas: “%SPARK_HOME%\bin”, “%HADOOP-HOME%\bin”, "%JAVA_HOME%\bin"
5.- Reiniciar Windows
6.- Para probar si java quedo bien, abrir cmd y ejecutar: java -version
7.- Para iniciar el Master: spark-class org.apache.spark.deploy.master.Master
8.- Para inciar el slave o worker: spark-class org.apache.spark.deploy.worker.Worker spark://192.168.56.1:7077
9.- Si se quiere inicar el shell de spark: spark-shell

Saludos

Si están en Mac OS:

brew tap eddies/spark-tap
brew install apache-spark
brew install java
brew install python
brew install scala
brew install pipx
python3 -m pip install --upgrade pip
python3 -m pip install py4j

Gente les comparto la configuración de Spark y su interfaz gráfica usando Google Colab. Yo realizé el curso de esta manera ya que la instalación de mi máquina me genero problemas en los que preferí no gastar tiempo.

https://github.com/lcgc99/configure_Apache_Spark_using_Colab

Comprobado el 07-11-2020
Si usan alguna versión de ubuntu 20, con python3.8 e instalan la version de Spark 2.4, por ahi les da algun problema. (Me paso a mi)
Pero, Si usan la version 3 de Spark, no les da error. Al menos hasta ahora no he tenido problemas y llevo aprox 6 videos adelante.

Tuve dificultades para entender varias cosas de uso de Google Colab para Spark pero e encontrado una pagina espectacular que explica muchas cosas y me parece un excelente complemento a este curso porfavor véanla, la pagina es:

https://www.youtube.com/watch?v=0WFrHRJh0Gg

Hola! yo la verdad estaba batallando un chorro para instalarlo y vi que otros compañeros usaban colab pero igual me hice bolas resolviendo errores por problemas de versiones. Encontré este colab que un amable ser humano hizo tomando esas consideraciones: https://colab.research.google.com/github/JoseRZapata/JoseRZapata.github.io/blob/master/Jupyter_Notebook/Pyspark_Colab_es.ipynb Se los comparto (:

Alguien a quien le salga onda command not found, ya intenté varias cosas pero no me funciona.

En linux es suficiente usar el comando pip install pyspark y se descargan todas las dependencias.
Al no ser tan experto decidí instalarlo desde GoogleColab con las siguientes líneas: \# Install pyspark !pip install pyspark \# Import SparkSession from pyspark.sql import SparkSession# Create a Spark Session spark = SparkSession.builder.master("local\[\*]").getOrCreate()# Check Spark Session Information spark Saludos comunidad!

Para los que tengan que instalar en macOS les comparto un enlace https://sparkbyexamples.com/spark/install-apache-spark-on-mac/

interesante

Hol, au e linux y versión me aconsejan para usar spark? Gracias
Yo instale el ambiente en Google Colab y estas son las lineas del código, solo ten en cuenta tener la ultima versión del Spark la fecha que realize esto es el 27/06/2024 !apt-get install openjdk-8-jdk-headless -qq > /dev/null !wget -q https://downloads.apache.org/spark/spark-3.5.1/spark-3.5.1-bin-hadoop3.tgz!tar xf spark-3.5.1-bin-hadoop3.tgz!pip install -q findspark pyspark \---------------------------------------- import osos.environ\["JAVA\_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64"os.environ\["SPARK\_HOME"] = "/content/spark-3.5.1-bin-hadoop3" \----------------------------------------- import findsparkfindspark.init() from pyspark.sql import SparkSessionspark = SparkSession.builder.appName('Mi\_Primera\_Base').getOrCreate() \---------------------------------------- Esta es el código para probar lo anterior: \# Create a list of datadata = \[("Alice", 25), ("Bob", 30), ("Charlie", 28)] \# Create a DataFrame from the datadf = spark.createDataFrame(data, \["name", "age"]) \# Print the DataFramedf.show()
iba a decir que mejor usar google collab o databricks pero llegué tarde
Si están usando Windows, pueden utilizar WSL2 (Windows Subsystem for Linux versión 2). De esta forma podrán instalar uno o varios sub-sistemas operativos basados en Linux, como Ubuntu por ejemplo. Pueden seguir la siguiente guía: <https://platzi.com/tutoriales/2042-prework-windows/7874-guia-de-instalacion-de-wsl-v2-y-windows-terminal/>

La verdad si deberían agregar al menos otro método para poder usar spark. es muy frustrante que obligatoriamente se use un OS el cual no puedo instalar.

Este video explica como se instala pyspark paso a paso en windows 10 y 11
instalar pyspark

Hola comunidad, si tienen suficientes recursos de memoria y disco duro en sus equipos, les sugiero virtualizar una maquina Linux para montar todo el ambiente de ese modo no sobrecargas el OS base de tu equipo y puedes tener distintos ambientes de desarrollo, yo personalmente uso Oracle VirtualBox para esta tarea y me ha resultado muy bien. Saludos.

Tambien lo he instalado en Google Colaboratory

Gente,

Yo lo instale en Windows, instalando primero WSL2 , una distro de Ubuntu y luego docker desktop.
Después de solucionar los problemas de WSL2, tipicos. En power shell inicie wsl, después de esto seguí el siguiente tutorial: https://www.youtube.com/watch?v=qQJnhLaAXKo&t=128s&ab_channel=JohannesFrey

Espero les sirva.

Deepnote tiene integración con Spark. Para mí, fue mejor que instalarlo en mi máquina o trabajarlo desde Colab.
https://docs.deepnote.com/integrations/spark

Me parece que el hecho de correr la instalación en Linux y que el resto de los mortales tengamos Windows fue un problema. Me vi algunos tutoriales para entrarle de lleno desde Windows y espero poder salir adelante.

Para los amamantes de docker, les dejo una imagen de pyspark. https://hub.docker.com/r/jupyter/pyspark-notebook

Recuerden que hoy día VSCode ya permite trabajar Notebooks IPython. Solamente instalen las extensión de Jupyter (y otra del kernel de IPython que les pide el IDE al abrir cualquier Notebook con extensión .ipynb)

Para trabajarlo desde Windows ocupo WSL desde el cual me conecto de forma remota a VSCode y simplemente requiere que en el sistema Linux estén las dependencias instaladas (Java, Scala, Python, Spark, etc.; creo que también se puede con ambientes virtuales y PySpark). He estado trabajando con la versión más reciente de Spark para evitarme problemas de compatibilidad con las versiones modernas de Python y todo ha ido bien hasta ahora

https://www.youtube.com/watch?v=uZ12n5SWK1A
Este video te explica paso a paso como instalar spark en el 2021 y 2022

Buen día, compañer@s
Estoy iniciando en la ruta de Data Engieneer y tengo experiencia en Bases Relacionales y esto me a explotado la mente y me encanta, gracias a mis compañeros e conocido el entorno de Google Colab que me parece estupendo.

Gracias!

Os dejo un video de como crear un acceso directo de anaconda en linux https://www.youtube.com/watch?v=qlr1qc_43bQ&list=PL64hZnht9qcaAfq6z-B9IyiEcpqptBUFg&index=3

Hola. Como han visto, hay diferentes formas y ambientes para utilizar esta herramienta. Dado que son como ideales para Unix o Linux, les dejo acá una forma de utilizar todo esto si es que utilizan Windows. Es una instalación de una terminal Ubuntu para utilizar todos estos comandos Unix:
https://www.youtube.com/watch?v=QiPEKsTBJt4&t=23s

La manera más rápida de montar un ambiente de trabajo es utilizar Docker. Os dejo una guía: https://seraph13.medium.com/como-correr-apache-spark-desde-una-imagen-docker-88f62c676b2f

la mayoría usan windows y se le ocurre en linux 😦

Si estan usando WSL en windows 10 alguien sabe como arreglar el error cuando se ingresa el comando

tar -xvf spark-2.4.7-bin-hadoop2.7.tgz

ya que me sale siempre este error

gzip: stdin: not in gzip format
tar: Child returned status 1
tar: Error is not recoverable: exiting now```


Para los que precisen instalar en windows 10 y usar jupyter
https://www.youtube.com/watch?v=t63PS3kiTTQ&t=43s

En este link pueden ver como instalar Spark en macOS: https://medium.com/beeranddiapers/installing-apache-spark-on-mac-os-ce416007d79f

Otra ruta para la instalación de Spark en Windows10 en español.
https://www.youtube.com/watch?v=k9raEiYiU2w