Crea una cuenta o inicia sesi贸n

隆Contin煤a aprendiendo sin ning煤n costo! 脷nete y comienza a potenciar tu carrera

Aprende todo un fin de semana sin pagar una suscripci贸n 馃敟

Aprende todo un fin de semana sin pagar una suscripci贸n 馃敟

Reg铆strate

Comienza en:

5D
15H
34M
50S

Instalaci贸n del ambiente de trabajo

4/25
Recursos

Aportes 42

Preguntas 8

Ordenar por:

驴Quieres ver m谩s aportes, preguntas y respuestas de la comunidad?

o inicia sesi贸n.

Si usan Windows, como yo, pueden realizar los ejercicios usando Docker, he creado un repositorio con la configuraci贸n y los ejercicios para que puedan realizar sus pr谩cticas:

https://github.com/eocode/Docker-Spark-Big-Data

Denle estrellita, siganme, clonen el repo y listo solo ejecuten, pueden borrar el contenido de la carpeta codes y hacer los suyos

Personalmente me result贸 mejor usar Google Colab para seguir este curso. De esta manera pueden seguir los ejercicios inmediatamente sin necesidad de perder tiempo y gastar recursos de sus equipos en la instalaci贸n.
Les dejo un tutorial que hice la instalaci贸n de PySpark en Google Colab

https://medium.com/analytics-vidhya/ultimate-guide-for-setting-up-pyspark-in-google-colab-7637f697daf1

Creo que vale la pena mencionar que no se debe confundir la ruta /home/spark/ con ./spark. Cuando 脫scar exporta la variable del sistema usa la ruta /home/spark porque spark es el nombre de usuario en el que est谩 logueado, deben usar el nombre de usuario de cada uno. En mi caso el comando es el siguiente:
export PATH=/home/daniel/anaconda3/bin:$PATH

Aqu铆 pueden encontrar una gu铆a de instalaci贸n para windows 10:
https://phoenixnap.com/kb/install-spark-on-windows-10

Despu茅s de tanto, al fin pude instalar en Windows鈥!
Si usan Windows sigan los siguientes pasos:
https://www.youtube.com/watch?v=k9raEiYiU2w

Si por alguna raz贸n les da un error en la instalaci贸n, actualicen pip.
Me sirvieron estos comandos:
鈥> pip install --upgrade setuptools
鈥> pip install wheel

con humildad les comparto mis apuntes sobre el curso, es buen铆simo, y si le hacen fork dejen su Estrellita en el repo, devuelvan algo a la comunidad de platzi, y nunca paren de aprender.

https://github.com/rb-one/Cuso_Introductorio_de_Spark/blob/master/Notes/notes.md

Para evitar todos estos pasos, les recomiendo usar Databricks community. el servicio de spark en la nube, desarrollada por los creadores de Spark.

馃搶 Para usar con Google colab:
Actualizaci贸n: abril 2022

# Start here! Select spark version
ver_spark = '3.1.2'

# Install Java JDK
!apt-get install openjdk-8-jdk-headless -qq > /dev/null

# Download Spark version
import os 

os.system(f"wget -q https://archive.apache.org/dist/spark/spark-{ver_spark}/spark-{ver_spark}-bin-hadoop2.7.tgz")
os.system(f"tar xf spark-{ver_spark}-bin-hadoop2.7.tgz")

# Define environment variables
import os
os.environ["JAVA_HOME"] = f"/usr/lib/jvm/java-8-openjdk-amd64"
os.environ["SPARK_HOME"] = f"/content/spark-{ver_spark}-bin-hadoop2.7"

# Install findspark: it will locate Spark on the system and import it as a regular library.
!pip install -q findspark
import findspark
findspark.init()

# Create a SparkSession
from pyspark.sql import SparkSession
spark = SparkSession.builder\
        .master("local")\
        .appName("Colab")\
        .config('spark.ui.port', '4050')\
        .getOrCreate()

Source: Towards data science

Si desean pueden instalar docker y seguir las instrucciones de este enlace aqui

He perdido mucho tiempo tratando de instalar Spark en windows ser铆a bueno una explicaci贸n y no tener que recurrir a otros lados para poder seguir con el curso de verdad se vuelve tedioso. No es el primer curso en el que me pasa esto.

Por si alguien ocupa W10, para la instalaci贸n, hice lo siguiente:

***** Spark 2.4.7 *****

  1. Instalar JDK, minimo Java 8
  2. Instalar Python 3
    pip install pyspark, py4j, numpy
  3. Descomprimir Spark en un directorio

En esta ruta se descomprime Spark
C:\Spark\spark-2.4.7
winutils
https://github.com/steveloughran/winutils/blob/master/hadoop-2.7.1/bin/winutils.exe
En esta ruta winutils
C:\Spark\spark-2.4.7\hadoop\bin


  1. Agregar variables de entorno
    JAVA_HOME
    SPARK_HOME
    HADOOP_HOME

Nota: Las variables anteriares se deben agregar al path
%JAVA_HOME%\bin
%SPARK_HOME%\bin
%HADOOP_HOME%\bin

Desde una terminal podemos ejecutar spark-shell

Pasos para instalar en Windows
1.- Descargar SPARK y HADOOP: https://spark.apache.org/downloads.html
1.a.- Descomprimirlo en una carpeta, por ejemplo "D:\Apache\spark-3.1.2-bin-hadoop3.2"
2.- Descargar el binario para la version de HADOOP que se descargo: https://github.com/steveloughran/winutils
2.a.- Dentro de la carpeta de 鈥渟park-3.1.2-bin-hadoop3.2/bin鈥 pegar el .exe
3.- Descargar JDK 8: https://www.oracle.com/java/technologies/downloads/#java8
3.a.- Instalar JDK
4.- Crear y modificar las variables de sistema. Para eso hay que apretar boton derecho en el boton de inicio, SISTEMA/Configuracion Avanzada del Sistema/Variable de entorno鈥
Ahi en "Variable de sistemas"
4.a.- HADOOP-HOME = D:\Apache\spark-3.1.2-bin-hadoop3.2
4.b.- SPARK_HOME = D:\Apache\spark-3.1.2-bin-hadoop3.2
4.c.- JAVA_HOME = C:\Program Files\Java\jdk1.8.0_301 (Esta es la ruta donde se haya instalado el JDK)
4.d.- Modificar la variable 鈥淧ath鈥 y agregar las siguiente sin las comillas: 鈥%SPARK_HOME%\bin鈥, 鈥%HADOOP-HOME%\bin鈥, "%JAVA_HOME%\bin"
5.- Reiniciar Windows
6.- Para probar si java quedo bien, abrir cmd y ejecutar: java -version
7.- Para iniciar el Master: spark-class org.apache.spark.deploy.master.Master
8.- Para inciar el slave o worker: spark-class org.apache.spark.deploy.worker.Worker spark://192.168.56.1:7077
9.- Si se quiere inicar el shell de spark: spark-shell

Saludos

Si desean pueden utilizar Spark en Deepnote ya que es muy f谩cil instalar https://docs.deepnote.com/integrations/spark

Gente les comparto la configuraci贸n de Spark y su interfaz gr谩fica usando Google Colab. Yo realiz茅 el curso de esta manera ya que la instalaci贸n de mi m谩quina me genero problemas en los que prefer铆 no gastar tiempo.

https://github.com/lcgc99/configure_Apache_Spark_using_Colab

Comprobado el 07-11-2020
Si usan alguna versi贸n de ubuntu 20, con python3.8 e instalan la version de Spark 2.4, por ahi les da algun problema. (Me paso a mi)
Pero, Si usan la version 3 de Spark, no les da error. Al menos hasta ahora no he tenido problemas y llevo aprox 6 videos adelante.

Se deb铆a aclarar, al menos en este punto, que la instalaci贸n del video ser铆a en otro OS. Si consideramos tomar el curso en Platzi, es porque planeamos seguir cada una de las etapas y no buscar recursos en fuentes externas y buscar c贸mo enlazarlo con cada uno de los m贸dulos. Tengo un macOS y un computador con Windows, ser铆a de utilidad decir el porqu茅 se trabaja en Linux o si es una pr谩ctica recomendada, al menos para quienes empezamos en este campo de acci贸n.

Hola! yo la verdad estaba batallando un chorro para instalarlo y vi que otros compa帽eros usaban colab pero igual me hice bolas resolviendo errores por problemas de versiones. Encontr茅 este colab que un amable ser humano hizo tomando esas consideraciones: https://colab.research.google.com/github/JoseRZapata/JoseRZapata.github.io/blob/master/Jupyter_Notebook/Pyspark_Colab_es.ipynb Se los comparto (:

Si est谩n en Mac OS:

brew tap eddies/spark-tap
brew install apache-spark
brew install java
brew install python
brew install scala
brew install pipx
python3 -m pip install --upgrade pip
python3 -m pip install py4j

Tuve dificultades para entender varias cosas de uso de Google Colab para Spark pero e encontrado una pagina espectacular que explica muchas cosas y me parece un excelente complemento a este curso porfavor v茅anla, la pagina es:

https://www.youtube.com/watch?v=0WFrHRJh0Gg

Alguien a quien le salga onda command not found, ya intent茅 varias cosas pero no me funciona.

interesante

Hol, au e linux y versi贸n me aconsejan para usar spark? Gracias

Este video explica como se instala pyspark paso a paso en windows 10 y 11
instalar pyspark

Hola comunidad, si tienen suficientes recursos de memoria y disco duro en sus equipos, les sugiero virtualizar una maquina Linux para montar todo el ambiente de ese modo no sobrecargas el OS base de tu equipo y puedes tener distintos ambientes de desarrollo, yo personalmente uso Oracle VirtualBox para esta tarea y me ha resultado muy bien. Saludos.

Tambien lo he instalado en Google Colaboratory

Gente,

Yo lo instale en Windows, instalando primero WSL2 , una distro de Ubuntu y luego docker desktop.
Despu茅s de solucionar los problemas de WSL2, tipicos. En power shell inicie wsl, despu茅s de esto segu铆 el siguiente tutorial: https://www.youtube.com/watch?v=qQJnhLaAXKo&t=128s&ab_channel=JohannesFrey

Espero les sirva.

Deepnote tiene integraci贸n con Spark. Para m铆, fue mejor que instalarlo en mi m谩quina o trabajarlo desde Colab.
https://docs.deepnote.com/integrations/spark

Me parece que el hecho de correr la instalaci贸n en Linux y que el resto de los mortales tengamos Windows fue un problema. Me vi algunos tutoriales para entrarle de lleno desde Windows y espero poder salir adelante.

Para los amamantes de docker, les dejo una imagen de pyspark. https://hub.docker.com/r/jupyter/pyspark-notebook

Recuerden que hoy d铆a VSCode ya permite trabajar Notebooks IPython. Solamente instalen las extensi贸n de Jupyter (y otra del kernel de IPython que les pide el IDE al abrir cualquier Notebook con extensi贸n .ipynb)

Para trabajarlo desde Windows ocupo WSL desde el cual me conecto de forma remota a VSCode y simplemente requiere que en el sistema Linux est茅n las dependencias instaladas (Java, Scala, Python, Spark, etc.; creo que tambi茅n se puede con ambientes virtuales y PySpark). He estado trabajando con la versi贸n m谩s reciente de Spark para evitarme problemas de compatibilidad con las versiones modernas de Python y todo ha ido bien hasta ahora

https://www.youtube.com/watch?v=uZ12n5SWK1A
Este video te explica paso a paso como instalar spark en el 2021 y 2022

Buen d铆a, compa帽[email protected]
Estoy iniciando en la ruta de Data Engieneer y tengo experiencia en Bases Relacionales y esto me a explotado la mente y me encanta, gracias a mis compa帽eros e conocido el entorno de Google Colab que me parece estupendo.

Gracias!

Os dejo un video de como crear un acceso directo de anaconda en linux https://www.youtube.com/watch?v=qlr1qc_43bQ&list=PL64hZnht9qcaAfq6z-B9IyiEcpqptBUFg&index=3

Hola. Como han visto, hay diferentes formas y ambientes para utilizar esta herramienta. Dado que son como ideales para Unix o Linux, les dejo ac谩 una forma de utilizar todo esto si es que utilizan Windows. Es una instalaci贸n de una terminal Ubuntu para utilizar todos estos comandos Unix:
https://www.youtube.com/watch?v=QiPEKsTBJt4&t=23s

La manera m谩s r谩pida de montar un ambiente de trabajo es utilizar Docker. Os dejo una gu铆a: https://seraph13.medium.com/como-correr-apache-spark-desde-una-imagen-docker-88f62c676b2f

la mayor铆a usan windows y se le ocurre en linux 馃槮

Si estan usando WSL en windows 10 alguien sabe como arreglar el error cuando se ingresa el comando

tar -xvf spark-2.4.7-bin-hadoop2.7.tgz

ya que me sale siempre este error

gzip: stdin: not in gzip format
tar: Child returned status 1
tar: Error is not recoverable: exiting now```


Para los que precisen instalar en windows 10 y usar jupyter
https://www.youtube.com/watch?v=t63PS3kiTTQ&t=43s

En este link pueden ver como instalar Spark en macOS: https://medium.com/beeranddiapers/installing-apache-spark-on-mac-os-ce416007d79f

Otra ruta para la instalaci贸n de Spark en Windows10 en espa帽ol.
https://www.youtube.com/watch?v=k9raEiYiU2w