Ejecución y Configuración de Spark en Línea de Comando y Anaconda

Clase 5 de 25 • Curso de Fundamentos de Spark para Big Data

Resumen

¿Cómo configurar variables de entorno en Linux para Spark y Java?

La correcta configuración de variables de entorno es esencial para asegurar que Spark y Java funcionen adecuadamente en un entorno Linux. Comienza editando el archivo de configuración base RC, que contiene los ajustes necesarios para tu sesión de usuario. Es importante agregar las rutas específicas de manera adecuada:

Ruta de Java: Agrega un comentario para identificar las líneas que contienen las configuraciones de Java.
```
# Pad de Java
export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
export PATH=$PATH:$JAVA_HOME/bin
```
- JAVA_HOME: Indica la carpeta donde está instalado Java.
Configuraciones para Spark: Configura la variable SPARK_HOME de manera similar, apuntando a la carpeta donde descomprimiste Spark.
```
# Pad de Spark
export SPARK_HOME=/home/spark/spark
export PATH=$PATH:$SPARK_HOME/bin
```

Variables para Python y PySpark: Es esencial para el uso de Spark con Python.

export PYTHONPATH=$SPARK_HOME/python:$PYTHONPATH
export PYSPARK_PYTHON=python3

No olvides guardar los cambios y recargar el archivo de configuración con el comando source. Esto asegura que las nuevas configuraciones estén activas sin necesidad de reiniciar el sistema.

¿Cómo ejecutar un proceso de Spark usando línea de comandos?

Ejecutar procesos de Spark por línea de comandos, aunque efectivo, puede resultar un tanto complicado debido a la cantidad de información que genera. Aquí se detalla cómo hacerlo de forma básica:

Preparación del entorno: Asegúrate de tener todo configurado correctamente y navega a la carpeta donde resides Spark.
Uso de PySpark: Para ejecutar código en vivo similar a entrar al intérprete de Python, utiliza PySpark.
Uso de spark-submit para scripts .py: Si deseas ejecutar un archivo Python con Spark, el comando spark-submit es esencial.
- Ubica tu script y archivo de datos, por ejemplo code_example.py y data.csv.
- Ejecuta el comando:
```
bin/spark-submit code_example.py data.csv
```

Durante la ejecución, recibirás mensajes en el terminal que indican el progreso y éxito de las operaciones realizadas por Spark. Sin embargo, estos logs pueden ocultar los resultados que buscas, por lo tanto, es importante revisar la salida con detenimiento.

¿Qué desafíos presenta el uso de la línea de comandos y cómo se pueden mitigar?

La línea de comandos es poderosa, pero puede llevar a un mar de logs y mensajes, lo que hace difícil distinguir los resultados relevantes. Este método es ideal cuando:

El código está completamente probado.
Se requiere ejecutarlo en ambientes de producción.
Deseas realizar demostraciones con un subconjunto de datos.

Pese a ser funcional, para fines educativos y en situaciones en las que necesitas comprender el estado de los procesos, es recomendable buscar alternativas. Una opción es integrar Anaconda, que facilita el acceso a los resultados y la interacción con el entorno Spark de manera más amigable y didáctica.

Para aquellos interesados en ejecutar y aprender sobre Spark más cómodamente, se recomienda la próxima sesión que explorará cómo configurar Anaconda y hacer el proceso más accesible. Y recuerda, siempre hay una comunidad dispuesta a ayudar: deja tus dudas o comentarios para recibir soporte. ¡Sigue aprendiendo y explorando el mundo de Spark!

rusbel bermúdez rivera

student•

Si utilizas wsl2 y obtienes este error

 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Traceback (most recent call last):
File "/home/rb/Platzi/Escuela de Data Science/22.- Curso Introductorio de Spark/codeExample.py", line 3, in <module>

Es porque pySpark de momento solo es soportado hasta la versión 3.7.9 de python, en mi caso python3.8.2 es la versión por defecto con debian/ubuntu. En mis apuntes al terminar el curso dejo detallado como solucionar el error y algunos warnings

De momento esto hace el truco

La solución instala python 3.7

sudo add-apt-repository ppa:deadsnakes/ppa
sudo apt update
sudo apt install python3.7

Modifica las variables de entorno

# de esto
export PYSPARK_PYTHON=python3

# a esto
export PYSPARK_PYTHON=python3.7

rusbel bermúdez rivera

student•

olvide un detalle, yo en debian tengo python3.8 de forma nativa, y Spark 2.4 no es compatible con esta version, haz lo siguiente

Instalaremos lo siguiente en linux/wsl2

Agregamos java8 usando open jdk

sudo ad-apt-repository ppa:openjdk-r/ppa
sudo apt-get update && sudo apt-get upgrade -y
sudo apt-get -y install openjdk-8-jre

Python 3.7 esto porque spark 2.4 no tiene soporte aun para python 3.8

sudo add-apt-repository ppa:deadsnakes/ppa
sudo apt update
sudo apt install python3.7

Scala

sudo apt-get -y install scala

Pip3

sudo apt-get -y install python3-pip
sudo pip3 install py4j
#traduce condigo python a java

te recomiendo instalar jupyter via pip puntualmente para la version 3.7 de python

python3.7 -m pip install jupyter

la segunda recomendación es utilizar un venv, aunque siempre es útil tener jupyter a mano, si lo tienes para python 3.8 es necesario borrar todo rastro de la instalación.

Ahora podemos llamar a jupyter de forma normal o solo escribiendo pyspark.

Daniel Eduardo Portugal Revilla

student•

confirmo! el tip es exportar la variable:

export PYSPARK_PYTHON=python3.7

Sergio de Jesús Huesca Nieva

student•

Despues de 4 horas batallando entre maquinas virtuales, instalación en windows y pruebas en google colab les dejo como logre hacer el ejemplo desde Google Colab, lo unico es que se deben agregar los archivos codeExamplepy y data.csv a colab cada vez que se inicie el trabajo, ya que cuando se cierra la conexión los archivos se borran.

https://bit.ly/3iCU0eU

Espero les funcione.

Carlos A. Sánchez

student•

Muchas gracias por el aporte, con eso pude hacerlo de forma directa desde Google Colab sin tanto dolor de cabeza jejej. También puedes subir los archivos a Google Drive y hacer la conexión del colab con drive, para que no tengas que subir los archivos siempre. Con

from google.colab import drive
drive.mount ('/drive/MyDrive')

José Alberto Núñez Magadán

student•

Gracias por el aporte!!

Gabriela Barrezueta

student•

Para los que usan windows, pueden ejecutar spark-submit mediante cmd desde cualquier directorio, en este caso, para el ejemplo del video deben posicionarse en el directorio donde guardaron el ejemplo y desde ahí ejecutar spark-submit

Ejemplo: \Users\IOS\Desktop\PLATZI\SPARK> spark-submit codeExample .py data.csv

Luis Carlos Gutierrez Cruz

student•

Muchas gracias, ya me has salvado dos veces <3.

Jorge Guerrero Garrido

student•

##Path Java
export JAVA_HOME="/usr/lib/jvm/java-8-openjdk-amd64"
export PATH=$JAVA_HOME/bin:$PATH

#Spark
export SPARK_HOME="/home/spark/spark"
export PATH=$SPARK_HOME:$PATH
export PYTHONPATH=$SPARK_HOME/python:$PYTHONPATH
export PYSPARK_PYTHON=python3

Julian Castro Pulgarin

student•

A veces me intriga mucho el como hay developers que prefieron CLI vs una buenas GUI; al final del dia en tu trabajo (hablo por experiencia), no evaluan el quien hace los comandos más complejos, sino quien aporta más valor a la empreza de una manera más rapida. Aun asi, guardo esta clase para el futuro :D

Ricardo Andrés Gómez Torres

student•

Se puede usar 'spark-shell' para abrir la shell en Scala o 'pyspark' para abrir la shell en un entorno de Python. Puede ser igual de cómodo para lanzar líneas de códigos individuales y hacer pruebas cortas. Si se hace de esta forma Spark crea automáticamente el contexto.

Santiago Ruiz

student•

Yo instale el ambiente en Google Colab y estas son las lineas del código, solo ten en cuenta tener la ultima versión del Spark la fecha que realize esto es el 27/06/2024

!apt-get install openjdk-8-jdk-headless -qq > /dev/null !wget -q https://downloads.apache.org/spark/spark-3.5.1/spark-3.5.1-bin-hadoop3.tgz!tar xf spark-3.5.1-bin-hadoop3.tgz!pip install -q findspark pyspark

----------------------------------------

import osos.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64"os.environ["SPARK_HOME"] = "/content/spark-3.5.1-bin-hadoop3"

-----------------------------------------

import findsparkfindspark.init() from pyspark.sql import SparkSessionspark = SparkSession.builder.appName('Mi_Primera_Base').getOrCreate()

----------------------------------------

Esta es el código para probar lo anterior:

# Create a list of datadata = [("Alice", 25), ("Bob", 30), ("Charlie", 28)] # Create a DataFrame from the datadf = spark.createDataFrame(data, ["name", "age"]) # Print the DataFramedf.show()

Jose Daniel Gallegos Padilla

student•

Hola, estuve checando el codigo, y observe que la operacion count() esta contando cuantas veces aparece, en este caso, el estado y el color. Para saber la suma del count, entonces se le tiene que agregar la operacion sum()

import sys

from pyspark.sql import SparkSession
from pyspark.sql.functions import count, sum as sum_

if __name__ == "__main__":
    #if len(sys.argv) != 2:
    #    print("Usage: mnmcount <file>", file=sys.stderr)
    #    sys.exit(-1)

    spark = (SparkSession
        .builder
        .appName("PythonMnMCount")
        .getOrCreate())
    # get the M&M data set file name
    mnm_file = sys.argv[1]
    # read the file into a Spark DataFrame
    mnm_df = (spark.read.format("csv")
        .option("header", "true")
        .option("inferSchema", "true")
        .load("D:/Spark Most Current/data.csv"))
    mnm_df.show(n=5, truncate=False)

    # find the aggregate count for California by filtering
    ca_count_mnm_df = ( mnm_df.select("*")
                       .where(mnm_df.State == 'CA')
                       .groupBy("State", "Color")
                       .agg(count("Count")
                            .alias("Total"), 
                           sum_("Count")
                           .alias("Total_Sum"))
                       .orderBy("Total", ascending=False) )

    # show the resulting aggregation for California
    ca_count_mnm_df.show(n=10, truncate=False)

+-----+------+-----+---------+
|State|Color |Total|Total_Sum|
+-----+------+-----+---------+
|CA   |Yellow|1807 |100956   |
|CA   |Green |1723 |93505    |
|CA   |Brown |1718 |95762    |
|CA   |Orange|1657 |90311    |
|CA   |Red   |1656 |91527    |
|CA   |Blue  |1603 |89123    |
+-----+------+-----+---------+

Catalina Hernandez

student•

Creo que s ete paso el bin en la variable de Spark

## Java Path

export JAVA_HOME="/usr/lib/jvm/java-8-openjdk-amd64"

export PATH=$JAVA_HOME/bin:$PATH

## Spark

export SPARK_HOME="$HOME/spark"

export PATH=$SPARK_HOME/bin:$PATH

export PYTHONPATH=$SPARK_HOME/python:$PYTHONPATH

export PYSPARK_PYTHON=python3

Jeilyn Ivania Vargas Jimenez

student•

Hola, cuando abro el archivo .bashrc me sale vacio, que debo hacer? guardar las variables igual? o hay algo malo?

Miguel Juan Carlos Rojas Ortega

student•

Como puedo ejecutar esto si uso Windows?

Guillermo Linares Pereda

student•

2 años y nadie te ha respondido cómo instalar en Windows? Ni siquiera el profesor ?? :/ qué paso ahí platzi. Yo también en Windows 11 es todo un problema. No logro avanzar a lo practico por esto

Hernan Daniel Celis Barrera

student•

De todos los tutoriales que encontre respecto a la instalacion de Spark en Windows, este fue el que mas me sirvio:

https://www.youtube.com/watch?v=wt2wM8C2SXA

Sin embargo lo adapte a la forma en que uso python, que es a traves de entornos aislados (environments) de python creados con Miniconda (una version de Anaconda ligera).

La forma en que lo use fue solamente realizando la instalacion desde PIP, solo con el entorno creado especificamente para el proyecto del curso. activado

Robin Angel Romero

student•

podrian ayudarme con esto?, hice la instalación en windows siguiente este tutorial pero a la hora de ejecutar solo me sale esto, y no se se si es algun log o algun tipo de incopatibilidad

Juan Jose Tovar

student•

Si estan teniendo problemas con la instalación y configuración, acá les dejo una guía que hice "infalible" para Ubuntu. Están citadas todas las fuentes por si quieren ir mas al detalle. Para usuarios de windows recomiendo instalar wsl2 es mucho más práctico . https://drive.google.com/file/d/1Lk9YIfNtAd9CLvLZbRC9c5YlF1i1TQP6/view?usp=sharing

Nicolas Rosales

student•

podria ser el curso en windows... se hace super enrredado querer tratar de hacer lo que explica acá

Jose Salvador Paredes Mora

student•

Hola Oscar, soy usuario de windows y veo que muchos estudiantes de platzi usan windows, me parece que seria adecuado hacer videos para quienes tenemos windows o por lo menos subir un archivo pdf con los pasos necesarios. Gracias

Gerardo Ruben Marin Riveroll

student•

Para todos aquellos con problemas por la versión de python. En mi caso ya tenía instalado anaconda y una versión de python, lo que hice en la terminal de ubuntu fue crear un ambiente para Spark lo cual seguramente es incluso mejor que instalar paquetes en todo el ambiente y cambiar la versión de python que ya tenemos:

conda create --name Spark python=3.7
conda activate Spark
conda install py4j

esto aunado al export que han puesto en otros comentarios fue suficiente para lograr que el código de la clase corriera sin problemas.

https://docs.conda.io/projects/conda/en/latest/user-guide/tasks/manage-environments.html

Rafael Fragozo

student•

Hola, tengo una duda, donde se usa: from pyspark.sql.types import row Es que no recuerdo donde se usa,

Charly Nieves

student•

Tengo duda, que diferencia si instalo el core de Scala al de Spark, si al ejecutar el spark-shell me ejecuta el entorno de CLI de scala

Óscar Gutiérrez Castillo

teacher•

Hola Charly!

Si instalas Scala, solamante deberás realizar tus aplicaciones en Scala. En estricto sentido es lo ideal ya que es el lenguaje donde esta construido Spark.

Si jamás has usado Scala, es sumamente parecido a Python; por lo que incluso en foros puedes encontrar 'comparativas' de códigos para que migres de forma mas cómoda.

Jhon Alexander Túquerres Jiménez

student•

#Ejecuta la linea anterior que comparti para subir el data.csv, y ahora aplica este codigo de spark en colab, en colab me demore en intalar el ambiente entre 15 a 20 minutos

from pyspark.sql.functions import count

# Ya tienes tu df cargado, solo aplica las transformaciones

# 1. Agregación: contar por State y Color, ordenado descendente

count_mnm_df = (df.select("State", "Color", "Count")

.groupBy("State", "Color")

.agg(count("Count").alias("Total"))

.orderBy("Total", ascending=False))

# Mostrar resultados

count_mnm_df.show(n=60, truncate=False)

print("Total Rows = %d" % (count_mnm_df.count()))

Jhon Alexander Túquerres Jiménez

student•

# Subir el archivo data.csv, usando la interfaz de Colab

from google.colab import files

uploaded = files.upload()

Jose Salvador Paredes Mora

student•

Hola amigos, soy nuevo en el tema vengo de sql, me pueden ayudar con la siguiente duda: ¿Puedo usar spark y todo lo que se requiere para que funcione spark en windows ?