Ejecución y Configuración de Spark en Línea de Comando y Anaconda

Curso de Fundamentos de Spark para Big Data

Contenido del curso

Conociendo Apache Spark

Configuración

Operaciones RDDs

Data Frames y SQL

Persistencia y particionado

Conclusiones

25
Uso de RDDs y DataFrames en Apache Spark
01:12 min

Tomar examen

Ejecución y Configuración de Spark en Línea de Comando y Anaconda

Resumen

¿Cómo configurar variables de entorno en Linux para Spark y Java?

La correcta configuración de variables de entorno es esencial para asegurar que Spark y Java funcionen adecuadamente en un entorno Linux. Comienza editando el archivo de configuración base RC, que contiene los ajustes necesarios para tu sesión de usuario. Es importante agregar las rutas específicas de manera adecuada:

Ruta de Java: Agrega un comentario para identificar las líneas que contienen las configuraciones de Java.
```
# Pad de Java
export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
export PATH=$PATH:$JAVA_HOME/bin
```
- JAVA_HOME: Indica la carpeta donde está instalado Java.
Configuraciones para Spark: Configura la variable SPARK_HOME de manera similar, apuntando a la carpeta donde descomprimiste Spark.
```
# Pad de Spark
export SPARK_HOME=/home/spark/spark
export PATH=$PATH:$SPARK_HOME/bin
```

Variables para Python y PySpark: Es esencial para el uso de Spark con Python.

export PYTHONPATH=$SPARK_HOME/python:$PYTHONPATH
export PYSPARK_PYTHON=python3

No olvides guardar los cambios y recargar el archivo de configuración con el comando source. Esto asegura que las nuevas configuraciones estén activas sin necesidad de reiniciar el sistema.

¿Cómo ejecutar un proceso de Spark usando línea de comandos?

Ejecutar procesos de Spark por línea de comandos, aunque efectivo, puede resultar un tanto complicado debido a la cantidad de información que genera. Aquí se detalla cómo hacerlo de forma básica:

Preparación del entorno: Asegúrate de tener todo configurado correctamente y navega a la carpeta donde resides Spark.
Uso de PySpark: Para ejecutar código en vivo similar a entrar al intérprete de Python, utiliza PySpark.
Uso de spark-submit para scripts .py: Si deseas ejecutar un archivo Python con Spark, el comando spark-submit es esencial.
- Ubica tu script y archivo de datos, por ejemplo code_example.py y data.csv.
- Ejecuta el comando:
```
bin/spark-submit code_example.py data.csv
```

Durante la ejecución, recibirás mensajes en el terminal que indican el progreso y éxito de las operaciones realizadas por Spark. Sin embargo, estos logs pueden ocultar los resultados que buscas, por lo tanto, es importante revisar la salida con detenimiento.

¿Qué desafíos presenta el uso de la línea de comandos y cómo se pueden mitigar?

La línea de comandos es poderosa, pero puede llevar a un mar de logs y mensajes, lo que hace difícil distinguir los resultados relevantes. Este método es ideal cuando:

El código está completamente probado.
Se requiere ejecutarlo en ambientes de producción.
Deseas realizar demostraciones con un subconjunto de datos.

Pese a ser funcional, para fines educativos y en situaciones en las que necesitas comprender el estado de los procesos, es recomendable buscar alternativas. Una opción es integrar Anaconda, que facilita el acceso a los resultados y la interacción con el entorno Spark de manera más amigable y didáctica.

Para aquellos interesados en ejecutar y aprender sobre Spark más cómodamente, se recomienda la próxima sesión que explorará cómo configurar Anaconda y hacer el proceso más accesible. Y recuerda, siempre hay una comunidad dispuesta a ayudar: deja tus dudas o comentarios para recibir soporte. ¡Sigue aprendiendo y explorando el mundo de Spark!

rusbel bermúdez rivera

Estudiante

Si utilizas wsl2 y obtienes este error

 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Traceback (most recent call last):
File "/home/rb/Platzi/Escuela de Data Science/22.- Curso Introductorio de Spark/codeExample.py", line 3, in <module>

Es porque pySpark de momento solo es soportado hasta la versión 3.7.9 de python, en mi caso python3.8.2 es la versión por defecto con debian/ubuntu. En mis apuntes al terminar el curso dejo detallado como solucionar el error y algunos warnings

De momento esto hace el truco

La solución instala python 3.7

sudo add-apt-repository ppa:deadsnakes/ppa
sudo apt update
sudo apt install python3.7

Modifica las variables de entorno

# de esto
export PYSPARK_PYTHON=python3

# a esto
export PYSPARK_PYTHON=python3.7

rusbel bermúdez rivera

Estudiante

olvide un detalle, yo en debian tengo python3.8 de forma nativa, y Spark 2.4 no es compatible con esta version, haz lo siguiente

Instalaremos lo siguiente en linux/wsl2

Agregamos java8 usando open jdk

sudo ad-apt-repository ppa:openjdk-r/ppa
sudo apt-get update && sudo apt-get upgrade -y
sudo apt-get -y install openjdk-8-jre

Python 3.7 esto porque spark 2.4 no tiene soporte aun para python 3.8

sudo add-apt-repository ppa:deadsnakes/ppa
sudo apt update
sudo apt install python3.7

Scala

sudo apt-get -y install scala

Pip3

sudo apt-get -y install python3-pip
sudo pip3 install py4j
#traduce condigo python a java

te recomiendo instalar jupyter via pip puntualmente para la version 3.7 de python

python3.7 -m pip install jupyter

la segunda recomendación es utilizar un venv, aunque siempre es útil tener jupyter a mano, si lo tienes para python 3.8 es necesario borrar todo rastro de la instalación.

Ahora podemos llamar a jupyter de forma normal o solo escribiendo pyspark.

Daniel Eduardo Portugal Revilla

Estudiante

confirmo! el tip es exportar la variable:

export PYSPARK_PYTHON=python3.7

Sergio de Jesús Huesca Nieva

Carlos A. Sánchez

José Alberto Núñez Magadán

Gabriela Barrezueta

Luis Carlos Gutierrez Cruz

Jorge Guerrero Garrido

Julian Castro Pulgarin

Ricardo Andrés Gómez Torres

Santiago Ruiz

Jose Daniel Gallegos Padilla

Eduardo Vega D

Eduardo Alonso Estrada Peraza

JOSE WILLIAM HURTADO ESPITIA

Catalina Hernandez

Jeilyn Ivania Vargas Jimenez

Miguel Juan Carlos Rojas Ortega

Guillermo Linares Pereda

Hernan Daniel Celis Barrera

Robin Angel Romero

Juan Jose Tovar

Nicolas Rosales

Jose Salvador Paredes Mora

Gerardo Ruben Marin Riveroll

Rafael Fragozo

Charly Nieves

Óscar Gutiérrez Castillo

Profesor

Ejecución y Configuración de Spark en Línea de Comando y Anaconda

Conociendo Apache Spark

Fundamentos de Apache Spark: ETL y Limpieza de Datos

Introducción a Apache Spark y sus diferencias con Hadoop

Diferencias entre RDDs y DataFrames en Apache Spark

Configuración

Instalación de Spark y Anaconda en Linux