Ejecución y Configuración de Spark en Línea de Comando y Anaconda

Clase 5 de 25Curso de Fundamentos de Spark para Big Data

Resumen

¿Cómo configurar variables de entorno en Linux para Spark y Java?

La correcta configuración de variables de entorno es esencial para asegurar que Spark y Java funcionen adecuadamente en un entorno Linux. Comienza editando el archivo de configuración base RC, que contiene los ajustes necesarios para tu sesión de usuario. Es importante agregar las rutas específicas de manera adecuada:

  1. Ruta de Java: Agrega un comentario para identificar las líneas que contienen las configuraciones de Java.

    # Pad de Java
    export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
    export PATH=$PATH:$JAVA_HOME/bin
    
    • JAVA_HOME: Indica la carpeta donde está instalado Java.
  2. Configuraciones para Spark: Configura la variable SPARK_HOME de manera similar, apuntando a la carpeta donde descomprimiste Spark.

    # Pad de Spark
    export SPARK_HOME=/home/spark/spark
    export PATH=$PATH:$SPARK_HOME/bin
    
  3. Variables para Python y PySpark: Es esencial para el uso de Spark con Python.

    export PYTHONPATH=$SPARK_HOME/python:$PYTHONPATH
    export PYSPARK_PYTHON=python3
    

No olvides guardar los cambios y recargar el archivo de configuración con el comando source. Esto asegura que las nuevas configuraciones estén activas sin necesidad de reiniciar el sistema.

¿Cómo ejecutar un proceso de Spark usando línea de comandos?

Ejecutar procesos de Spark por línea de comandos, aunque efectivo, puede resultar un tanto complicado debido a la cantidad de información que genera. Aquí se detalla cómo hacerlo de forma básica:

  1. Preparación del entorno: Asegúrate de tener todo configurado correctamente y navega a la carpeta donde resides Spark.

  2. Uso de PySpark: Para ejecutar código en vivo similar a entrar al intérprete de Python, utiliza PySpark.

  3. Uso de spark-submit para scripts .py: Si deseas ejecutar un archivo Python con Spark, el comando spark-submit es esencial.

    • Ubica tu script y archivo de datos, por ejemplo code_example.py y data.csv.
    • Ejecuta el comando:
      bin/spark-submit code_example.py data.csv
      

Durante la ejecución, recibirás mensajes en el terminal que indican el progreso y éxito de las operaciones realizadas por Spark. Sin embargo, estos logs pueden ocultar los resultados que buscas, por lo tanto, es importante revisar la salida con detenimiento.

¿Qué desafíos presenta el uso de la línea de comandos y cómo se pueden mitigar?

La línea de comandos es poderosa, pero puede llevar a un mar de logs y mensajes, lo que hace difícil distinguir los resultados relevantes. Este método es ideal cuando:

  • El código está completamente probado.
  • Se requiere ejecutarlo en ambientes de producción.
  • Deseas realizar demostraciones con un subconjunto de datos.

Pese a ser funcional, para fines educativos y en situaciones en las que necesitas comprender el estado de los procesos, es recomendable buscar alternativas. Una opción es integrar Anaconda, que facilita el acceso a los resultados y la interacción con el entorno Spark de manera más amigable y didáctica.

Para aquellos interesados en ejecutar y aprender sobre Spark más cómodamente, se recomienda la próxima sesión que explorará cómo configurar Anaconda y hacer el proceso más accesible. Y recuerda, siempre hay una comunidad dispuesta a ayudar: deja tus dudas o comentarios para recibir soporte. ¡Sigue aprendiendo y explorando el mundo de Spark!