Instalación de Apache Zeppelin paso a paso

Clase 23 de 52Curso de Big Data en AWS

Resumen

Si buscas ejecutar y validar ETL de AWS Glue en local, aquí verás cómo instalar Apache Zeppelin, iniciar su servicio y preparar la conexión con AWS. Con esta guía podrás correr Spark con SQL, Scala o Python y probar transformaciones antes de llevarlas a producción.

¿Qué es Apache Zeppelin y por qué usarlo con AWS Glue?

Apache Zeppelin es una herramienta para ejecutar análisis de datos en notebooks. Permite crear notes y correr código con SQL, Scala o Python sobre Spark. Es clave para probar transformaciones y depurar trabajos de ETL.

  • Integra con servicios de AWS: Glue directamente y despliegue en clúster de EMR.
  • Facilita pruebas locales antes de pasar a producción.
  • Soporte de versiones mencionado: compatible con la 0.7.3; en trabajo 0.8.0 y 0.8.1.
  • Interfaz web simple para ejecutar consultas y ver resultados.

Idea central: usa Zeppelin para validar tus notebooks y tareas de transformación con datos reales, conectándolo luego a AWS Glue.

¿Cómo descargar e instalar Apache Zeppelin paso a paso?

El proceso es directo. En minutos tendrás el entorno listo para pruebas.

  • Busca en Google “Apache Zeppelin” y entra al primer enlace del proyecto.
  • Haz clic en Download Zeppelin para ver las imágenes disponibles.
  • Elige la versión 0.7.3 (AWS indica compatibilidad actual) mientras trabajan en 0.8.0/0.8.1.
  • Inicia la descarga desde los mirrors y guarda el archivo comprimido.
  • Descomprime el archivo: verás una carpeta con los archivos de configuración.
  • Abre una consola y navega a la carpeta de descargas y luego a la carpeta de Zeppelin.

Ejemplo de navegación en consola:

cd downloads
ls
cd zeppelin
ls

En esta carpeta encontrarás la estructura de archivos y el directorio bin desde donde se gestiona el servicio.

¿Cómo iniciar el servicio y qué habilidades aplicarás?

Con la carpeta de Zeppelin lista, pondrás en marcha el servicio local y validarás la interfaz web para empezar a ejecutar consultas.

¿Cómo arrancar el servicio en segundo plano?

Desde el directorio de Zeppelin, ejecuta el daemon ubicado en la ruta bin con la acción start:

bin/zeppelin-daemon.sh start

Si la salida indica que fue exitoso, el servicio quedó activo. Este paso levanta Apache Zeppelin en tu máquina.

¿Cómo validar la interfaz web y ejecutar código?

  • Abre tu navegador y entra a localhost:8080. Verás la interfaz de Zeppelin.
  • Crea notes para organizar tus pruebas.
  • Ejecuta consultas con Spark SQL y visualiza resultados al instante.
  • Utiliza SQL, Scala o Python según tu necesidad.

Próximo paso natural: conectar Zeppelin a AWS Glue o desplegarlo en EMR para ejecutar tus trabajos con datos en la nube.

Habilidades y conceptos que refuerzas aquí: - Instalación local y preparación de entorno de trabajo. - Uso de consola: navegación de directorios y comandos básicos. - Gestión de servicios con daemon de Zeppelin desde bin. - Ejecución de Spark SQL en notes para validar transformaciones. - Integración con AWS Glue y despliegue en EMR como opciones de conexión.

¿Tienes dudas sobre la instalación o la conexión con Glue? Comparte tu pregunta y comenta qué ETL te gustaría probar primero.