Instalación de Apache Zeppelin paso a paso

Clase 23 de 52 • Curso de Big Data en AWS

Resumen

Si buscas ejecutar y validar ETL de AWS Glue en local, aquí verás cómo instalar Apache Zeppelin, iniciar su servicio y preparar la conexión con AWS. Con esta guía podrás correr Spark con SQL, Scala o Python y probar transformaciones antes de llevarlas a producción.

¿Qué es Apache Zeppelin y por qué usarlo con AWS Glue?

Apache Zeppelin es una herramienta para ejecutar análisis de datos en notebooks. Permite crear notes y correr código con SQL, Scala o Python sobre Spark. Es clave para probar transformaciones y depurar trabajos de ETL.

Integra con servicios de AWS: Glue directamente y despliegue en clúster de EMR.
Facilita pruebas locales antes de pasar a producción.
Soporte de versiones mencionado: compatible con la 0.7.3; en trabajo 0.8.0 y 0.8.1.
Interfaz web simple para ejecutar consultas y ver resultados.

Idea central: usa Zeppelin para validar tus notebooks y tareas de transformación con datos reales, conectándolo luego a AWS Glue.

¿Cómo descargar e instalar Apache Zeppelin paso a paso?

El proceso es directo. En minutos tendrás el entorno listo para pruebas.

Busca en Google “Apache Zeppelin” y entra al primer enlace del proyecto.
Haz clic en Download Zeppelin para ver las imágenes disponibles.
Elige la versión 0.7.3 (AWS indica compatibilidad actual) mientras trabajan en 0.8.0/0.8.1.
Inicia la descarga desde los mirrors y guarda el archivo comprimido.
Descomprime el archivo: verás una carpeta con los archivos de configuración.
Abre una consola y navega a la carpeta de descargas y luego a la carpeta de Zeppelin.

Ejemplo de navegación en consola:

cd downloads
ls
cd zeppelin
ls

En esta carpeta encontrarás la estructura de archivos y el directorio bin desde donde se gestiona el servicio.

¿Cómo iniciar el servicio y qué habilidades aplicarás?

Con la carpeta de Zeppelin lista, pondrás en marcha el servicio local y validarás la interfaz web para empezar a ejecutar consultas.

¿Cómo arrancar el servicio en segundo plano?

Desde el directorio de Zeppelin, ejecuta el daemon ubicado en la ruta bin con la acción start:

bin/zeppelin-daemon.sh start

Si la salida indica que fue exitoso, el servicio quedó activo. Este paso levanta Apache Zeppelin en tu máquina.

¿Cómo validar la interfaz web y ejecutar código?

Abre tu navegador y entra a localhost:8080. Verás la interfaz de Zeppelin.
Crea notes para organizar tus pruebas.
Ejecuta consultas con Spark SQL y visualiza resultados al instante.
Utiliza SQL, Scala o Python según tu necesidad.

Próximo paso natural: conectar Zeppelin a AWS Glue o desplegarlo en EMR para ejecutar tus trabajos con datos en la nube.

Habilidades y conceptos que refuerzas aquí: - Instalación local y preparación de entorno de trabajo. - Uso de consola: navegación de directorios y comandos básicos. - Gestión de servicios con daemon de Zeppelin desde bin. - Ejecución de Spark SQL en notes para validar transformaciones. - Integración con AWS Glue y despliegue en EMR como opciones de conexión.

¿Tienes dudas sobre la instalación o la conexión con Glue? Comparte tu pregunta y comenta qué ETL te gustaría probar primero.

Wilson Romero

student•

Instalación con Docker

Puedes usar este archivo de docker-compose.yml

version: "3"

volumes:
  zeppelin_notebook: {}
  zeppelin_conf: {}

services:
  zeppelin:
    image: apache/zeppelin:0.8.1
    volumes:
      - zeppelin_notebook:/zeppelin/notebook
      - zeppelin_conf:/zeppelin/conf
    ports:
      - '8080:8080'

y ejecutarlo con

docker-compose up

Daniel G Perico Sánchez

student•

Vale la pena resaltar que debemos tener Java instalado en nuestra pc. De no ser así al momento de activar Zeppelin nos va a mostrar algo como "Zeppelin process died". Dejo la instalación para Ubuntu y Linux Mint (64 bit): sudo add-apt-repository ppa:linuxuprising/java sudo apt update sudo apt install oracle-java11-installer

Darvin Orozco

student•

Interesante recomendación, muchas gracias amigo!

Usuario anónimo

user•

Muchas Gracias.

Diego Fer Chávez Hinojosa

student•

No me hice tanto lio, simplemente con docker instalado ejecute

docker pull apache/zeppelin:0.10.0

una vez descargadas las imagenes

docker run -p 8080:8080 -p 4040:4040 -p 4041:4041 -p 4042:4042 -v /zeppelin/notebook:/zeppelin/notebook --name zeppelin apache/zeppelin:0.10.0

Y listo.

Usuario anónimo

user•

Para usar apache zeppelin en windows se debe tener installado java https://www.java.com/en/download/ y en lugar de escribir zeppelin-daemon.sh start se debe escribir en cmd de windows zeppelin.cmd

Usuario anónimo

user•

Apache Zeppelin es un servicio que permite la ejecución de notebooks para análisis de datos utilizando SQL, Scala o Python. Tiene integración con los servicios de AWS.

Ivan Acosta

student•

Interesante este tool de Apache Zeepeling. Sin embargo se tiene servicios en Cloud como https://colab.research.google.com/ donde no es necesario instalar un app en el PC. ¿Consulta, Sabes si Google Colab se puede conectar directamente a AWS para poder analizar los datos?

john ct

student•

AWS Glue provides a console and API operations to set up and manage your extract, transform, and load (ETL) workload. You can use API operations through several language-specific SDKs and the AWS Command Line Interface (AWS CLI). For information about using the AWS CLI, see AWS CLI Command Reference.

AWS Glue uses the AWS Glue Data Catalog to store metadata about data sources, transforms, and targets. The Data Catalog is a drop-in replacement for the Apache Hive Metastore. The AWS Glue Jobs system provides a managed infrastructure for defining, scheduling, and running ETL operations on your data. For more information about the AWS Glue API, see

Eduardo Sánchez Villegas

student•

Para cambiar la configuración por defecto del puerto 8080 para iniciar Apache Zeppelin, deben abrir el archivo "zeppelin-site.xml.template" ubicado en la carpeta "conf" que se encuentra en la carpeta descargada y descomprimida de instalación de Apache Zeppelin.

Una vez abierto, deben cambiar el puerto en la siguiente línea de código:

<property>
  <name>zeppelin.server.port</name>
  <value>8081</value>
  <description>Server port.</description>
</property>

Una vez modificado deben guardar el archivo, para ahora renombrarlo de "zeppelin-site.xml.template" a "zeppelin-site.xml" sacando la extensión ".template". En el caso de ya estar iniciado Apache Zeppelin, se debe reiniciar, de caso contrario, ya se puede levantar Apache Zeppelin para que sea ejecutado con el server port configurado en este caso 8081, el cuál puede ser comprobado con la ruta "localhost:8081".

JUSHUA BALDOCEDA PUENTES

student•

Cómo puedo utilizarlo en windows?

Osmandi Gomez

student•

Hola, puedes usar Linux con VirtualBox o utilizar Docker Tolbox en tu Windows:)

Carlos Andrés Zambrano Barrera

teacher•

En windows cambia el proceso de instalación, puedes hacerlo con este tuto https://hernandezpaul.wordpress.com/2016/11/14/apache-zeppelin-installation-on-windows-10/

Ricardo Andrés Quintero Villa

student•

para executar en windows el comando debe ser .\bin\zeppelin.cmd

Manuel nicolas Moya

student•

la verdad que la instalacion de estos setups es realmente un curso aparte , o falla docker o falla ubuntu en windows , para estas cosas windows es un dolor de cabeza , ya me ha pasado con apache hadoop , demoras mas en la instalacion que en lo que cuesta aprender a usarlo , en fin , no son los unicos jaja

Arturo Munoz Cantor

student•

Más integraciones con AWS.

Raul Alfonso Rodriguez Lopez

student•

buenas.. si comienzo a usar este servicio (Zeppelin), como serian los cobros al usarlo con AWS ??

LUIS GERARDO CAMBAL BARAHONA

student•

En caso de usar windows, que aplicación puedo usar para instalar apache Zeppelin?

john ct

student•

http: //www.apache.org/dyn/closer.cgi/zeppelin/zeppelin-0.7.3/zeppelin-0.7.3-bin-all.tgz quiza ya tiene compatilibidad con el 0.8 ?

Usuario anónimo

user•

Amazon EMR es una plataforma de clúster administrada que simplifica la ejecución de los marcos de trabajo de Big Data, tales como Apache Hadoop y Apache Spark en AWS para procesar y analizar grandes cantidades de datos. Mediante el uso de estos marcos de trabajo y proyectos de código abierto relacionados, como Apache Hive y Apache Pig, puede procesar datos para fines de análisis y cargas de trabajo de inteligencia empresarial. Además, puede utilizar Amazon EMR para transformar y trasladar grandes cantidades de datos hacia y desde otros almacenes de datos y bases de datos de AWS, tales como Amazon Simple Storage Service (Amazon S3) y Amazon DynamoDB. Fuente AWS

Instalación de Apache Zeppelin paso a paso

Bienvenida e introducción al curso

Big Data en la Nube: Análisis, Transformación y Seguridad

Big Data en Cloud desde origen a visualización

Por qué big data en cloud es más eficiente

Extracción vs ingesta en proyectos big data

Comparativa de AWS y GCP para proyectos BigData

Arquitecturas

Arquitectura Lambda: 3 capas para datos en tiempo real

Arquitectura capa: el tiempo real como ventaja

Cómo funciona la arquitectura batch

Extracción de información

Cómo mover datos a cloud con SDK y CLI

Python y boto3 para listar buckets S3

Boto3: inicializar clients de AWS en Python

API Gateway como puerta de big data

Storage Gateway: puerta entre on-premise y S3

AWS Kinesis: streaming masivo de datos

Cómo crear Kinesis Data Stream en AWS

Despliegue automatizado de Kinesis con CloudFormation

Cómo Kinesis Firehose entrega datos en tiempo real

Configuración de Kinesis Firehose en AWS

Configuración Básica de Amazon Kinesis Firehose en AWS

MSK vs Kinesis: cuál elegir en AWS

Creación de clúster AWS MSK desde la consola

Transformación de Información

Cómo AWS Glue transforma datos en la nube