Instalación de Apache Zeppelin paso a paso
Clase 23 de 52 • Curso de Big Data en AWS
Contenido del curso
Arquitecturas
Extracción de información
- 9

Cómo mover datos a cloud con SDK y CLI
02:21 min - 10

Python y boto3 para listar buckets S3
10:16 min - 11

Boto3: inicializar clients de AWS en Python
03:56 min - 12

API Gateway como puerta de big data
03:40 min - 13

Storage Gateway: puerta entre on-premise y S3
03:13 min - 14

AWS Kinesis: streaming masivo de datos
05:53 min - 15

Cómo crear Kinesis Data Stream en AWS
06:50 min - 16

Despliegue automatizado de Kinesis con CloudFormation
10:42 min - 17

Cómo Kinesis Firehose entrega datos en tiempo real
03:27 min - 18

Configuración de Kinesis Firehose en AWS
05:45 min - 19
Configuración Básica de Amazon Kinesis Firehose en AWS
02:53 min - 20

MSK vs Kinesis: cuál elegir en AWS
03:42 min - 21

Creación de clúster AWS MSK desde la consola
07:21 min
Transformación de Información
- 22

Cómo AWS Glue transforma datos en la nube
06:33 min - 23

Instalación de Apache Zeppelin paso a paso
Viendo ahora - 24

Configurar developer endpoint de AWS Glue con Zeppelin
05:38 min - 25

Conexión de Apache Zeppelin con AWS
08:29 min - 26

Configurar AWS Glue Crawler para poblar catálogo
08:15 min - 27

Configuración de Developer Endpoint en AWS Glue
08:00 min - 28

Cómo configurar AWS Glue ETL desde S3 a Parquet
10:23 min - 29

Qué es EMR y cuándo usarlo
05:30 min - 30

Crear tu primer cluster de AWS EMR
09:01 min - 31

Conectar Apache Zeppelin a EMR
03:18 min - 32

EMR automatizado con CloudFormation
06:32 min - 33

AWS Lambda para proyectos de big data
07:02 min - 34

Lambdas en big data: real time y batch
04:54 min - 35

Configuración de AWS Lambda para Big Data
07:16 min
Carga de Información
Consumo de información
Seguridad, Orquestación y Automatización
Clase pública
Si buscas ejecutar y validar ETL de AWS Glue en local, aquí verás cómo instalar Apache Zeppelin, iniciar su servicio y preparar la conexión con AWS. Con esta guía podrás correr Spark con SQL, Scala o Python y probar transformaciones antes de llevarlas a producción.
¿Qué es Apache Zeppelin y por qué usarlo con AWS Glue?
Apache Zeppelin es una herramienta para ejecutar análisis de datos en notebooks. Permite crear notes y correr código con SQL, Scala o Python sobre Spark. Es clave para probar transformaciones y depurar trabajos de ETL.
- Integra con servicios de AWS: Glue directamente y despliegue en clúster de EMR.
- Facilita pruebas locales antes de pasar a producción.
- Soporte de versiones mencionado: compatible con la 0.7.3; en trabajo 0.8.0 y 0.8.1.
- Interfaz web simple para ejecutar consultas y ver resultados.
Idea central: usa Zeppelin para validar tus notebooks y tareas de transformación con datos reales, conectándolo luego a AWS Glue.
¿Cómo descargar e instalar Apache Zeppelin paso a paso?
El proceso es directo. En minutos tendrás el entorno listo para pruebas.
- Busca en Google “Apache Zeppelin” y entra al primer enlace del proyecto.
- Haz clic en Download Zeppelin para ver las imágenes disponibles.
- Elige la versión 0.7.3 (AWS indica compatibilidad actual) mientras trabajan en 0.8.0/0.8.1.
- Inicia la descarga desde los mirrors y guarda el archivo comprimido.
- Descomprime el archivo: verás una carpeta con los archivos de configuración.
- Abre una consola y navega a la carpeta de descargas y luego a la carpeta de Zeppelin.
Ejemplo de navegación en consola:
cd downloads
ls
cd zeppelin
ls
En esta carpeta encontrarás la estructura de archivos y el directorio bin desde donde se gestiona el servicio.
¿Cómo iniciar el servicio y qué habilidades aplicarás?
Con la carpeta de Zeppelin lista, pondrás en marcha el servicio local y validarás la interfaz web para empezar a ejecutar consultas.
¿Cómo arrancar el servicio en segundo plano?
Desde el directorio de Zeppelin, ejecuta el daemon ubicado en la ruta bin con la acción start:
bin/zeppelin-daemon.sh start
Si la salida indica que fue exitoso, el servicio quedó activo. Este paso levanta Apache Zeppelin en tu máquina.
¿Cómo validar la interfaz web y ejecutar código?
- Abre tu navegador y entra a localhost:8080. Verás la interfaz de Zeppelin.
- Crea notes para organizar tus pruebas.
- Ejecuta consultas con Spark SQL y visualiza resultados al instante.
- Utiliza SQL, Scala o Python según tu necesidad.
Próximo paso natural: conectar Zeppelin a AWS Glue o desplegarlo en EMR para ejecutar tus trabajos con datos en la nube.
Habilidades y conceptos que refuerzas aquí: - Instalación local y preparación de entorno de trabajo. - Uso de consola: navegación de directorios y comandos básicos. - Gestión de servicios con daemon de Zeppelin desde bin. - Ejecución de Spark SQL en notes para validar transformaciones. - Integración con AWS Glue y despliegue en EMR como opciones de conexión.
¿Tienes dudas sobre la instalación o la conexión con Glue? Comparte tu pregunta y comenta qué ETL te gustaría probar primero.