Configuración de Developer Endpoint en AWS Glue para Apache Zeppelin

Clase 24 de 52 • Curso de Big Data en AWS

Resumen

¿Cómo crear un endpoint de desarrollador en AWS Glue?

Configurar un endpoint de desarrollador en AWS Glue es un paso esencial para aquellos que buscan integrar Apache Zeppelin y ejecutar consultas dentro de la plataforma de AWS. Este proceso le permitirá realizar consultas de datos con eficiencia veamos cómo configurarlo correctamente.

¿Qué opciones ofrece la consola de AWS para notebooks?

Dentro de la consola de AWS, al explorar el servicio de Glue, encontrará la sección de notebooks. Aquí, AWS ofrece dos opciones principales:

SageMaker Notebooks: Orientados al servicio de Machine Learning de AWS, SageMaker.
Zeppelin Notebooks: Ideales para quienes desean utilizar Apache Zeppelin para sus consultas y análisis de datos.

Para nuestro propósito de conectar un Apache Zeppelin local, optaremos por crear un notebook basado en Zeppelin.

¿Cómo crear un endpoint de desarrollador en AWS Glue?

Para comenzar, deberá acceder a la sección de Developer Endpoints dentro del servicio Glue. Aquí es donde inicia la creación de un nuevo endpoint siguiendo estos pasos:

Agregar un nuevo endpoint: Al hacer clic en "Add Endpoint", se abre un formulario para configurar un nuevo endpoint. Le daremos el nombre "DevPlatziM" a nuestro endpoint.
Seleccionar y configurar un rol de IAM:
- Debe contar con un rol de IAM que tenga permisos completos sobre los servicios de AWS Glue y acceso a S3, donde residirá su data.
- Si no posee un rol, AWS le ofrece crear uno directamente desde la interfaz.
Configurar los parámetros de cómputo:
- Es recomendable especificar una capacidad de cómputo baja al trabajar con endpoints de desarrollador, para optimizar recursos. En este ejemplo, utilizaremos cinco DPUs.
Ajustes de seguridad y librerías:
- Puede especificar librerías de Python y JAR necesarias para el developer endpoint, cargándolas desde S3.

¿Cómo configurar las opciones de red y seguridad del endpoint?

La configuración de networking es crucial para garantizar una conexión segura y eficiente. Estas son algunas consideraciones:

Desplegar dentro de una VPC: Aunque puede optar por una red genérica, si cuenta con VPCs privadas o públicas, puede seleccionar cuál desea utilizar.
Generación de llaves SSH: Para conectar su Apache Zeppelin, necesitará llaves SSH:
1. Acceda a su consola de comandos, regrese un directorio desde el de Zeppelin.
2. Genere las llaves con el comando:
```
ssh-keygen -t rsa -b 2048 -f platzi-llave
```
1. Se generarán dos archivos: platzi-llave (privada) y platzi-llave.pub (pública).
Carga de la llave pública al endpoint:
- Copie el contenido de platzi-llave.pub.
- Péguelo en el campo correspondiente del endpoint para autorizar la conexión a la plataforma AWS.

Siguiendo estos pasos, tiene la base para integrar Apache Zeppelin con AWS Glue, potenciando su capacidad de análisis de datos. Este conocimiento no solo amplía sus habilidades técnicas, sino que también le posiciona para seguir explorando el fascinante mundo de la gestión de datos en la nube. ¡Continúe aprendiendo y explorando!

Raúl Ortega Larsen

student•

En mayo 2023 no me fue posible seguir con ésta clase porque ya no encontré el menú para crear los "Development Endpoints"

Ricardo Andrés Quintero Villa

student•

me paso, igual que a ti pero ahora no se por donde continuar

Raul Alfonso Rodriguez Lopez

student•

buenas… si comienzo a usar este servicio (Zeppelin), como serian los cobros al usarlo con AWS ??

Milton Andrés Sanabria

student•

Yo configure dos endpoint mientras aprendida y a las 12 horas me di cuenta que me estaban cobrando por eso. Ten cuidado de no dejarlos en _Ready _si no los vas a usar, mientras se encuentre en ese estado te va a estar facturando. Una solución puede ser borrarlo si no lo usas.

Manuel nicolas Moya

student•

lo mismo que dije en comentarios anteriores y para los que vengan , si tienen windows armense de paciencia , las maquinas virtuales , instalarlas y hacerles el setup son un dolor de cabeza , si pueden pasense a linux es mucho mejor y no perdes tanto tiempo , si intentan con docker haganlo desde el wsl de linux , porque de ubuntu tambien les va a pasarlo mismo

Jhon Alexander Bravo

student•

La sentencia zeppeling-daemon sart funciona en windows ejecutada desde un MINGW64.?

Darvin Orozco

student•

Esa misma pregunta también la tengo yo, esperemos nos puedan apoyar. Saludos

Miguel Rojas

student•

ese comando parece ser para linux (extensión sh).

para windows deberían usar: bin\zeppelin.cmd

Jesus Yesid

student•

Buenas tardes Creo que me equivoque con esta capacitación, por cuanto es muy técnico y no tengo los conocimientos mínimos, que capacitación basica me recomiendan ?

Erick Alay

student•

Hola puedes tomar estos cursos que te dan los fundamentos :D https://platzi.com/cursos/aws-fundamentos/ https://platzi.com/cursos/aws-computo/ O si estas perdido puedes tomar esta ruta: https://platzi.com/aws/ Va desde lo más básico a lo avanzado en AWS

Gabriela Andreina García Uzcategui

student•

Esta opción no existe en la consola desde Marzo de 2023

Jhon Alexander Bravo

student•

Apache Zeppelin es compatible con OpenJDK 11 - 64 bits

Usuario anónimo

user•

Muy bien

john ct

student•

claro y conciso, gracias

john ct

student•

fully executed

OSCAR NUNEZ

student•

Al usar Apache Zeppelin de forma local y al conectarlo con AWS, las ejecuciones de los scripts que corramos en local generan billing de todas maneras??

Darvin Orozco

student•

Yo creo que te van a cobrar sólo por lo que se procese dentro del servicio Zeppelin (los scripts creo que sólo ayudan a enviar la data), pero a partir de la carga, allí viene la transformación y allí es donde posiblemente cobren por el uso.

Configuración de Developer Endpoint en AWS Glue para Apache Zeppelin

Bienvenida e introducción al curso

Big Data en la Nube: Análisis, Transformación y Seguridad

Transformación de Datos en Cloud: Automatización y Seguridad

Big Data en la Nube: Escalabilidad, Automatización y Eficiencia

Almacenamiento y Procesamiento de Datos en la Nube

Comparativa de AWS y GCP para proyectos BigData

Arquitecturas

Arquitectura Lambda para Procesamiento de Datos en la Nube

Arquitectura Capa: Procesamiento de Datos en Tiempo Real

Arquitectura Batch: Procesamiento de Datos Histórico en la Nube

Extracción de información

Extracción de Datos a la Nube: Estrategias y Herramientas

Uso de Python y AWS Cloud9 para Proyectos de Big Data

Uso de Boto3 para Servicios AWS en Python

Integración de AWS API Gateway en Proyectos de Big Data

Uso de Storage Gateway para Integración de Datos en la Nube

Procesamiento de Datos en Tiempo Real con AWS Kinesis Data Stream

Creación de Kinesis Data Streams en AWS

Despliegue de Kinesis con AWS CloudFormation

Entrega y Transformación de Datos con Kinesis Firehose en AWS

Configuración de Kinesis Firehose en AWS paso a paso

Configuración Básica de Amazon Kinesis Firehose en AWS

AWS MSK: Implementación y Gestión de Apache Kafka en la Nube

Despliegue de Clúster MSK en AWS paso a paso

Transformación de Información

Transformación de Datos con AWS Glue: ETL y Catálogo de Metadatos

Instalación y Configuración de Apache Zeppelin para AWS Glue