Bienvenida e introducción al curso

1

Big Data en la Nube: Análisis, Transformación y Seguridad

2

Transformación de Datos en Cloud: Automatización y Seguridad

3

Big Data en la Nube: Escalabilidad, Automatización y Eficiencia

4

Almacenamiento y Procesamiento de Datos en la Nube

5

Comparativa de AWS y GCP para proyectos BigData

Arquitecturas

6

Arquitectura Lambda para Procesamiento de Datos en la Nube

7

Arquitectura Capa: Procesamiento de Datos en Tiempo Real

8

Arquitectura Batch: Procesamiento de Datos Histórico en la Nube

Extracción de información

9

Extracción de Datos a la Nube: Estrategias y Herramientas

10

Uso de Python y AWS Cloud9 para Proyectos de Big Data

11

Uso de Boto3 para Servicios AWS en Python

12

Integración de AWS API Gateway en Proyectos de Big Data

13

Uso de Storage Gateway para Integración de Datos en la Nube

14

Procesamiento de Datos en Tiempo Real con AWS Kinesis Data Stream

15

Creación de Kinesis Data Streams en AWS

16

Despliegue de Kinesis con AWS CloudFormation

17

Entrega y Transformación de Datos con Kinesis Firehose en AWS

18

Configuración de Kinesis Firehose en AWS paso a paso

19

Configuración Básica de Amazon Kinesis Firehose en AWS

20

AWS MSK: Implementación y Gestión de Apache Kafka en la Nube

21

Despliegue de Clúster MSK en AWS paso a paso

Transformación de Información

22

Transformación de Datos con AWS Glue: ETL y Catálogo de Metadatos

23

Instalación y Configuración de Apache Zeppelin para AWS Glue

24

Configuración de Developer Endpoint en AWS Glue para Apache Zeppelin

25

Conexión y configuración de Apache Zeppelin para ETL en AWS

26

Creación de un ETL con AWS Glue: Crawlers y Catalogación de Datos

27

Configuración y Ejecución de ETL en AWS Glue paso a paso

28

Creación y Ejecución de ETL con AWS Glue y S3

29

Procesamiento de Datos con EMR en AWS

30

Creación de un clúster EMR en AWS paso a paso

31

Conexión y Configuración de Zeppelin en Clúster EMR

32

Automatización de Clústeres EMR con Plantillas de CloudFormation

33

AWS Lambda en Proyectos de Big Data en Tiempo Real

34

Uso de Lambda en Arquitecturas de Big Data Real Time y Batch

35

Configuración de Funciones Lambda para Big Data en AWS

Carga de Información

36

Consultas SQL en Big Data con AWS Athena y S3

37

Consultas SQL en S3 con AWS Athena y Glue Catalog

38

AWS Redshift: Almacenamiento y Análisis de Datos Masivos

39

Configuración de Amazon Redshift en AWS paso a paso

40

Lake Formation: Automatización y Seguridad en Gestión de Data Lakes

Consumo de información

41

Implementación de Elasticsearch en AWS: Búsqueda y Visualización

42

Despliegue de Clúster Elasticsearch en AWS Paso a Paso

43

Visualización de Datos con Kibana y Elasticsearch en AWS

44

Visualización de Datos en AWS con QuickSight

45

Habilitación y uso de QuickSight en AWS

Seguridad, Orquestación y Automatización

46

Seguridad en Big Data con AWS: Cifrado, Permisos y Monitoreo

47

Seguridad de Datos en AWS con Amazon Macie

48

Habilitación y Configuración de AWS Macie para Gestión de Datos Seguros

49

Orquestación de ETLs con Apache Airflow y Python en Big Data

50

Despliegue y Orquestación de Tareas con Google Cloud Composer

51

Arquitecturas de Big Data en Cloud: Batch y Tiempo Real

Clase pública

52

Fundamentos de Big Data: Volumen, Velocidad, Variedad, Veracidad y Valor

No tienes acceso a esta clase

¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera

Curso de Big Data en AWS

Curso de Big Data en AWS

Carlos Andrés Zambrano Barrera

Carlos Andrés Zambrano Barrera

Conexión y configuración de Apache Zeppelin para ETL en AWS

25/52
Recursos

¿Cómo configurar Apache Zeppelin para un developer endpoint?

Conectar tu entorno de desarrollo local a un Developer Endpoint en AWS puede ser un poco desafiante si no se tiene experiencia previa, pero con estos pasos podrás configurarlo adecuadamente y sacar el máximo provecho a la capacidad de procesamiento de datos en la nube.

Primero, debes asegurarte de que tu developer endpoint esté en estado "ready". Desde el panel de conexión en AWS, toma nota de la dirección y detalles que necesitarás para hacer la conexión desde tu entorno local, Apache Zeppelin.

¿Cómo configurar el interpreter de Spark en Zeppelin?

Para trabajar con Spark desde Apache Zeppelin, lo que necesitas hacer es muy sencillo. Sigue estos pasos:

  1. Abre Apache Zeppelin y dirígete a la sección de Interpreters.
  2. Busca el interpreter para Spark y selecciona Edit.
  3. Configura la propiedad master en yarn client. Si en las propiedades aparece Spark executor memory o Spark driver memory, elimínalas.
  4. Configura un redireccionamiento de puerto al 9007 de localhost. Selecciona connect to existing process y establece localhost como host por el puerto 9007.

¿Cómo conectar Apache Zeppelin local con el developer endpoint?

El siguiente paso es establecer la conexión SSH. Esto implica abrir un túnel entre tu máquina local y el developer endpoint. Aquí cómo:

  1. Dirígete a la consola de AWS Glue y copia el comando SSH proporcionado.
  2. Reemplaza la llave por tu llave privada local, asegurándote de especificar la ruta si no estás en el directorio correcto.
  3. Ejecuta el comando en tu consola. Esto iniciará una conexión que permitirá ejecutar comandos en el endpoint.
  4. Abre un nuevo comando SSH para trabajar con Scala. La mecánica es igual que el anterior, asegurándote de usar la llave correcta.

¿Cómo usar Apache Zeppelin para visualizar y analizar datos?

Después de establecer la conexión y verificar la ejecución de comandos básicos, puedes comenzar a utilizar la poderosa interfaz de Apache Zeppelin para realizar análisis más complejos.

  1. Crea un nuevo notebook en Zeppelin y selecciona Spark como interpreter.
  2. Ejecuta comandos y observa el resultado gráfico directamente desde tu notebook, apalancándote en la infraestructura en la nube para consultar y analizar la data en AWS.

Con este proceso, básicamente estás armando un entorno de trabajo robusto donde pueden analizarse grandes volúmenes de datos, permitiendo un análisis en tiempo real y un testing eficaz antes de pasar cualquier desarrollo a producción.

¿Listo para experimentar más con tus datos en la nube? ¡Continúa explorando y no dejes de aprender! El mundo de la transformación de datos es vasto y siempre hay algo nuevo por descubrir.

Aportes 8

Preguntas 2

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad?

Si quieren cerrar el intérprete de Spark y la sesión de SSH que iniciaron en este video es con la función exit() o Ctrl+D.

Amigo, si estan usando windows, arroja problemas al momento de ingresar la llave publica ssh.

Se debe pusar putty para crear las ssh.

Dejo aquí la documentación usada, para mas referencia.

https://docs.aws.amazon.com/es_es/glue/latest/dg/dev-endpoint-tutorial-prerequisites.html

Para conectar tu **Developer Endpoint** de AWS Glue con un **Zeppelin Endpoint**, sigue estos pasos: ## **1. Crear un Developer Endpoint en AWS Glue** Antes de conectar Apache Zeppelin, asegúrate de que tienes un **Developer Endpoint** de AWS Glue activo. 1. **Accede a la consola de AWS Glue**. 2. Ve a **"Developer Endpoints"** en el menú lateral. 3. **Crea un nuevo Developer Endpoint**, asegurándote de: * Seleccionar la versión correcta de Glue. * Especificar una VPC, subred y grupo de seguridad compatibles con tu Apache Zeppelin. * Activar el acceso SSH si necesitas conexión remota. 4. Una vez creado, copia la **dirección del endpoint** para usarla más adelante. ## **2. Configurar Apache Zeppelin en EC2** Si no tienes un servidor Zeppelin configurado, puedes lanzar una instancia EC2 y configurarlo manualmente o utilizar EMR: ### **Opción 1: Instalar Zeppelin en una EC2 manualmente** 1. Lanza una **instancia EC2** (Amazon Linux o Ubuntu recomendado). 2. Conéctate a la instancia y ejecuta:sudo yum update -y wget <https://downloads.apache.org/zeppelin/zeppelin-0.10.1-bin-netinst.tgz> tar -xvzf zeppelin-\*.tgz cd zeppelin-\* ./bin/zeppelin-daemon.sh start 3. Asegúrate de abrir el puerto **8080** en los **grupos de seguridad** para acceder a Zeppelin en tu navegador. ### **Opción 2: Configurar Zeppelin en un clúster EMR** 1. En la consola de **Amazon EMR**, crea un nuevo clúster con: * Apache Spark habilitado. * **Apache Zeppelin activado** en la configuración. 2. Espera a que el clúster se inicialice y obtén la **URL de Zeppelin** desde la consola de EMR. ## **3. Conectar AWS Glue con Zeppelin** Ahora que tienes **Zeppelin** y tu **Developer Endpoint**, sigue estos pasos: 1. Abre **Apache Zeppelin** en tu navegador. 2. Ve a **"Interpreter"** en la barra de configuración. 3. Agrega un nuevo **interpreter para PySpark** y configúralo con: * **Master**: `yarn` * **glue.endpoint**: La dirección de tu **Developer Endpoint** en AWS Glue. * **AWS Credentials**: Configura tus credenciales si es necesario. 4. Guarda los cambios y **reinicia Zeppelin**. ## **4. Validar la Conexión** Ejecuta el siguiente código en un **nuevo notebook** en Zeppelin para probar la conexión con AWS Glue: sc.listFiles() Si todo está bien, deberías ver una lista de archivos accesibles desde tu **Glue Developer Endpoint**. ### **¡Listo! Ahora puedes ejecutar consultas interactivas en Zeppelin usando AWS Glue. 🚀**

buenas… si comienzo a usar este servicio (Zeppelin), como serian los cobros al usarlo con AWS ??

Gracias, pude conectar mi zeppelin local con la nube

interesante

apache zeppelin > localhost:8080

usar CLI para comandos
1- conexion de zeppelin con dev endpoint
2 usar scala y python
3 mayor analitica
usar los ETL extract transform and Loads