- 1
Big Data en la Nube: Análisis, Transformación y Seguridad
00:40 - 2

Transformación de Datos en Cloud: Automatización y Seguridad
01:32 - 3

Big Data en la Nube: Escalabilidad, Automatización y Eficiencia
04:30 - 4

Almacenamiento y Procesamiento de Datos en la Nube
04:09 - 5
Comparativa de AWS y GCP para proyectos BigData
01:17
Configuración de Developer Endpoint en AWS Glue para Apache Zeppelin
Clase 24 de 52 • Curso de Big Data en AWS
Contenido del curso
- 9

Extracción de Datos a la Nube: Estrategias y Herramientas
02:21 - 10

Uso de Python y AWS Cloud9 para Proyectos de Big Data
10:16 - 11

Uso de Boto3 para Servicios AWS en Python
03:56 - 12

Integración de AWS API Gateway en Proyectos de Big Data
03:40 - 13

Uso de Storage Gateway para Integración de Datos en la Nube
03:13 - 14

Procesamiento de Datos en Tiempo Real con AWS Kinesis Data Stream
05:53 - 15

Creación de Kinesis Data Streams en AWS
06:50 - 16

Despliegue de Kinesis con AWS CloudFormation
10:42 - 17

Entrega y Transformación de Datos con Kinesis Firehose en AWS
03:27 - 18

Configuración de Kinesis Firehose en AWS paso a paso
05:45 - 19
Configuración Básica de Amazon Kinesis Firehose en AWS
02:53 - 20

AWS MSK: Implementación y Gestión de Apache Kafka en la Nube
03:42 - 21

Despliegue de Clúster MSK en AWS paso a paso
07:21
- 22

Transformación de Datos con AWS Glue: ETL y Catálogo de Metadatos
06:33 - 23

Instalación y Configuración de Apache Zeppelin para AWS Glue
04:49 - 24

Configuración de Developer Endpoint en AWS Glue para Apache Zeppelin
05:38 - 25

Conexión y configuración de Apache Zeppelin para ETL en AWS
08:29 - 26

Creación de un ETL con AWS Glue: Crawlers y Catalogación de Datos
08:15 - 27

Configuración y Ejecución de ETL en AWS Glue paso a paso
08:00 - 28

Creación y Ejecución de ETL con AWS Glue y S3
10:23 - 29

Procesamiento de Datos con EMR en AWS
05:30 - 30

Creación de un clúster EMR en AWS paso a paso
09:01 - 31

Conexión y Configuración de Zeppelin en Clúster EMR
03:18 - 32

Automatización de Clústeres EMR con Plantillas de CloudFormation
06:32 - 33

AWS Lambda en Proyectos de Big Data en Tiempo Real
07:02 - 34

Uso de Lambda en Arquitecturas de Big Data Real Time y Batch
04:54 - 35

Configuración de Funciones Lambda para Big Data en AWS
07:16
- 36

Consultas SQL en Big Data con AWS Athena y S3
04:50 - 37

Consultas SQL en S3 con AWS Athena y Glue Catalog
04:05 - 38

AWS Redshift: Almacenamiento y Análisis de Datos Masivos
06:37 - 39

Configuración de Amazon Redshift en AWS paso a paso
05:05 - 40

Lake Formation: Automatización y Seguridad en Gestión de Data Lakes
06:20
- 46

Seguridad en Big Data con AWS: Cifrado, Permisos y Monitoreo
03:51 - 47

Seguridad de Datos en AWS con Amazon Macie
07:32 - 48

Habilitación y Configuración de AWS Macie para Gestión de Datos Seguros
06:16 - 49

Orquestación de ETLs con Apache Airflow y Python en Big Data
04:27 - 50

Despliegue y Orquestación de Tareas con Google Cloud Composer
10:03 - 51

Arquitecturas de Big Data en Cloud: Batch y Tiempo Real
05:53
¿Cómo crear un endpoint de desarrollador en AWS Glue?
Configurar un endpoint de desarrollador en AWS Glue es un paso esencial para aquellos que buscan integrar Apache Zeppelin y ejecutar consultas dentro de la plataforma de AWS. Este proceso le permitirá realizar consultas de datos con eficiencia veamos cómo configurarlo correctamente.
¿Qué opciones ofrece la consola de AWS para notebooks?
Dentro de la consola de AWS, al explorar el servicio de Glue, encontrará la sección de notebooks. Aquí, AWS ofrece dos opciones principales:
- SageMaker Notebooks: Orientados al servicio de Machine Learning de AWS, SageMaker.
- Zeppelin Notebooks: Ideales para quienes desean utilizar Apache Zeppelin para sus consultas y análisis de datos.
Para nuestro propósito de conectar un Apache Zeppelin local, optaremos por crear un notebook basado en Zeppelin.
¿Cómo crear un endpoint de desarrollador en AWS Glue?
Para comenzar, deberá acceder a la sección de Developer Endpoints dentro del servicio Glue. Aquí es donde inicia la creación de un nuevo endpoint siguiendo estos pasos:
-
Agregar un nuevo endpoint: Al hacer clic en "Add Endpoint", se abre un formulario para configurar un nuevo endpoint. Le daremos el nombre "DevPlatziM" a nuestro endpoint.
-
Seleccionar y configurar un rol de IAM:
- Debe contar con un rol de IAM que tenga permisos completos sobre los servicios de AWS Glue y acceso a S3, donde residirá su data.
- Si no posee un rol, AWS le ofrece crear uno directamente desde la interfaz.
-
Configurar los parámetros de cómputo:
- Es recomendable especificar una capacidad de cómputo baja al trabajar con endpoints de desarrollador, para optimizar recursos. En este ejemplo, utilizaremos cinco DPUs.
-
Ajustes de seguridad y librerías:
- Puede especificar librerías de Python y JAR necesarias para el developer endpoint, cargándolas desde S3.
¿Cómo configurar las opciones de red y seguridad del endpoint?
La configuración de networking es crucial para garantizar una conexión segura y eficiente. Estas son algunas consideraciones:
-
Desplegar dentro de una VPC: Aunque puede optar por una red genérica, si cuenta con VPCs privadas o públicas, puede seleccionar cuál desea utilizar.
-
Generación de llaves SSH: Para conectar su Apache Zeppelin, necesitará llaves SSH:
- Acceda a su consola de comandos, regrese un directorio desde el de Zeppelin.
- Genere las llaves con el comando:
ssh-keygen -t rsa -b 2048 -f platzi-llave- Se generarán dos archivos:
platzi-llave(privada) yplatzi-llave.pub(pública).
-
Carga de la llave pública al endpoint:
- Copie el contenido de
platzi-llave.pub. - Péguelo en el campo correspondiente del endpoint para autorizar la conexión a la plataforma AWS.
- Copie el contenido de
Siguiendo estos pasos, tiene la base para integrar Apache Zeppelin con AWS Glue, potenciando su capacidad de análisis de datos. Este conocimiento no solo amplía sus habilidades técnicas, sino que también le posiciona para seguir explorando el fascinante mundo de la gestión de datos en la nube. ¡Continúe aprendiendo y explorando!