Si quieren cerrar el intérprete de Spark y la sesión de SSH que iniciaron en este video es con la función exit() o Ctrl+D.
Bienvenida e introducción al curso
Big Data en la Nube: Análisis, Transformación y Seguridad
Transformación de Datos en Cloud: Automatización y Seguridad
Big Data en la Nube: Escalabilidad, Automatización y Eficiencia
Almacenamiento y Procesamiento de Datos en la Nube
Comparativa de AWS y GCP para proyectos BigData
Arquitecturas
Arquitectura Lambda para Procesamiento de Datos en la Nube
Arquitectura Capa: Procesamiento de Datos en Tiempo Real
Arquitectura Batch: Procesamiento de Datos Histórico en la Nube
Extracción de información
Extracción de Datos a la Nube: Estrategias y Herramientas
Uso de Python y AWS Cloud9 para Proyectos de Big Data
Uso de Boto3 para Servicios AWS en Python
Integración de AWS API Gateway en Proyectos de Big Data
Uso de Storage Gateway para Integración de Datos en la Nube
Procesamiento de Datos en Tiempo Real con AWS Kinesis Data Stream
Creación de Kinesis Data Streams en AWS
Despliegue de Kinesis con AWS CloudFormation
Entrega y Transformación de Datos con Kinesis Firehose en AWS
Configuración de Kinesis Firehose en AWS paso a paso
Configuración Básica de Amazon Kinesis Firehose en AWS
AWS MSK: Implementación y Gestión de Apache Kafka en la Nube
Despliegue de Clúster MSK en AWS paso a paso
Transformación de Información
Transformación de Datos con AWS Glue: ETL y Catálogo de Metadatos
Instalación y Configuración de Apache Zeppelin para AWS Glue
Configuración de Developer Endpoint en AWS Glue para Apache Zeppelin
Conexión y configuración de Apache Zeppelin para ETL en AWS
Creación de un ETL con AWS Glue: Crawlers y Catalogación de Datos
Configuración y Ejecución de ETL en AWS Glue paso a paso
Creación y Ejecución de ETL con AWS Glue y S3
Procesamiento de Datos con EMR en AWS
Creación de un clúster EMR en AWS paso a paso
Conexión y Configuración de Zeppelin en Clúster EMR
Automatización de Clústeres EMR con Plantillas de CloudFormation
AWS Lambda en Proyectos de Big Data en Tiempo Real
Uso de Lambda en Arquitecturas de Big Data Real Time y Batch
Configuración de Funciones Lambda para Big Data en AWS
Carga de Información
Consultas SQL en Big Data con AWS Athena y S3
Consultas SQL en S3 con AWS Athena y Glue Catalog
AWS Redshift: Almacenamiento y Análisis de Datos Masivos
Configuración de Amazon Redshift en AWS paso a paso
Lake Formation: Automatización y Seguridad en Gestión de Data Lakes
Consumo de información
Implementación de Elasticsearch en AWS: Búsqueda y Visualización
Despliegue de Clúster Elasticsearch en AWS Paso a Paso
Visualización de Datos con Kibana y Elasticsearch en AWS
Visualización de Datos en AWS con QuickSight
Habilitación y uso de QuickSight en AWS
Seguridad, Orquestación y Automatización
Seguridad en Big Data con AWS: Cifrado, Permisos y Monitoreo
Seguridad de Datos en AWS con Amazon Macie
Habilitación y Configuración de AWS Macie para Gestión de Datos Seguros
Orquestación de ETLs con Apache Airflow y Python en Big Data
Despliegue y Orquestación de Tareas con Google Cloud Composer
Arquitecturas de Big Data en Cloud: Batch y Tiempo Real
Clase pública
Fundamentos de Big Data: Volumen, Velocidad, Variedad, Veracidad y Valor
No tienes acceso a esta clase
¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera
Conectar tu entorno de desarrollo local a un Developer Endpoint en AWS puede ser un poco desafiante si no se tiene experiencia previa, pero con estos pasos podrás configurarlo adecuadamente y sacar el máximo provecho a la capacidad de procesamiento de datos en la nube.
Primero, debes asegurarte de que tu developer endpoint esté en estado "ready". Desde el panel de conexión en AWS, toma nota de la dirección y detalles que necesitarás para hacer la conexión desde tu entorno local, Apache Zeppelin.
Para trabajar con Spark desde Apache Zeppelin, lo que necesitas hacer es muy sencillo. Sigue estos pasos:
Interpreters
.Edit
.master
en yarn client
. Si en las propiedades aparece Spark executor memory
o Spark driver memory
, elimínalas.connect to existing process
y establece localhost
como host por el puerto 9007
.El siguiente paso es establecer la conexión SSH. Esto implica abrir un túnel entre tu máquina local y el developer endpoint. Aquí cómo:
Después de establecer la conexión y verificar la ejecución de comandos básicos, puedes comenzar a utilizar la poderosa interfaz de Apache Zeppelin para realizar análisis más complejos.
Con este proceso, básicamente estás armando un entorno de trabajo robusto donde pueden analizarse grandes volúmenes de datos, permitiendo un análisis en tiempo real y un testing eficaz antes de pasar cualquier desarrollo a producción.
¿Listo para experimentar más con tus datos en la nube? ¡Continúa explorando y no dejes de aprender! El mundo de la transformación de datos es vasto y siempre hay algo nuevo por descubrir.
Aportes 8
Preguntas 2
Si quieren cerrar el intérprete de Spark y la sesión de SSH que iniciaron en este video es con la función exit() o Ctrl+D.
Amigo, si estan usando windows, arroja problemas al momento de ingresar la llave publica ssh.
Se debe pusar putty para crear las ssh.
Dejo aquí la documentación usada, para mas referencia.
https://docs.aws.amazon.com/es_es/glue/latest/dg/dev-endpoint-tutorial-prerequisites.html
buenas… si comienzo a usar este servicio (Zeppelin), como serian los cobros al usarlo con AWS ??
Gracias, pude conectar mi zeppelin local con la nube
interesante
apache zeppelin > localhost:8080
usar CLI para comandos
1- conexion de zeppelin con dev endpoint
2 usar scala y python
3 mayor analitica
usar los ETL extract transform and Loads
¿Quieres ver más aportes, preguntas y respuestas de la comunidad?