Storage Gateway: puerta entre on-premise y S3
Clase 13 de 52 • Curso de Big Data en AWS
Contenido del curso
Arquitecturas
Extracción de información
- 9

Cómo mover datos a cloud con SDK y CLI
02:21 min - 10

Python y boto3 para listar buckets S3
10:16 min - 11

Boto3: inicializar clients de AWS en Python
03:56 min - 12

API Gateway como puerta de big data
03:40 min - 13

Storage Gateway: puerta entre on-premise y S3
Viendo ahora - 14

AWS Kinesis: streaming masivo de datos
05:53 min - 15

Cómo crear Kinesis Data Stream en AWS
06:50 min - 16

Despliegue automatizado de Kinesis con CloudFormation
10:42 min - 17

Cómo Kinesis Firehose entrega datos en tiempo real
03:27 min - 18

Configuración de Kinesis Firehose en AWS
05:45 min - 19
Configuración Básica de Amazon Kinesis Firehose en AWS
02:53 min - 20

MSK vs Kinesis: cuál elegir en AWS
03:42 min - 21

Creación de clúster AWS MSK desde la consola
07:21 min
Transformación de Información
- 22

Cómo AWS Glue transforma datos en la nube
06:33 min - 23

Instalación de Apache Zeppelin paso a paso
04:49 min - 24

Configurar developer endpoint de AWS Glue con Zeppelin
05:38 min - 25

Conexión de Apache Zeppelin con AWS
08:29 min - 26

Configurar AWS Glue Crawler para poblar catálogo
08:15 min - 27

Configuración de Developer Endpoint en AWS Glue
08:00 min - 28

Cómo configurar AWS Glue ETL desde S3 a Parquet
10:23 min - 29

Qué es EMR y cuándo usarlo
05:30 min - 30

Crear tu primer cluster de AWS EMR
09:01 min - 31

Conectar Apache Zeppelin a EMR
03:18 min - 32

EMR automatizado con CloudFormation
06:32 min - 33

AWS Lambda para proyectos de big data
07:02 min - 34

Lambdas en big data: real time y batch
04:54 min - 35

Configuración de AWS Lambda para Big Data
07:16 min
Carga de Información
Consumo de información
Seguridad, Orquestación y Automatización
Clase pública
¿Necesitas llevar datos y logs desde tu entorno on-premise a AWS sin fricción? Con AWS Storage Gateway puedes crear una puerta de enlace simple entre tu data center y la nube, enviando datos a Amazon S3 para habilitar transformación en tiempo real y procesamiento por lotes. Aquí verás cómo funciona y qué opciones de procesamiento activa para big data.
¿Qué es Storage Gateway y para qué se usa?
Storage Gateway ofrece una forma práctica de mandar información desde un data center on-premise a la nube. Es especialmente útil cuando una aplicación on-premise genera logs que quieres llevar a AWS para comenzar proyectos de transformación y visualización de datos.
- Caso de uso clave: enviar logs de aplicaciones on-premise a AWS para análisis posterior.
- Beneficio inmediato: datos centralizados en S3 para activar flujos de procesamiento.
- Resultado: base sólida para procesamiento y tratamiento de datos según tus necesidades.
¿Cuándo enviar logs a AWS con Storage Gateway?
- Cuando tu aplicación corre on-premise y quieres consolidar logs en S3.
- Cuando necesitas automatizar la transformación con funciones y trabajos gestionados.
- Cuando buscas escalar el procesamiento sin mover tu aplicación de on-premise.
¿Cómo se implementa Storage Gateway en un data center?
La implementación es directa: descargas una imagen, usualmente un archivo VMDK para VMware, la instalas como máquina virtual en tu data center y actúa como puente entre on-premise y nube.
- Descarga de imagen: formato VMDK para VMware.
- Despliegue local: máquina virtual que hace de puerta de enlace.
- Envío de datos: conexión de la aplicación a través de NFS hacia Storage Gateway.
- Destino en la nube: Storage Gateway manda todos los datos a Amazon S3.
¿Qué papel cumple NFS en la arquitectura?
- Provee una conexión simple entre la aplicación on-premise y Storage Gateway.
- Permite que los datos producidos por los usuarios fluyan hacia S3 sin cambios en la app.
¿Qué procesamiento en S3 habilita para big data?
Una vez en S3, puedes activar servicios para transformar y procesar la información. Esto habilita escenarios real time y batch con herramientas nativas de AWS.
¿Cómo activar Lambda para transformación en tiempo real?
- Configura una función Lambda que se ejecute cada vez que llegue un objeto nuevo a S3.
- Aplica transformaciones inmediatas para casos de tiempo real.
¿Qué opciones por lotes hay con EMR y Glue?
- Cluster de EMR nocturno: toma datos de S3, los procesa y deja el resultado en otro bucket.
- Job de Glue (ETL): extrae, transforma y carga datos desde S3 hacia otro origen de datos.
En síntesis, Storage Gateway es una alternativa directa para mandar logs desde on-premise hacia la nube y, con los datos en S3, habilitar Lambda, EMR y Glue para transformar y orquestar tus flujos de big data.
¿Tienes un entorno on-premise y quieres llevar tus logs a AWS con Storage Gateway? Cuéntame tu caso y qué procesamiento buscas activar en S3.