Storage Gateway: puerta entre on-premise y S3

Clase 13 de 52Curso de Big Data en AWS

Resumen

¿Necesitas llevar datos y logs desde tu entorno on-premise a AWS sin fricción? Con AWS Storage Gateway puedes crear una puerta de enlace simple entre tu data center y la nube, enviando datos a Amazon S3 para habilitar transformación en tiempo real y procesamiento por lotes. Aquí verás cómo funciona y qué opciones de procesamiento activa para big data.

¿Qué es Storage Gateway y para qué se usa?

Storage Gateway ofrece una forma práctica de mandar información desde un data center on-premise a la nube. Es especialmente útil cuando una aplicación on-premise genera logs que quieres llevar a AWS para comenzar proyectos de transformación y visualización de datos.

  • Caso de uso clave: enviar logs de aplicaciones on-premise a AWS para análisis posterior.
  • Beneficio inmediato: datos centralizados en S3 para activar flujos de procesamiento.
  • Resultado: base sólida para procesamiento y tratamiento de datos según tus necesidades.

¿Cuándo enviar logs a AWS con Storage Gateway?

  • Cuando tu aplicación corre on-premise y quieres consolidar logs en S3.
  • Cuando necesitas automatizar la transformación con funciones y trabajos gestionados.
  • Cuando buscas escalar el procesamiento sin mover tu aplicación de on-premise.

¿Cómo se implementa Storage Gateway en un data center?

La implementación es directa: descargas una imagen, usualmente un archivo VMDK para VMware, la instalas como máquina virtual en tu data center y actúa como puente entre on-premise y nube.

  • Descarga de imagen: formato VMDK para VMware.
  • Despliegue local: máquina virtual que hace de puerta de enlace.
  • Envío de datos: conexión de la aplicación a través de NFS hacia Storage Gateway.
  • Destino en la nube: Storage Gateway manda todos los datos a Amazon S3.

¿Qué papel cumple NFS en la arquitectura?

  • Provee una conexión simple entre la aplicación on-premise y Storage Gateway.
  • Permite que los datos producidos por los usuarios fluyan hacia S3 sin cambios en la app.

¿Qué procesamiento en S3 habilita para big data?

Una vez en S3, puedes activar servicios para transformar y procesar la información. Esto habilita escenarios real time y batch con herramientas nativas de AWS.

¿Cómo activar Lambda para transformación en tiempo real?

  • Configura una función Lambda que se ejecute cada vez que llegue un objeto nuevo a S3.
  • Aplica transformaciones inmediatas para casos de tiempo real.

¿Qué opciones por lotes hay con EMR y Glue?

  • Cluster de EMR nocturno: toma datos de S3, los procesa y deja el resultado en otro bucket.
  • Job de Glue (ETL): extrae, transforma y carga datos desde S3 hacia otro origen de datos.

En síntesis, Storage Gateway es una alternativa directa para mandar logs desde on-premise hacia la nube y, con los datos en S3, habilitar Lambda, EMR y Glue para transformar y orquestar tus flujos de big data.

¿Tienes un entorno on-premise y quieres llevar tus logs a AWS con Storage Gateway? Cuéntame tu caso y qué procesamiento buscas activar en S3.