Transfer Acceleration para datos globales en S3

Curso de AWS Certified Solutions Architect Associate

Contenido del curso

Fundamentos de AWS

Identidad, Acceso y Gobernanza Multicuenta

Servicios de Computo en AWS

Contenedores en AWS

Redes en AWS

Escalamiento y balanceo en AWS

Almacenamiento en AWS

Bases de datos en AWS

Migración en AWS

Monitoreo y Auditoria en AWS

DNS y CDN en AWS

Servicios de Seguridad

Serverless

Servicios de Datos en AWS

Servicios de AI y ML em AWS

64
Servicios de IA y ML en AWS
04:09 min

Servicios de Backup y Recuperación ante desastres

Architect Solutions Certificate

Tomar examen

Transfer Acceleration para datos globales en S3

Resumen

Si trabajas con AWS y necesitas almacenar archivos a escala global, Amazon S3 es el servicio que debes dominar primero. Aquí descubrirás qué es S3, cómo funcionan sus capas de almacenamiento, sus opciones de seguridad y cómo resolver casos reales como agregar datos de múltiples continentes en un solo bucket.

¿Qué es Amazon S3 y por qué es un servicio global?

Amazon S3 es el servicio de AWS para guardar objetos, entendiendo por objeto prácticamente cualquier tipo de archivo. Fue uno de los primeros servicios públicos de AWS y permite almacenamiento escalable, duradero y seguro [1:30].

A diferencia de la mayoría de servicios de AWS que están atados a una región, S3 es un servicio global. Lo que sí tiene región son los buckets, que son los contenedores donde guardas tus objetos. Puedes crear buckets en distintas regiones y replicarlos entre sí.

¿Cuál es el tamaño máximo de un objeto en S3? Hasta 5 terabytes por objeto, con una durabilidad de once nueves (99.999999999%). En promedio, perderías un archivo cada 10 millones de años con 10.000 archivos almacenados.

¿Cómo elegir entre los tiers de almacenamiento de S3?

S3 ofrece varias capas o tiers que van desde el acceso instantáneo hasta el archivado profundo. La elección depende de qué tan seguido necesitas leer los datos y cuánto estás dispuesto a pagar [2:50].

S3 Standard: capa por defecto, la más rápida y la más costosa.
S3 One Zone IA: acceso rápido con menor durabilidad, ideal para datos de respaldo.
Glacier Instant Retrieval: almacenamiento a bajo costo con recuperación en milisegundos.
Flexible Glacier: recuperación entre minutos y máximo 12 horas.
Deep Glacier (Deep Archive): el más económico, con tiempos de recuperación de 12 a 48 horas.

Un caso típico es el de un banco como Nexia Bank, que guarda los estados de cuenta de sus clientes. Los reportes recientes viven en Standard porque los clientes los consultan con frecuencia, pero después de tres meses se mueven a One Zone IA y, pasado un año, a Deep Glacier.

¿Qué es una life cycle policy en S3?

Una life cycle policy es una regla que mueve objetos automáticamente entre tiers según el tiempo transcurrido. Por ejemplo, día 0 en Standard, día 30 en Standard IA, día 60 en Glacier Instant Retrieval y día 120 en Deep Archive [13:40].

También puedes aplicar estas reglas a versiones no concurrentes, eliminando versiones antiguas para que no acumules espacio innecesario en el bucket.

¿Cómo subir archivos grandes y mover datos rápido en S3?

Cuando trabajas con archivos pesados o transferencias entre continentes, S3 incluye dos características clave: Multi-Part Upload y Transfer Acceleration.

Multi-Part Upload parte automáticamente los archivos grandes en pedazos pequeños y los sube en paralelo. Si la red falla en medio de la subida, retomas desde el último fragmento exitoso sin perder el progreso anterior [4:30].

Transfer Acceleration habilita rutas dedicadas y optimizadas para subir o descargar archivos mucho más rápido, aprovechando la red global de AWS [5:10].

¿Cómo agregar datos globales en un solo bucket S3 con mínima complejidad? Activa S3 Transfer Acceleration en el bucket de destino y usa Multi-Part Upload desde cada sitio. Así aprovechas las rutas optimizadas de AWS y subidas paralelas sin infraestructura adicional.

Esta combinación responde directamente a la pregunta del examen sobre recopilar 500 GB diarios desde múltiples continentes hacia un único bucket.

¿Qué hace seguro a Amazon S3?

La seguridad en S3 se construye en varias capas, y entender cada una te ayuda a cumplir con compliance bancario, financiero o regulatorio [6:40].

Cifrado en reposo por defecto con una llave manejada por AWS, o con tu propia llave usando Amazon KMS.
Versionamiento: guarda múltiples versiones del mismo objeto para recuperar cambios o eliminaciones.
Object Lock: bloquea un objeto para que no pueda ser modificado ni sobrescrito bajo ninguna circunstancia.
Bloqueo de acceso público: por defecto activado, evitando exposición accidental.
Políticas de bucket: similares a IAM, con principal, efecto, acción y recurso para control granular.

Object Lock es especialmente útil cuando regulaciones exigen mantener los datos write once, read many, garantizando inmutabilidad.

¿Cómo funciona la replicación de buckets?

La replicación de S3 permite copiar todos los objetos de un bucket a otro, dentro de la misma región o entre regiones distintas. Incluso puedes replicar entre cuentas diferentes si configuras bien los permisos [6:00].

Esto es vital cuando tu organización exige alta disponibilidad continua o necesita una estrategia de recuperación ante desastres.

¿Qué configuraciones avanzadas ofrece la consola de S3?

Al crear un bucket en la consola, puedes ajustar opciones que muchas veces pasan desapercibidas pero impactan costos y operación [8:20].

ACL (Access Control Lists): permisos por objeto o por path.
Intelligent-Tiering: AWS analiza patrones de acceso y mueve los objetos al tier más económico automáticamente.
Hosting estático: sirve páginas HTML, CSS y JS directamente desde el bucket, ahorrando cómputo.
Notificaciones: integra con EventBridge, SNS o Lambda cuando se agregan o eliminan objetos.
Access Points: puntos de entrada especiales para acceder al bucket de forma más rápida y segura.

Las métricas del bucket te muestran tamaño, cantidad de objetos y patrones de acceso, datos que puedes cruzar con servicios como Amazon Athena, QuickSight o Apache Spark para análisis profundos.

Ahora que conoces qué es un bucket, qué es un objeto, los tiers disponibles y las políticas de ciclo de vida, ¿cuál crees que es la solución correcta para agregar 500 GB diarios desde sitios globales en un único bucket S3? Déjame tu respuesta en los comentarios.

Gustavo Bautista Hernández

Estudiante

La respuesta correcta es la Opción A:

"Activar la aceleración de transferencia de S3 en el bucket de S3 de destino. Utilizar cargas multiparte para cargar directamente los datos del sitio al bucket de S3 de destino."

¿Por qué es la respuesta correcta?

Esta solución cumple perfectamente con todos los requisitos del escenario:

S3 Transfer Acceleration: Utiliza la red global de CloudFront Edge Locations de AWS para acelerar las transferencias desde ubicaciones geográficamente distantes. Los datos se cargan al Edge Location más cercano y luego viajan por la red optimizada de AWS hasta el bucket de destino.
Cargas Multiparte: Permite subir archivos grandes (500 GB) dividiéndolos en partes más pequeñas que se cargan en paralelo, aumentando la velocidad y permitiendo re-intentos de partes individuales en caso de fallo.
Simplicidad operativa: Es una solución directa que solo requiere:
- Activar Transfer Acceleration en el bucket
- Usar un endpoint especial para las cargas
- Implementar multipart upload (soportado por AWS SDKs)
Carga directa: Los datos van directamente desde cada sitio al bucket final de S3, sin pasos intermedios innecesarios.
Velocidad óptima: Transfer Acceleration puede mejorar la velocidad de transferencia entre 50-500% dependiendo de la distancia geográfica.

¿Por qué las otras opciones no son correctas?

Opción B - "Cargar los datos de cada sitio a un bucket de S3 en la región más cercana. Utilizar la replicación entre regiones...":

Menos eficiente: Requiere dos pasos (carga a bucket regional + replicación)
Mayor complejidad: Necesitas gestionar múltiples buckets regionales
No es más rápido: La replicación de S3 no es instantánea, añade tiempo extra
Mayor costo: Pagas por almacenamiento en múltiples regiones y por la replicación
Contradice el requisito: "minimizar la complejidad operativa"

Opción C - "Programar diariamente trabajos de dispositivos optimizados para almacenamiento perimetral de AWS Snowball...":

Extremadamente complejo: Requiere gestionar dispositivos físicos Snowball en múltiples ubicaciones
No es "lo más rápido posible": Snowball requiere envío físico de dispositivos, lo cual toma días/semanas
Alto costo operativo: Necesitas personal para gestionar los dispositivos en cada sitio
Innecesario: Snowball está diseñado para transferencias masivas cuando la red es insuficiente o inexistente, pero el enunciado dice que cada sitio tiene "conexión a Internet de alta velocidad"

Opción D - "Cargue los datos de cada sitio a una instancia de Amazon EC2... Almacene los datos en un volumen de Amazon Elastic Block Store (Amazon EBS)...":

Complejidad innecesaria: Añade un paso intermedio (EC2/EBS) que no aporta valor
Más lento: Los datos pasan por EC2 antes de llegar a S3
Mayor costo: Pagas por instancias EC2, volúmenes EBS y snapshots además de S3
Gestión operativa: Requiere administrar instancias EC2, snapshots y restauraciones
Contraproducente: Viola el principio de "minimizar la complejidad operativa"

Transfer Acceleration para datos globales en S3

Fundamentos de AWS

Certificación AWS Solutions Architect Associate: Fundamentos y Preparación

Preparación para certificación AWS Arquitecto de Soluciones

Configuración de presupuestos en AWS para controlar costos

Los 6 pilares del Well-Architected Framework

Identidad, Acceso y Gobernanza Multicuenta

Cómo evitar brechas de seguridad con IAM

Creación de usuarios administrador y practicante en AWS IAM

Gestión de cuentas con AWS Organizations

Detecta recursos AWS expuestos con Access Analyzer

Cómo gestionar múltiples cuentas AWS

Servicios de Computo en AWS

Servicios de cómputo AWS: EC2, procesadores Graviton y AMIs

Compute Savings Plan para EC2 y Lambda

Cómo lanzar tu primera instancia EC2

Optimizar latencia en EC2 con tenencia dedicada

Cómo consultar metadatos de EC2 con IMDSv2

AWS Outposts: ejecutar AWS en tu data center

Despliegue de app web en Elastic Beanstalk

Contenedores en AWS

Contenedores en AWS: ECS, EKS y ECR

Gestión de imágenes de contenedores con ECR y Fargate

Configuración de clusters, tareas y servicios en Amazon ECS

Redes en AWS

Direccionamiento IP y bloques CIDR para redes AWS

NAT Gateway para subredes privadas en AWS

Configuración de instancias públicas y privadas con NAT Gateway

NACL y Security Groups en AWS

Cómo reparar un Security Group en EC2

Conectividad híbrida en AWS: VPC Peering, Transit Gateway y Endpoints

Escalamiento y balanceo en AWS

Tipos de balanceadores de carga en AWS

Configuración de balanceadores de carga en AWS para alta disponibilidad

Autoescalamiento en EC2 con Auto Scaling Groups

Cómo crear un Auto Scaling Group en EC2

Almacenamiento en AWS

Tipos de almacenamiento en AWS: EBS, EFS y S3

Instance Store vs EBS en AWS

EFS vs FSx para compartir archivos en AWS

Creación y configuración de volúmenes EBS en AWS