S3

Clase 34 de 69 • Curso de AWS Certified Solutions Architect Associate

Contenido del curso

Fundamentos de AWS

Identidad, Acceso y Gobernanza Multicuenta

Servicios de Computo en AWS

Contenedores en AWS

Redes en AWS

Escalamiento y balanceo en AWS

Almacenamiento en AWS

Bases de datos en AWS

Migración en AWS

Monitoreo y Auditoria en AWS

DNS y CDN en AWS

Servicios de Seguridad

Serverless

Servicios de Datos en AWS

Servicios de AI y ML em AWS

64
Servicios de inteligencia artificial de AWS explicados
04:10 min

Servicios de Backup y Recuperación ante desastres

Architect Solutions Certificate

Tomar examen

Resumen

La gestión eficiente de datos a escala global es un desafío cada vez más común para empresas que operan en múltiples ubicaciones geográficas. Amazon S3 se posiciona como una solución robusta para el almacenamiento y la transferencia de grandes volúmenes de información, ofreciendo características que la hacen ideal para empresas con necesidades de recopilación y agregación de datos distribuidos globalmente.

¿Qué es Amazon S3 y cuáles son sus características principales?

Amazon S3 (Simple Storage Service) es una de las primeras soluciones que AWS ofreció públicamente, diseñada específicamente para almacenar objetos de forma escalable y duradera. Este servicio permite guardar prácticamente cualquier tipo de archivo con un límite de hasta 5 terabytes por objeto.

Entre sus características más destacadas se encuentran:

Alta durabilidad: Garantiza una durabilidad de "11 nueves", lo que significa que, en promedio, solo se perdería un archivo de cada 10,000 cada 10 millones de años.
Disponibilidad global: A diferencia de otros servicios de AWS que están vinculados a regiones específicas, S3 funciona como un servicio global.
Seguridad robusta: Ofrece opciones avanzadas de cifrado y control de acceso.
Conformidad normativa: Ayuda a cumplir con diversos estándares de compliance que pueda requerir una organización.

Cuando trabajamos con S3, organizamos nuestros datos en "buckets" (contenedores), que pueden crearse en diferentes regiones según nuestras necesidades de latencia y cumplimiento normativo.

¿Cómo funcionan los diferentes niveles de almacenamiento en S3?

Amazon S3 ofrece diversos tiers o capas de almacenamiento que se adaptan a diferentes patrones de acceso y presupuestos:

Standard: Es el nivel predeterminado, ofrece la recuperación más rápida pero con mayor costo. Ideal para datos de acceso frecuente.
Standard-IA (Infrequent Access): Proporciona acceso rápido pero a menor costo, con menor durabilidad que Standard.
Glacier: Conjunto de niveles diseñados para almacenamiento a largo plazo:
- Instant Retrieval: Permite obtener datos en milisegundos a bajo costo.
- Flexible Retrieval: Recuperación de datos entre minutos y hasta 12 horas.
- Deep Glacier: El más económico, con tiempos de recuperación entre 12 y 48 horas.

Una práctica común en organizaciones es implementar políticas de ciclo de vida (Life Cycle Policies) que automatizan el movimiento de datos entre estos niveles. Por ejemplo, un banco podría mantener los estados de cuenta de los últimos tres meses en Standard para acceso rápido, moverlos a Standard-IA después de ese período, y finalmente trasladarlos a Glacier después de un año.

¿Qué capacidades especiales ofrece S3 para casos de uso específicos?

Amazon S3 incluye varias funcionalidades diseñadas para abordar desafíos específicos en la gestión de datos:

Multipart Upload para archivos grandes

Esta característica resulta esencial cuando trabajamos con archivos de gran tamaño. Divide automáticamente los archivos en fragmentos más pequeños y los sube de forma paralela, lo que proporciona dos beneficios clave:

Mayor velocidad de carga
Capacidad de reanudar cargas desde el último punto exitoso en caso de interrupciones de red

Transfer Acceleration para optimizar la transferencia

Esta funcionalidad establece rutas dedicadas y optimizadas para subir o descargar archivos con mayor rapidez, ideal para escenarios donde la velocidad de transferencia es crítica.

Replicación para alta disponibilidad

S3 permite replicar objetos entre buckets, ya sea dentro de la misma región o en regiones diferentes. Esta capacidad resulta invaluable para organizaciones con estrictos requisitos de disponibilidad o necesidades de recuperación ante desastres.

¿Cómo garantiza S3 la seguridad y el cumplimiento normativo?

La seguridad es un aspecto fundamental en S3, que ofrece múltiples capas de protección:

Opciones de cifrado

Cifrado predeterminado: Todos los datos se cifran en reposo usando claves gestionadas por AWS.
Cifrado personalizado: Posibilidad de utilizar claves gestionadas por el cliente mediante Amazon KMS.

Control de versiones y protección de datos

Versionamiento: Permite mantener múltiples versiones de un mismo objeto, facilitando la recuperación en caso de eliminaciones o modificaciones accidentales.
Object Lock: Evita que los objetos sean modificados o eliminados durante un período específico, lo que resulta esencial para cumplir con requisitos normativos que exigen inmutabilidad de datos.

Control de acceso granular

S3 proporciona mecanismos detallados para gestionar quién puede acceder a qué datos:

Políticas de bucket: Similar a las políticas IAM, permiten definir reglas de acceso basadas en identity, action, resource y condition.
ACLs (Listas de Control de Acceso): Ofrecen control a nivel de objeto o ruta.
Bloqueo de acceso público: Configuración que previene la exposición accidental de datos.

Estas capacidades permiten implementar el principio de privilegio mínimo, concediendo acceso solo a quienes realmente lo necesitan.

¿Cómo se configura y gestiona un bucket de S3 en la práctica?

La creación y configuración de un bucket en S3 implica varios pasos importantes:

Creación básica: Asignar un nombre único globalmente y seleccionar la región donde residirá físicamente.
Configuración de permisos:
- Habilitar o deshabilitar el acceso público
- Configurar políticas de bucket y ACLs
- Establecer roles de servicio si es necesario
Optimización de costos:
- Implementar Intelligent Tiering para mover automáticamente objetos entre niveles según patrones de acceso
- Configurar reglas de ciclo de vida para transicionar datos a niveles más económicos
- Establecer políticas de expiración para eliminar datos obsoletos
Monitoreo y análisis:
- Revisar métricas de uso y acceso
- Analizar patrones de almacenamiento para optimizar costos
Funcionalidades adicionales:
- Configurar el bucket para alojar un sitio web estático
- Habilitar notificaciones de eventos
- Configurar replicación entre regiones

Amazon S3 ofrece un conjunto completo de herramientas para gestionar datos a gran escala, adaptándose a las necesidades específicas de cada organización.

La comprensión profunda de las capacidades de Amazon S3 es fundamental para cualquier profesional de AWS, permitiendo diseñar soluciones eficientes y rentables para el almacenamiento y distribución de datos. Estas funcionalidades hacen posible implementar arquitecturas robustas que cumplen con requisitos de rendimiento, seguridad y conformidad normativa. ¿Qué características de S3 consideras más relevantes para tus proyectos? Te invito a compartir tu experiencia en los comentarios.

Comentarios

Gustavo Bautista Hernández

student•

La respuesta correcta es la Opción A:

"Activar la aceleración de transferencia de S3 en el bucket de S3 de destino. Utilizar cargas multiparte para cargar directamente los datos del sitio al bucket de S3 de destino."

¿Por qué es la respuesta correcta?

Esta solución cumple perfectamente con todos los requisitos del escenario:

S3 Transfer Acceleration: Utiliza la red global de CloudFront Edge Locations de AWS para acelerar las transferencias desde ubicaciones geográficamente distantes. Los datos se cargan al Edge Location más cercano y luego viajan por la red optimizada de AWS hasta el bucket de destino.
Cargas Multiparte: Permite subir archivos grandes (500 GB) dividiéndolos en partes más pequeñas que se cargan en paralelo, aumentando la velocidad y permitiendo re-intentos de partes individuales en caso de fallo.
Simplicidad operativa: Es una solución directa que solo requiere:
- Activar Transfer Acceleration en el bucket
- Usar un endpoint especial para las cargas
- Implementar multipart upload (soportado por AWS SDKs)
Carga directa: Los datos van directamente desde cada sitio al bucket final de S3, sin pasos intermedios innecesarios.
Velocidad óptima: Transfer Acceleration puede mejorar la velocidad de transferencia entre 50-500% dependiendo de la distancia geográfica.

¿Por qué las otras opciones no son correctas?

Opción B - "Cargar los datos de cada sitio a un bucket de S3 en la región más cercana. Utilizar la replicación entre regiones...":

Menos eficiente: Requiere dos pasos (carga a bucket regional + replicación)
Mayor complejidad: Necesitas gestionar múltiples buckets regionales
No es más rápido: La replicación de S3 no es instantánea, añade tiempo extra
Mayor costo: Pagas por almacenamiento en múltiples regiones y por la replicación
Contradice el requisito: "minimizar la complejidad operativa"

Opción C - "Programar diariamente trabajos de dispositivos optimizados para almacenamiento perimetral de AWS Snowball...":

Extremadamente complejo: Requiere gestionar dispositivos físicos Snowball en múltiples ubicaciones
No es "lo más rápido posible": Snowball requiere envío físico de dispositivos, lo cual toma días/semanas
Alto costo operativo: Necesitas personal para gestionar los dispositivos en cada sitio
Innecesario: Snowball está diseñado para transferencias masivas cuando la red es insuficiente o inexistente, pero el enunciado dice que cada sitio tiene "conexión a Internet de alta velocidad"

Opción D - "Cargue los datos de cada sitio a una instancia de Amazon EC2... Almacene los datos en un volumen de Amazon Elastic Block Store (Amazon EBS)...":

Complejidad innecesaria: Añade un paso intermedio (EC2/EBS) que no aporta valor
Más lento: Los datos pasan por EC2 antes de llegar a S3
Mayor costo: Pagas por instancias EC2, volúmenes EBS y snapshots además de S3
Gestión operativa: Requiere administrar instancias EC2, snapshots y restauraciones
Contraproducente: Viola el principio de "minimizar la complejidad operativa"

Miguel Angel Reyes Moreno

student•

Dato importante, cuando dijo que el nombre del bucket es 'global' se refiere a que NO pueden haber 2 buckets con el mismo nombre en el mundo (o en todo AWS).

Miguel Angel Reyes Moreno

student•

Matías Daniel Cravero

student•

La respuesta A parece ser la más adecuada para este caso.

S3

Fundamentos de AWS

Certificación AWS Solutions Architect Associate: Fundamentos y Preparación

Preparación para certificación AWS Arquitecto de Soluciones

Configuración de presupuestos en AWS para controlar costos

AWS Well Architected Framework: Los 6 pilares para arquitectura sólida

Identidad, Acceso y Gobernanza Multicuenta

IAM: Primeros Pasos en AWS

Creación de usuarios administrador y practicante en AWS IAM

Profundización en IAM

Análisis de accesos externos con AWS Access Analyzer

AWS Organizations versus Control Tower para múltiples cuentas

Servicios de Computo en AWS

Servicios de cómputo AWS: EC2, procesadores Graviton y AMIs

Opciones de Compra en EC2

Lanzamiento de una instancia EC2 desde la consola de AWS

Caracteristicas adicionales de EC2

Consulta de metadatos de instancia con IMDS v2 en AWS

AWS Outpost para ejecutar servicios localmente con latencia baja

Despliegue de aplicaciones web con AWS Elastic Beanstalk

Contenedores en AWS

Contenedores

Gestión de imágenes de contenedores con ECR y Fargate

Configuración de clusters, tareas y servicios en Amazon ECS

Redes en AWS

Direccionamiento IP y bloques CIDR para redes AWS

Anatomia y funcionamiento de la VPC

Configuración de instancias públicas y privadas con NAT Gateway

Seguridad de VPC con NACL y grupos de seguridad en AWS

Configuración de grupos de seguridad para instancias públicas

Conectividad híbrida en AWS: VPC Peering, Transit Gateway y Endpoints

Escalamiento y balanceo en AWS

Elastic Load Balancer (ELB) , tipos y caracteristicas

Configuración de balanceadores de carga en AWS para alta disponibilidad

Auto Scaling en AWS

Configuración de grupos de autoescalamiento en AWS

Almacenamiento en AWS

Introducción al modulo y niveles de almacenamiento

Diferencias entre Instance Store y EBS en AWS

EFS & FSx

Creación y configuración de volúmenes EBS en AWS

S3

Configuración de EFS para compartir almacenamiento entre instancias

Recuperación de objetos eliminados con versionamiento en AWS S3

Bases de datos en AWS

Bases de datos relacionales vs no relacionales en AWS

DynamoDB

Creación y configuración de bases de datos Dynamo en AWS

Elasticache y DAX

Escalabilidad y alta disponibilidad con AWS RDS y Aurora

Configuración de Aurora en AWS RDS para alta disponibilidad

Migración en AWS

Estrategias de migración AWS: las 6 R para trasladar aplicaciones

Online

Migración de datos con AWS Snow Family: opciones y características

Migración de bases de datos con DMS y Schema Conversion Tool

Monitoreo y Auditoria en AWS

CloudTrail y EventBridge para auditoría y automatización en AWS

Monitoreo con AWS CloudWatch: dashboards, métricas y alarmas

DNS y CDN en AWS

Zonas locales y de borde de AWS para baja latencia

CloudFront y Global Accelerator para optimizar latencia y velocidad

Route 53

Configuración de políticas de geoproximidad en AWS Route 53

Servicios de Seguridad

KMS & CloudHSM

Protección contra ataques DDoS y web con AWS Shield y WAF

Guarduty & Inspector & Detective & Trusted advisor

GuardDuty y Trusted Advisor para detectar amenazas en AWS

Serverless

API Gateway y AWS Lambda: fundamentos para aplicaciones serverless

Creación y configuración de funciones Lambda para automatización

AWS SQS: Tipos de filas y configuración para arquitecturas serverless

AWS SNS y Step Functions para comunicación y workflows visuales

Servicios de Datos en AWS

Servicios de datos principales en AWS para análisis empresarial

Kinesis, EMR, Glue

Redshift, Athena, Lake formation

Servicios de AI y ML em AWS

Servicios de inteligencia artificial de AWS explicados