HA en AWS y estrategias
Clase 66 de 69 • Curso de AWS Certified Solutions Architect Associate
Resumen
La recuperación ante desastres es un componente esencial de cualquier arquitectura de soluciones en la nube. Como arquitecto de AWS, entender las diferentes estrategias disponibles no solo te preparará para situaciones críticas, sino que también es fundamental para aprobar el examen de certificación. Los conceptos de RPO y RTO, junto con las diversas estrategias de recuperación, conforman el núcleo del conocimiento necesario para implementar sistemas resilientes que protejan la continuidad del negocio frente a eventos imprevistos.
¿Qué son RPO y RTO en la recuperación ante desastres?
Cuando hablamos de recuperación ante desastres, hay dos métricas críticas que definen nuestros objetivos: RPO y RTO. Estos conceptos aparecen frecuentemente en el examen de certificación de AWS y son fundamentales para diseñar estrategias efectivas.
Recovery Point Objective (RPO) representa el tiempo máximo o la cantidad máxima de datos que podemos permitirnos perder en caso de un desastre. Para cargas de trabajo críticas donde no podemos permitirnos perder ningún dato, necesitaremos un RPO muy corto, lo que requiere copias de seguridad frecuentes para poder retroceder en el tiempo a puntos específicos.
Recovery Time Objective (RTO) indica la cantidad máxima de tiempo que podemos tolerar que nuestros sistemas estén inactivos o que alguna funcionalidad de nuestra aplicación no esté disponible. Este tiempo debe ser aceptable tanto para nuestra organización como para nuestros clientes.
Una vez establecidos estos objetivos para nuestras cargas de trabajo en AWS, podemos proceder a seleccionar la estrategia más adecuada para cada caso.
¿Cuáles son las principales estrategias de recuperación ante desastres en AWS?
AWS ofrece múltiples enfoques para implementar la recuperación ante desastres, cada uno con diferentes niveles de costo, complejidad y tiempos de recuperación.
Estrategia de backups
Esta es la estrategia más básica y consiste simplemente en tener copias de seguridad de nuestros datos críticos:
- Backups de bases de datos
- Backups de flujos que ejecutan nuestras instancias EC2
- Copias de seguridad de datos almacenados en S3
La principal limitación de este enfoque es que, en caso de desastre, requerimos intervención manual para recrear nuestro entorno utilizando estos backups. Esto implica:
- Un RPO que dependerá de la frecuencia de nuestras copias de seguridad
- Un RTO relativamente alto, que puede extenderse desde varios minutos hasta horas
Estrategia Pilot Light
Como su nombre sugiere, esta estrategia mantiene una "luz piloto" encendida en un entorno secundario. Por ejemplo:
- Nuestra región principal puede estar en Oregon con todas nuestras cargas de trabajo activas
- En Virginia tendremos una base de datos replicada pero las instancias de cómputo estarán preconfiguradas pero apagadas
En caso de desastre, podemos realizar un failover de la base de datos a la región secundaria y activar manualmente las instancias de procesamiento. Esto resulta en:
- Un RTO más bajo que la estrategia de backups
- Tiempo de recuperación aún en el orden de minutos debido a la activación manual requerida
Estrategia Warm Standby
Esta estrategia es más robusta y mantiene no solo la base de datos sino también instancias de cómputo activas en la región secundaria:
- En la región de respaldo (Virginia en nuestro ejemplo) mantenemos instancias preconfiguradas y activas
- Estas instancias tienen menor capacidad que en la región principal (por ejemplo, 10 instancias en lugar de 50)
Las ventajas incluyen:
- Capacidad inmediata para aceptar tráfico básico durante un evento
- Posibilidad de escalar según sea necesario después del failover
- RTO reducido a pocos minutos, aunque con mayor costo operativo
Estrategia Multi-Site Active-Active
Esta es la estrategia más completa y costosa:
- Replicación exacta de todas nuestras cargas de trabajo entre la región principal y la secundaria
- Mismo número y capacidad de instancias en ambas regiones
- Failover automático en cuestión de segundos
Los costos prácticamente se duplican con esta estrategia, pero ofrece el RTO más bajo posible, permitiendo una transición casi imperceptible en caso de desastre.
¿Cómo elegir la estrategia adecuada para tu caso de uso?
La selección de una estrategia de recuperación ante desastres debe basarse en un análisis cuidadoso de varios factores:
- La criticidad de la carga de trabajo
- Los requisitos de RPO y RTO establecidos
- El presupuesto disponible para implementar la solución
- La capacidad técnica del equipo para manejar la complejidad
Para cargas de trabajo extremadamente críticas donde cada segundo cuenta, una estrategia Multi-Site Active-Active puede ser la única opción viable a pesar de su costo. Para aplicaciones menos críticas, un enfoque Pilot Light o incluso una estrategia basada en backups podría ser suficiente.
El examen de certificación de AWS evaluará tu capacidad para recomendar la estrategia óptima según los requisitos específicos de cada escenario, por lo que es fundamental comprender las ventajas y limitaciones de cada enfoque.
Las estrategias de recuperación ante desastres son esenciales para garantizar la continuidad del negocio en un mundo donde los sistemas digitales son el núcleo de la mayoría de las operaciones. Comprender los conceptos de RPO y RTO, así como las diferentes opciones disponibles en AWS, te permitirá diseñar arquitecturas robustas y resilientes adaptadas a las necesidades específicas de cada carga de trabajo. ¿Cuál es la carga de trabajo más crítica en tu empresa y qué estrategia implementarías para protegerla?