Alta Disponibilidad y Tolerancia a Fallos en Arquitectura de Nube

Clase 21 de 27 • Curso de Introducción a la Nube

Contenido del curso

Introducción al curso

Cómo entender la nube

Introducción a Cloud Computing / Nube

Conceptos de Cloud Computing / Nube

Multi-Nube

Resumen

La importancia de la alta disponibilidad y la tolerancia a fallos en la arquitectura de nube es innegable para el éxito y la continuidad de cualquier aplicación moderna. Estos conceptos, aunque técnicos, tienen relevancia directa en la operatividad y resiliencia de los servicios en línea. A través de ejemplos como los proporcionados por Platzi Wallet, podemos entender cómo la implementación efectiva de alta disponibilidad y tolerancia a fallos es crítica para soportar incidentes inesperados minimizando la afectación a usuarios y negocios. Así pues, exploraremos estos conceptos y su impacto en la arquitectura de aplicaciones en la nube.

¿Qué es la alta disponibilidad?

La alta disponibilidad se refiere a la capacidad de una aplicación para seguir en funcionamiento aún cuando uno de sus componentes falle. Esta se logra desplegando la aplicación en al menos dos zonas de disponibilidad.

¿Cómo se relaciona con el RTO?

El Recovery Time Objective (RTO), o tiempo de recuperación objetivo, está intrínsecamente ligado a la alta disponibilidad. Determina el tiempo máximo que una aplicación puede estar inactiva tras un fallo sin impactar la continuidad del negocio.

Definición de RTO: El tiempo máximo tolerable de inactividad.
Costo asociado: A menor RTO, mayor es el costo asociado debido a la necesidad de redundancia y automatización.

¿Cómo se implementa la tolerancia a fallos?

La tolerancia a fallos es la capacidad de un sistema para seguir operando a pesar de fallas en sus componentes, manteniendo la disponibilidad sin degradar el servicio.

¿Dónde entra en juego el RPO?

El Recovery Point Objective (RPO), o punto de recuperación objetivo, es distinto al RTO y se centra en el volumen de datos que se está dispuesto a perder en un incidente antes de la restauración del servicio.

Ejemplo práctico: Si Platzi Wallet realiza backups de su base de datos cada dos horas, el RPO sería de dos horas.
Implicaciones técnicas y económicas: La exigencia de un RPO bajo aumenta la complejidad y el costo debido a la necesidad de sistemas avanzados de replicación.

¿Alta disponibilidad vs. tolerancia a fallos?

Mientras que la alta disponibilidad asegura el funcionamiento continuo de una aplicación, la tolerancia a fallos busca preservar tanto la disponibilidad como el rendimiento óptimo del servicio.

Consideraciones en arquitectura: Se debe planificar la arquitectura de la aplicación pensando en la posibilidad de fallas, procurando no afectar ni la disponibilidad ni la calidad del servicio.

Diseñando aplicaciones resilientes en la nube

Para que una aplicación sea sostenible y confiable, debe diseñarse pensando en la alta disponibilidad y la tolerancia a fallos. Esto se hace definiendo claramente los RTO y RPO para cada aplicación y probándolos dentro de una estrategia de recuperación de desastres.

Desafío: Define tus RTO y RPO

Para propulsar la resiliencia de tu aplicación, te retamos a definir el RTO y RPO de tu propia aplicación y, basado en estos parámetros, perfeccionar la arquitectura existente.

Explora estrategias de recuperación de desastres: Escoge una estrategia de disaster recovery que se alinee con los objetivos de RTO y RPO que has establecido.

La alta disponibilidad y la tolerancia a fallos no son conceptos aislados o estáticos, pero deben ser considerados como una parte esencial del diseño y la implementación en todo desarrollo de aplicaciones en la nube. Los ejemplos y conceptos presentados, como el RTO y RPO, proporcionan un marco de referencia esencial para garantizar que las aplicaciones no solo sobrevivan, sino que también prosperen ante cualquier adversidad. Continúa aprendiendo y profundizando en estos conceptos vitales para cualquier entorno en la nube, y no olvides aplicarlos en tus proyectos para crear soluciones robustas y confiables que reflejen tu compromiso con la excelencia en el servicio.

Comentarios

Javier Cómbita Téllez

student•

Alta Disponibilidad: Mantener un sistema funcionando incluso cuando ocurren problemas, minimizando el tiempo de inactividad y asegurando servicios continuos.

RTO (Tiempo de Recuperación Objetivo): El tiempo máximo deseado para que un sistema vuelva a funcionar después de una falla, reduciendo el impacto del tiempo de inactividad.
RPO (Punto de Recuperación Objetivo): La cantidad máxima de datos que una organización está dispuesta a perder en una interrupción, marcando cuán actualizados deben estar los datos recuperados.

Tolerancia a Fallos: La tolerancia a fallos es la capacidad de un sistema, aplicación o servicio para continuar funcionando de manera aceptable incluso cuando uno o varios componentes experimentan problemas o fallas. Implica diseñar sistemas de manera que sean capaces de manejar errores y problemas sin que todo el sistema se vea comprometido, lo que garantiza la disponibilidad y la continuidad de los servicios incluso en condiciones adversas.

Diego Fernando Ramos Aguirre

student•

Gracias por el aporte.

Patricio Sánchez Fernández

student•

Excelente, Javier...

José Pablo Cabrera Romo

student•

Las estrategias de recuperación ante desastres, conocidas como Disaster Recovery (DR), son fundamentales para garantizar la continuidad de los negocios y la protección de los datos en situaciones de emergencia. Aquí tienes algunas estrategias comunes de Disaster Recovery:

Copias de seguridad regulares: Realizar copias de seguridad de los datos críticos y almacenarlas en ubicaciones seguras, ya sea en servidores locales o en la nube. Las copias de seguridad deben ser automáticas y se deben probar de forma periódica para asegurarse de que se pueden restaurar correctamente.
Replicación de datos: Configurar la replicación en tiempo real o cerca de tiempo real de los datos críticos en servidores o centros de datos secundarios. Esto garantiza que siempre haya una copia actualizada de los datos disponibles.
Centros de datos secundarios o fuera del sitio: Mantener un centro de datos secundario o un sitio de recuperación ante desastres en una ubicación geográfica diferente. Esto protege los datos y sistemas en caso de desastres naturales o incidentes locales.
Virtualización y contenedores: Utilizar tecnologías de virtualización y contenedores para permitir la rápida implementación de sistemas y aplicaciones en servidores alternativos en caso de una falla en el servidor principal.
Plan de Continuidad de Negocios (BCP): Desarrollar un plan de continuidad de negocios que detalle cómo se debe actuar en caso de desastres. Esto debe incluir la asignación de funciones y responsabilidades, la comunicación con el personal y proveedores, y los pasos específicos para la recuperación.
Pruebas de recuperación ante desastres: Realizar pruebas periódicas de DR para asegurarse de que todos los procedimientos funcionen correctamente. Esto ayuda a identificar posibles problemas antes de que ocurra un desastre real.
Servicios de nube para DR: Utilizar servicios de nube como parte de su estrategia de DR. Muchos proveedores de nube ofrecen servicios específicos de recuperación ante desastres que pueden facilitar la recuperación y reducir los costos.
Recuperación de datos en tiempo real (RTO) y punto de recuperación (RPO): Definir objetivos claros para el tiempo de recuperación (cuánto tiempo puede pasar antes de que se restaure el servicio) y el punto de recuperación (cuántos datos se pueden perder). Estos objetivos varían según la crítica de la aplicación y los datos.
Almacenamiento resiliente: Utilizar tecnologías de almacenamiento resiliente, como RAID, para proteger los datos contra fallos de hardware.
Educación y capacitación del personal: Asegurarse de que el personal esté capacitado y preparado para responder adecuadamente a situaciones de recuperación ante desastres.

Es importante adaptar las estrategias de DR a las necesidades y presupuesto de su organización. Un enfoque adecuado para la recuperación ante desastres puede minimizar el tiempo de inactividad y proteger los activos críticos en caso de cualquier incidente inesperado.

Piero Nolte

student•

Excelente aporte!

Julian David Alzate Cuervo

student•

SLA es un documento que especifica todas las condiciones del servicio prestado, responsabilidades de cada una de las partes y las posibles soluciones en el caso de incumplimiento.

Lucas Rojas

student•

Alta Disponibilidad

💡 La disponibilidad se refiere al hecho de cuanto tiempo se encuentra un servicio disponible, para acceder al mismo.

¿Por qué perderíamos disponibilidad?

Problema en la red (Múltiples conexiones entre varios recursos).
Bug de una aplicación (Regularmente el responsable es el creador del software).
Falla del sistema (Ocurre cuando una VM corriendo un S.O. particular se torna como "NO DISPONIBLE").
Corte de energía.

💡 Alta disponibilidad: Contar con la mayor cantidad de tiempo de disponibilidad de nuestros recursos. ✅ Lo ideal es contar con la mayor cantidad de tiempo de disponibilidad en nuestros recursos. Los proveedores en la nube, brindan un Acuerdo de Nivel de Servicio (SLA) que garantiza cierto nivel de disponibilidad de los recursos con un porcentaje (%). Este acuerdo es muy cercano al 100%. 💯 Únicamente aplica para los recursos controlados por el proveedor. 🌐

Tolerancia a Fallos

💡 Tolerancia a Fallos Es la capacidad de permanecer en funcionamiento incluso en el caso de que un componente o servicio deje de funcionar.

Características:

Es la capacidad de un sistema para permanecer en funcionamiento.
Permite la redundancia de los datos permitiendo mayor disponibilidad.

Walter Omar Barrios Vazquez

student•

What is a Service Level Agreement (SLA)?

A service level agreement (SLA) is an outsourcing and technology vendor contract that outlines a level of service that a supplier promises to deliver to the customer. It outlines metrics such as uptime, delivery time, response time, and resolution time. An SLA also details the course of action when requirements are not met, such as additional support or pricing discounts. SLAs are typically agreed upon between a client and a service provider, although business units within the same company can also make SLAs with each other. Fuente: AWS

Alex Henrry Naupay Ferrer

student•

En el ejemplo de Alta disponibilidad: Hay aplicaciones en las 2 AZs (AZ1,AZ2), el balanceador de carga dónde está?

Carlos Andrés Zambrano Barrera

teacher•

el balanceador de carga esta en las subredes públicas balanceando el tráfico en las 2azs

Gildder Guerrero Ramirez

student•

El SLA (Service Level Agreement) es un acuerdo que define el nivel de servicio esperado entre un proveedor y un cliente, incluyendo métricas de rendimiento como tiempo de actividad y respuesta. Se relaciona con la tolerancia a fallos ya que un SLA bien definido establece expectativas sobre la disponibilidad continua, incluso en caso de fallas. Una aplicación tolerante a fallos debe cumplir con los SLAs, asegurando que, a pesar de fallos en componentes, el servicio se mantiene disponible y sin degradación significativa.

Enrique Rojas Reyes

student•

seria util que #Bancolombia tome esta clase jajajajaja

Mauricio Ruiz Rubio

student•

Diferencias entre DRP y BCP:

Jan Cobian

student•

¿Es posible evitar degradar el servicio?

Sí, es totalmente posible, y se logra mediante el sobreaprovisionamiento estratégico y el autoescalado rápido. La degradación ocurre cuando un componente falla y los componentes sobrevivientes se saturan por el tráfico reasignado.

Para evitarlo, en lugar de diseñar tu infraestructura con los recursos justos para operar en un día normal, debes diseñarla pensando en el peor escenario. Si necesitas 4 microservicios para atender a tus usuarios fluidamente, no pongas 2 en la Zona A y 2 en la Zona B. Si la Zona A cae, te quedarás solo con 2, degradando el servicio. La solución es colocar 4 en la Zona A y 4 en la Zona B. Aunque esto incrementa los costos operativos, garantiza que ante la pérdida total de un centro de datos, tu aplicación mantenga el 100% de su capacidad de respuesta. Es el precio a pagar por una verdadera tolerancia a fallos.

Osvaldo Chípuli

student•

Minimizar RTO (tiempo de recuperación) o RPO (pérdida de datos) implica arquitecturas más complejas, como replicación activo-activo entre regiones o backups muy frecuentes. Estas soluciones requieren duplicar recursos y la infraestructura necesaria, lo que aumenta exponencialmente los costos operativos, aunque aseguren mayor continuidad.

Rommer Batista

student•

Es importante entender que alta disponibilidad busca una recuperación eficiente y rápida post-fallo con redundancia. Tolerancia a fallos va un paso más allá, usando componentes duplicados activos en tiempo real para que una falla no genere interrupción perceptible, esencial en sistemas de misión crítica donde cada segundo cuenta.

Jose Luis Quintero Sánchez

student•

<u>Estrategias de recuperación en Azure</u>

Azure cuenta con 3 principales servicios para DRP:

Azure Backup 🗄️: Permite la generación de respaldos automatizados para protección de datos en la nube o en entornos locales. Puede realiza copias de seguridad de VM’s, databases y archivos, con modelos de recuperación rápida y retención a largo plazo; así como recuperación granular.
Azure Site Recovery 🔄: Solución de replicación y conmutación; permite replicar máquinas virtuales o servidores en regiones o sitios paralelos con conmutaciones automáticas o manuales. Adicionalmente permite realizar pruebas de recuperación a bajo impacto.
Azure Archive Storage 📂: Es una solución de almacenamiento a bajo costo para datos con acceso poco frecuente. Es muy utilizado para el almacenamiento de copas de seguridad.

Kevin Guzman

student•

Suponiendo que tengo mi aplicación ejemplo Nequi, tendría sin duda para mejorar el RTO, por lo menos tres zonas Az1, 2, 3, también usaría sin duda, Kubernetes en GCP, así pues usando contenedores para cada uno de mis servicios sean serverless o no, tendré un deamon que estará levantandome nuevas instancias en cuanto se caigan, también por medio de argo podría automatizar el despliegue e integración continua, así asegurando que mi aplicación estará recuperada en caso de que sea una cuestión de error humano y demás.

Para el RPO, usaría replicación dependiendo de qué tipo de BD tenga, e implementaría también un tema de bkps automáticos diarios, o sería mejor por medio de la cantidad de datos ingresados?, no sé cómo se podría hacer pero podría implementarse.

Gildder Guerrero Ramirez

student•

La alta disponibilidad y la tolerancia a fallos son conceptos fundamentales en arquitecturas de nube. La alta disponibilidad se refiere a la capacidad de una aplicación de seguir funcionando a pesar de fallos en componentes, lo que implica desplegarla en múltiples zonas de disponibilidad. Por otro lado, la tolerancia a fallos es la capacidad de un sistema de soportar fallas y mantener la disponibilidad sin degradar el servicio. En resumen, una aplicación puede ser altamente disponible sin ser tolerante a fallos, pero si es tolerante a fallos, automáticamente es altamente disponible.

Gildder Guerrero Ramirez

student•

La tolerancia a fallos es la capacidad de un sistema para continuar operando a pesar de la presencia de fallas en algunos de sus componentes. Esto implica que incluso si una parte del sistema falla, el sistema en su conjunto debe seguir funcionando sin interrupciones significativas. En el contexto de la nube, esto se relaciona estrechamente con la alta disponibilidad, ya que un sistema tolerante a fallos puede mantener la disponibilidad del servicio, aunque experimenta contratiempos en alguna de sus partes.

Gildder Guerrero Ramirez

student•

El RPO, o Recovery Point Objective, es el punto de recuperación objetivo en una estrategia de recuperación de desastres. Se refiere a la cantidad máxima de datos que una organización está dispuesta a perder en caso de una interrupción. Por ejemplo, si una base de datos se respalda cada 24 horas, el RPO sería de 24 horas, lo que implica que se podrían perder hasta 24 horas de datos en caso de una falla. Este concepto es clave para diseñar arquitecturas de alta disponibilidad y tolerancia a fallos en sistemas en la nube.

Gildder Guerrero Ramirez

student•

Para calcular el RTO (Recovery Time Objective) de una empresa de manera realista, se deben considerar varios factores:

Análisis de Impacto en el Negocio (BIA): Evalúa cuánto tiempo puede estar inactiva la empresa sin afectar gravemente su operación y finanzas.
Identificación de Procesos Críticos: Determina qué aplicaciones y servicios son esenciales para la continuidad del negocio.
Consultas con Stakeholders: Recopila información de los líderes de cada área sobre sus necesidades de recuperación.
Simulaciones y Pruebas: Realiza ejercicios para medir tiempos de recuperación en situaciones de desastre.
Documentación y Revisión Continua: Actualiza el RTO regularmente, ya que las necesidades pueden cambiar con el tiempo.

Este proceso asegura que el RTO sea realista y alineado con las necesidades estratégicas de la empresa.

Gildder Guerrero Ramirez

student•

El costo del RTO (Recovery Time Objective) en proveedores de Cloud se calcula considerando varios factores clave. Primero, debes definir el tiempo máximo que puedes permitir que tu aplicación esté inactiva sin afectar el negocio. Luego, evalúa los costos asociados con la infraestructura necesaria para cumplir ese RTO, incluyendo:

Recursos adicionales: Si necesitas mantener instancias activas en múltiples zonas, esto incrementa el costo.
Automatización: Implementar procesos de recuperación rápida puede requerir inversión en herramientas y soluciones de automatización.
Pruebas: Realizar simulaciones de recuperación también puede implicar costos operativos.

Al definir tu RTO, considera el nivel de servicio acordado con los proveedores de Cloud y ajusta tu arquitectura en consecuencia.

Gildder Guerrero Ramirez

student•

El RTO (Recovery Time Objective) es el tiempo máximo tolerable que una aplicación puede estar inactiva después de un fallo antes de que afecte la continuidad del negocio. En el contexto de Cloud Computing, es crucial definir el RTO para garantizar que las aplicaciones se recuperen rápidamente, minimizando el impacto en los usuarios y en la empresa. Por ejemplo, si tu RTO es de 10 minutos, tu estrategia de recuperación debe asegurarse de que la aplicación esté operativa nuevamente dentro de ese tiempo.

Alta Disponibilidad y Tolerancia a Fallos en Arquitectura de Nube

Introducción al curso

Fundamentos de Cloud Computing para Desarrolladores y Empresas

Aplicación de Billetera Virtual: Conceptos y Funcionalidades Básicas

Cómo entender la nube

Conceptos Básicos de Servidores y Almacenamiento en la Nube

Tipos de Bases de Datos en la Nube: Relacional, No Relacional y Más

Infraestructura como Código y Microservicios en la Nube

Comparación entre On-Premises y Nube para Aplicaciones Empresariales

Introducción a Cloud Computing / Nube

Introducción a Cloud Computing: Conceptos y Beneficios de la Nube

Ventajas de Usar Cloud Computing para Empresas y Desarrolladores

Cambios al Implementar Platzi Wallet en la Nube

Infraestructura Global en la Nube: Regiones y Zonas de Disponibilidad

Modelos de Nube: Privada, Pública, Híbrida y Multinube

Conceptos de Cloud Computing / Nube

Conceptos y Beneficios de Cloud Native en Desarrollo de Aplicaciones

Arquitectura Cloud Native: Construcción de Aplicaciones Escalables

Arquitectura Serverless: Ventajas y Retos en Cloud Computing

Componentes clave en arquitecturas serverless

Patrón síncrono en arquitecturas serverless con Platzi Wallet

Principales Proveedores de Servicios Cloud y Sus Ventajas

Multi-Nube

Tipos de Lock-in en Arquitectura de Nube

Estrategias de Multinube: Cómo Elegir y Optimizar Proveedores de Nube

Modelos de servicio en Cloud Computing / Nube

Modelos de Servicio en la Nube: IaaS, PaaS y SaaS

Características de una arquitectura en Cloud Computing /Nube

Alta Disponibilidad y Tolerancia a Fallos en Arquitectura de Nube

Escalabilidad en la Nube: Vertical vs Horizontal y Alta Disponibilidad

Construyendo nuestra arquitectura

Diagramación de Arquitectura Agnóstica para Aplicaciones

Arquitectura de Servidores para Escalabilidad y Alta Disponibilidad

Arquitectura de Aplicaciones con Contenedores y Kubernetes

Arquitectura Serverless: Diseño y Escalabilidad de Funciones

Conceptos Clave de Arquitectura en la Nube