No tienes acceso a esta clase

¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera

Curso de Introducción a la Nube

Curso de Introducción a la Nube

Carlos Andrés Zambrano Barrera

Carlos Andrés Zambrano Barrera

Alta Disponibilidad y Tolerancia a fallos

21/27
Recursos

Aportes 15

Preguntas 1

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad?

Alta Disponibilidad: Mantener un sistema funcionando incluso cuando ocurren problemas, minimizando el tiempo de inactividad y asegurando servicios continuos.

  • RTO (Tiempo de Recuperación Objetivo): El tiempo máximo deseado para que un sistema vuelva a funcionar después de una falla, reduciendo el impacto del tiempo de inactividad.

  • RPO (Punto de Recuperación Objetivo): La cantidad máxima de datos que una organización está dispuesta a perder en una interrupción, marcando cuán actualizados deben estar los datos recuperados.

Tolerancia a Fallos: La tolerancia a fallos es la capacidad de un sistema, aplicación o servicio para continuar funcionando de manera aceptable incluso cuando uno o varios componentes experimentan problemas o fallas. Implica diseñar sistemas de manera que sean capaces de manejar errores y problemas sin que todo el sistema se vea comprometido, lo que garantiza la disponibilidad y la continuidad de los servicios incluso en condiciones adversas.

A medida que se reduce el RTO, aumenta el costo y la complejidad para lograrlo.

Fuente: https://aws.amazon.com/blogs/mt/establishing-rpo-and-rto-targets-for-cloud-applications/

Estas son algunas de las tecnologías y técnicas más utilizadas en la recuperación tras fallos:
°

  • Copias de seguridad: crea copias de seguridad de tus datos en un sistema externo o envía una unidad externa a una ubicación externa. No obstante, las copias de seguridad no incluyen ninguna infraestructura de TI, por lo que no se consideran una solución completa de recuperación tras fallos.
    °
  • Copia de seguridad como servicio (BaaS): al igual que las copias de seguridad de datos remotos, las soluciones de BaaS proporcionan copias de seguridad de datos periódicas que ofrece un proveedor externo.
    °
  • Recuperación tras fallos como servicio (DRaaS): Muchos proveedores de servicios en la nube ofrecen recuperación tras fallos como servicio (DRaaS) y modelos de servicio en la nube como IaaS y PaaS. Un modelo de servicio de DRaaS te permite crear copias de seguridad de tus datos y tu infraestructura de TI, así como alojarlos en la infraestructura en la nube de un proveedor externo. Durante una crisis, el proveedor implementará y orquestará tu plan de DR para ayudar a recuperar el acceso y la funcionalidad con una interrupción del funcionamiento mínima.
    °
  • Instantáneas en el momento: también se denominan “copias a un momento dado”. Las capturas replican datos, archivos o incluso una base de datos completa en un momento específico. Las capturas pueden usarse para restaurar datos, siempre que la copia se almacene en una ubicación que no se vea afectada por el evento. Sin embargo, puede producirse una pérdida de datos en función de cuándo se hizo la captura.
    °
  • Recuperación virtual: con las soluciones de DR virtual, puedes crear copias de seguridad de tus operaciones y datos, o incluso crear una réplica completa de tu infraestructura de TI para ejecutarlas en máquinas virtuales de terceros. En caso de desastre, puedes volver a cargar la copia de seguridad y reanudar la operación rápidamente. Para que esta solución sea efectiva, es necesario transferir datos y transferir cargas de trabajo con frecuencia.
    °
  • Sitios de recuperación tras fallos: son ubicaciones que las organizaciones pueden utilizar temporalmente después de un desastre, que contienen copias de seguridad de datos, sistemas y otra infraestructura tecnológica.

Fuente: Google

SLA es un documento que especifica todas las condiciones del servicio prestado, responsabilidades de cada una de las partes y las posibles soluciones en el caso de incumplimiento.

Las estrategias de recuperación ante desastres, conocidas como Disaster Recovery (DR), son fundamentales para garantizar la continuidad de los negocios y la protección de los datos en situaciones de emergencia. Aquí tienes algunas estrategias comunes de Disaster Recovery:

  1. Copias de seguridad regulares: Realizar copias de seguridad de los datos críticos y almacenarlas en ubicaciones seguras, ya sea en servidores locales o en la nube. Las copias de seguridad deben ser automáticas y se deben probar de forma periódica para asegurarse de que se pueden restaurar correctamente.

  2. Replicación de datos: Configurar la replicación en tiempo real o cerca de tiempo real de los datos críticos en servidores o centros de datos secundarios. Esto garantiza que siempre haya una copia actualizada de los datos disponibles.

  3. Centros de datos secundarios o fuera del sitio: Mantener un centro de datos secundario o un sitio de recuperación ante desastres en una ubicación geográfica diferente. Esto protege los datos y sistemas en caso de desastres naturales o incidentes locales.

  4. Virtualización y contenedores: Utilizar tecnologías de virtualización y contenedores para permitir la rápida implementación de sistemas y aplicaciones en servidores alternativos en caso de una falla en el servidor principal.

  5. Plan de Continuidad de Negocios (BCP): Desarrollar un plan de continuidad de negocios que detalle cómo se debe actuar en caso de desastres. Esto debe incluir la asignación de funciones y responsabilidades, la comunicación con el personal y proveedores, y los pasos específicos para la recuperación.

  6. Pruebas de recuperación ante desastres: Realizar pruebas periódicas de DR para asegurarse de que todos los procedimientos funcionen correctamente. Esto ayuda a identificar posibles problemas antes de que ocurra un desastre real.

  7. Servicios de nube para DR: Utilizar servicios de nube como parte de su estrategia de DR. Muchos proveedores de nube ofrecen servicios específicos de recuperación ante desastres que pueden facilitar la recuperación y reducir los costos.

  8. Recuperación de datos en tiempo real (RTO) y punto de recuperación (RPO): Definir objetivos claros para el tiempo de recuperación (cuánto tiempo puede pasar antes de que se restaure el servicio) y el punto de recuperación (cuántos datos se pueden perder). Estos objetivos varían según la crítica de la aplicación y los datos.

  9. Almacenamiento resiliente: Utilizar tecnologías de almacenamiento resiliente, como RAID, para proteger los datos contra fallos de hardware.

  10. Educación y capacitación del personal: Asegurarse de que el personal esté capacitado y preparado para responder adecuadamente a situaciones de recuperación ante desastres.

Es importante adaptar las estrategias de DR a las necesidades y presupuesto de su organización. Un enfoque adecuado para la recuperación ante desastres puede minimizar el tiempo de inactividad y proteger los activos críticos en caso de cualquier incidente inesperado.

What is a Service Level Agreement (SLA)?

A service level agreement (SLA) is an outsourcing and technology vendor contract that outlines a level of service that a supplier promises to deliver to the customer. It outlines metrics such as uptime, delivery time, response time, and resolution time. An SLA also details the course of action when requirements are not met, such as additional support or pricing discounts. SLAs are typically agreed upon between a client and a service provider, although business units within the same company can also make SLAs with each other.
Fuente: AWS

Alta Disponibilidad

💡 La disponibilidad se refiere al hecho de cuanto tiempo se encuentra un servicio disponible, para acceder al mismo.

¿Por qué perderíamos disponibilidad?

  • Problema en la red (Múltiples conexiones entre varios recursos).
  • Bug de una aplicación (Regularmente el responsable es el creador del software).
  • Falla del sistema (Ocurre cuando una VM corriendo un S.O. particular se torna como “NO DISPONIBLE”).
  • Corte de energía.

💡 Alta disponibilidad: Contar con la mayor cantidad de tiempo de disponibilidad de nuestros recursos.
✅ Lo ideal es contar con la mayor cantidad de tiempo de disponibilidad en nuestros recursos.
Los proveedores en la nube, brindan un Acuerdo de Nivel de Servicio (SLA) que garantiza cierto nivel de disponibilidad de los recursos con un porcentaje (%).
Este acuerdo es muy cercano al 100%. 💯
Únicamente aplica para los recursos controlados por el proveedor. 🌐

Tolerancia a Fallos

💡 Tolerancia a Fallos Es la capacidad de permanecer en funcionamiento incluso en el caso de que un componente o servicio deje de funcionar.

Características:

  • Es la capacidad de un sistema para permanecer en funcionamiento.
  • Permite la redundancia de los datos permitiendo mayor disponibilidad.
Diferencias entre DRP y BCP: <https://www.welivesecurity.com/la-es/2014/10/14/plan-de-recuperacion-ante-desastres/>
Alta disponibilidad "Infraestructura que le permite a un sistema continuar en funcionamiento a pesar de que alguno de sus componentes falle. OJO: todas las apps desplegadas en la nube deben ejecutarse en al menos dos zonas de disponibilidad
Estrategia para Recuperación ante Desastres: ### **Pilot Light** Esta estrategia mantiene una parte mínima de los recursos activos en AWS, mientras que el resto está apagado. En caso de desastre, se encienden los recursos inactivos y se amplía la infraestructura para soportar la carga completa. #### **Pasos principales:** * Mantener servicios críticos (por ejemplo, bases de datos o configuraciones clave) ejecutándose en una región secundaria con un tamaño mínimo. * En caso de fallo, "encender" otros servicios o aumentar la capacidad de los sistemas para soportar la carga completa. * Utilizar servicios como **AWS CloudFormation** para automatizar el despliegue rápido de la infraestructura. #### **Ejemplo:** Un sistema que tiene su base de datos activa en una región secundaria, pero solo crea instancias EC2 adicionales cuando la región principal falla.
Tomando como ejemplo AWS, ellos tienen esta configuración de DRS: 1. Instalación del agente de replicación 2. Monitoreo de la replicación 3. Pruebas de integridad 4. Activación del entorno de DR 5. Replicación inversa y failback La elección de la estrategia correcta debe tener en cuenta variables como el RTO (objetivo de tiempo de recuperación), que se basa en el tiempo que tarda un sistema en recuperarse y reanudar sus actividades después de sufrir una indisponibilidad; así como el RPO (Recovery Point Objective), el cual consiste en la cantidad de datos que la empresa toleraría perder si se interrumpieran los sistemas. Los 4 enfoques de recuperación ante desastres tomando en cuenta el RPO/RTO se pueden ver en la siguiente imagen: ![](https://static.platzi.com/media/user_upload/image-27db9501-8b91-444f-ba81-ef673e9404bc.jpg) Y así funciona RDS en AWS: ![](https://static.platzi.com/media/user_upload/image-51b6a0c6-fbd0-4503-8971-66808c46b7c2.jpg)
En Tolerancia a Fallos se vio un concepto SLA, que son: SLA (Service Level Agreement): Es un acuerdo formal entre un proveedor de servicios y un cliente que define los niveles de servicio esperados. Incluye métricas específicas como tiempo de actividad, tiempos de respuesta y responsabilidades. Los SLAs suelen tener consecuencias si no se cumplen, como penalizaciones financieras o créditos de servicio. SLO (Service Level Objective): Es un objetivo específico que el proveedor de servicios se compromete a alcanzar para cumplir con el SLA. Por ejemplo, un SLO podría ser un tiempo de actividad del 99.99% o un tiempo de respuesta de soporte de 24 horas. Los SLOs son metas internas que ayudan a asegurar que se cumplan los SLAs. SLI (Service Level Indicator): Es una métrica que mide el rendimiento real del servicio en relación con los SLOs. Por ejemplo, si el SLO es un tiempo de respuesta de 200 ms, el SLI sería la medición real de ese tiempo de respuesta. Los SLIs proporcionan datos cuantitativos para evaluar si se están cumpliendo los SLOs. Estos conceptos son fundamentales para gestionar y monitorear la calidad del servicio en entornos de TI y asegurar que se cumplan las expectativas de los usuarios.
seria util que #Bancolombia tome esta clase jajajajaja
Las soluciones de copias de seguridad y los planes de recuperación después de un desastre son cruciales para lograr el Objetivo de Tiempo de Recuperación (RTO). Estas herramientas permiten a las organizaciones recuperarse rápidamente de interrupciones, minimizando el tiempo de inactividad y la pérdida de datos. Para alcanzar un RTO cercano a cero, se deben considerar las siguientes capacidades y funciones: 1. **Recuperación instantánea**: Permite restaurar y operar máquinas directamente desde el almacenamiento de las copias de seguridad, esencial para mantener operaciones durante interrupciones inesperadas y restaurar datos específicos rápidamente. 2. **Políticas de programación flexibles**: Ajustar los Objetivos de Punto de Recuperación (RPO) según las necesidades actuales de la organización, adaptándose a los cambios en los requisitos del RTO. 3. **Protección de datos continua (CDP)**: Asegura copias de seguridad constantes y protección de datos, permitiendo restauraciones rápidas. Aunque útil para cargas de trabajo críticas, puede impactar en el rendimiento y estabilidad debido a su alto uso de recursos. 4. **Protección casi continua de datos (NCDP)**: Ofrece copias de seguridad casi en tiempo real con un impacto mínimo en el rendimiento, ideal para organizaciones que necesitan mantener objetivos de RTO cercanos a cero. 5. **Recuperación granular**: Permite la recuperación de archivos individuales sin necesidad de restaurar un conjunto completo de datos, agilizando el proceso de recuperación en escenarios de RTO. 6. **Copia fuera del sitio para recuperación después de un desastre**: Tener una copia de los datos en una ubicación secundaria asegura una rápida recuperación de desastres o interrupciones en el sitio principal. 7. **Replicación en vivo con conmutación por error**: Mantiene datos disponibles en tiempo real y permite cambiar rápidamente entre sitios primarios y secundarios en caso de fallos, minimizando las interrupciones y el tiempo de inactividad. Estas funcionalidades, al ser implementadas y gestionadas adecuadamente, permiten a las organizaciones cumplir con sus objetivos de RTO y garantizar la continuidad del negocio ante cualquier eventualidad.
### Conclusión Implementar alta disponibilidad y tolerancia a fallos es fundamental para garantizar que las aplicaciones críticas permanezcan operativas y los datos no se pierdan, incluso en caso de fallos. Las estrategias y herramientas mencionadas ayudan a diseñar sistemas robustos que pueden manejar fallos y mantener un alto nivel de servicio.