No tienes acceso a esta clase

¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera

Última oportunidad para asegurar tu aprendizaje por 1 año a precio especial

Antes: $249

Currency
$189/año

Paga en 4 cuotas sin intereses

Paga en 4 cuotas sin intereses
Suscríbete

Termina en:

1D
3H
21M
58S
Curso de Introducción a la Nube

Curso de Introducción a la Nube

Carlos Andrés Zambrano Barrera

Carlos Andrés Zambrano Barrera

Alta Disponibilidad y Tolerancia a fallos

21/27
Recursos

Aportes 7

Preguntas 1

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad?

o inicia sesión.

Alta Disponibilidad: Mantener un sistema funcionando incluso cuando ocurren problemas, minimizando el tiempo de inactividad y asegurando servicios continuos.

  • RTO (Tiempo de Recuperación Objetivo): El tiempo máximo deseado para que un sistema vuelva a funcionar después de una falla, reduciendo el impacto del tiempo de inactividad.

  • RPO (Punto de Recuperación Objetivo): La cantidad máxima de datos que una organización está dispuesta a perder en una interrupción, marcando cuán actualizados deben estar los datos recuperados.

Tolerancia a Fallos: La tolerancia a fallos es la capacidad de un sistema, aplicación o servicio para continuar funcionando de manera aceptable incluso cuando uno o varios componentes experimentan problemas o fallas. Implica diseñar sistemas de manera que sean capaces de manejar errores y problemas sin que todo el sistema se vea comprometido, lo que garantiza la disponibilidad y la continuidad de los servicios incluso en condiciones adversas.

A medida que se reduce el RTO, aumenta el costo y la complejidad para lograrlo.

Fuente: https://aws.amazon.com/blogs/mt/establishing-rpo-and-rto-targets-for-cloud-applications/

SLA es un documento que especifica todas las condiciones del servicio prestado, responsabilidades de cada una de las partes y las posibles soluciones en el caso de incumplimiento.

Estas son algunas de las tecnologías y técnicas más utilizadas en la recuperación tras fallos:
°

  • Copias de seguridad: crea copias de seguridad de tus datos en un sistema externo o envía una unidad externa a una ubicación externa. No obstante, las copias de seguridad no incluyen ninguna infraestructura de TI, por lo que no se consideran una solución completa de recuperación tras fallos.
    °
  • Copia de seguridad como servicio (BaaS): al igual que las copias de seguridad de datos remotos, las soluciones de BaaS proporcionan copias de seguridad de datos periódicas que ofrece un proveedor externo.
    °
  • Recuperación tras fallos como servicio (DRaaS): Muchos proveedores de servicios en la nube ofrecen recuperación tras fallos como servicio (DRaaS) y modelos de servicio en la nube como IaaS y PaaS. Un modelo de servicio de DRaaS te permite crear copias de seguridad de tus datos y tu infraestructura de TI, así como alojarlos en la infraestructura en la nube de un proveedor externo. Durante una crisis, el proveedor implementará y orquestará tu plan de DR para ayudar a recuperar el acceso y la funcionalidad con una interrupción del funcionamiento mínima.
    °
  • Instantáneas en el momento: también se denominan “copias a un momento dado”. Las capturas replican datos, archivos o incluso una base de datos completa en un momento específico. Las capturas pueden usarse para restaurar datos, siempre que la copia se almacene en una ubicación que no se vea afectada por el evento. Sin embargo, puede producirse una pérdida de datos en función de cuándo se hizo la captura.
    °
  • Recuperación virtual: con las soluciones de DR virtual, puedes crear copias de seguridad de tus operaciones y datos, o incluso crear una réplica completa de tu infraestructura de TI para ejecutarlas en máquinas virtuales de terceros. En caso de desastre, puedes volver a cargar la copia de seguridad y reanudar la operación rápidamente. Para que esta solución sea efectiva, es necesario transferir datos y transferir cargas de trabajo con frecuencia.
    °
  • Sitios de recuperación tras fallos: son ubicaciones que las organizaciones pueden utilizar temporalmente después de un desastre, que contienen copias de seguridad de datos, sistemas y otra infraestructura tecnológica.

Fuente: Google

Alta Disponibilidad

💡 La disponibilidad se refiere al hecho de cuanto tiempo se encuentra un servicio disponible, para acceder al mismo.

¿Por qué perderíamos disponibilidad?

  • Problema en la red (Múltiples conexiones entre varios recursos).
  • Bug de una aplicación (Regularmente el responsable es el creador del software).
  • Falla del sistema (Ocurre cuando una VM corriendo un S.O. particular se torna como “NO DISPONIBLE”).
  • Corte de energía.

💡 Alta disponibilidad: Contar con la mayor cantidad de tiempo de disponibilidad de nuestros recursos.
✅ Lo ideal es contar con la mayor cantidad de tiempo de disponibilidad en nuestros recursos.
Los proveedores en la nube, brindan un Acuerdo de Nivel de Servicio (SLA) que garantiza cierto nivel de disponibilidad de los recursos con un porcentaje (%).
Este acuerdo es muy cercano al 100%. 💯
Únicamente aplica para los recursos controlados por el proveedor. 🌐

Tolerancia a Fallos

💡 Tolerancia a Fallos Es la capacidad de permanecer en funcionamiento incluso en el caso de que un componente o servicio deje de funcionar.

Características:

  • Es la capacidad de un sistema para permanecer en funcionamiento.
  • Permite la redundancia de los datos permitiendo mayor disponibilidad.

Las estrategias de recuperación ante desastres, conocidas como Disaster Recovery (DR), son fundamentales para garantizar la continuidad de los negocios y la protección de los datos en situaciones de emergencia. Aquí tienes algunas estrategias comunes de Disaster Recovery:

  1. Copias de seguridad regulares: Realizar copias de seguridad de los datos críticos y almacenarlas en ubicaciones seguras, ya sea en servidores locales o en la nube. Las copias de seguridad deben ser automáticas y se deben probar de forma periódica para asegurarse de que se pueden restaurar correctamente.

  2. Replicación de datos: Configurar la replicación en tiempo real o cerca de tiempo real de los datos críticos en servidores o centros de datos secundarios. Esto garantiza que siempre haya una copia actualizada de los datos disponibles.

  3. Centros de datos secundarios o fuera del sitio: Mantener un centro de datos secundario o un sitio de recuperación ante desastres en una ubicación geográfica diferente. Esto protege los datos y sistemas en caso de desastres naturales o incidentes locales.

  4. Virtualización y contenedores: Utilizar tecnologías de virtualización y contenedores para permitir la rápida implementación de sistemas y aplicaciones en servidores alternativos en caso de una falla en el servidor principal.

  5. Plan de Continuidad de Negocios (BCP): Desarrollar un plan de continuidad de negocios que detalle cómo se debe actuar en caso de desastres. Esto debe incluir la asignación de funciones y responsabilidades, la comunicación con el personal y proveedores, y los pasos específicos para la recuperación.

  6. Pruebas de recuperación ante desastres: Realizar pruebas periódicas de DR para asegurarse de que todos los procedimientos funcionen correctamente. Esto ayuda a identificar posibles problemas antes de que ocurra un desastre real.

  7. Servicios de nube para DR: Utilizar servicios de nube como parte de su estrategia de DR. Muchos proveedores de nube ofrecen servicios específicos de recuperación ante desastres que pueden facilitar la recuperación y reducir los costos.

  8. Recuperación de datos en tiempo real (RTO) y punto de recuperación (RPO): Definir objetivos claros para el tiempo de recuperación (cuánto tiempo puede pasar antes de que se restaure el servicio) y el punto de recuperación (cuántos datos se pueden perder). Estos objetivos varían según la crítica de la aplicación y los datos.

  9. Almacenamiento resiliente: Utilizar tecnologías de almacenamiento resiliente, como RAID, para proteger los datos contra fallos de hardware.

  10. Educación y capacitación del personal: Asegurarse de que el personal esté capacitado y preparado para responder adecuadamente a situaciones de recuperación ante desastres.

Es importante adaptar las estrategias de DR a las necesidades y presupuesto de su organización. Un enfoque adecuado para la recuperación ante desastres puede minimizar el tiempo de inactividad y proteger los activos críticos en caso de cualquier incidente inesperado.

What is a Service Level Agreement (SLA)?

A service level agreement (SLA) is an outsourcing and technology vendor contract that outlines a level of service that a supplier promises to deliver to the customer. It outlines metrics such as uptime, delivery time, response time, and resolution time. An SLA also details the course of action when requirements are not met, such as additional support or pricing discounts. SLAs are typically agreed upon between a client and a service provider, although business units within the same company can also make SLAs with each other.
Fuente: AWS