No tienes acceso a esta clase

隆Contin煤a aprendiendo! 脷nete y comienza a potenciar tu carrera

脷ltima oportunidad para asegurar tu aprendizaje por 1 a帽o a precio especial

Antes: $249

Currency
$189/a帽o

Paga en 4 cuotas sin intereses

Paga en 4 cuotas sin intereses
Suscr铆bete

Termina en:

1D
3H
21M
58S
Curso de Introducci贸n a la Nube

Curso de Introducci贸n a la Nube

Carlos Andr茅s Zambrano Barrera

Carlos Andr茅s Zambrano Barrera

Alta Disponibilidad y Tolerancia a fallos

21/27
Recursos

Aportes 7

Preguntas 1

Ordenar por:

驴Quieres ver m谩s aportes, preguntas y respuestas de la comunidad?

o inicia sesi贸n.

Alta Disponibilidad: Mantener un sistema funcionando incluso cuando ocurren problemas, minimizando el tiempo de inactividad y asegurando servicios continuos.

  • RTO (Tiempo de Recuperaci贸n Objetivo): El tiempo m谩ximo deseado para que un sistema vuelva a funcionar despu茅s de una falla, reduciendo el impacto del tiempo de inactividad.

  • RPO (Punto de Recuperaci贸n Objetivo): La cantidad m谩xima de datos que una organizaci贸n est谩 dispuesta a perder en una interrupci贸n, marcando cu谩n actualizados deben estar los datos recuperados.

Tolerancia a Fallos: La tolerancia a fallos es la capacidad de un sistema, aplicaci贸n o servicio para continuar funcionando de manera aceptable incluso cuando uno o varios componentes experimentan problemas o fallas. Implica dise帽ar sistemas de manera que sean capaces de manejar errores y problemas sin que todo el sistema se vea comprometido, lo que garantiza la disponibilidad y la continuidad de los servicios incluso en condiciones adversas.

A medida que se reduce el RTO, aumenta el costo y la complejidad para lograrlo.

Fuente: https://aws.amazon.com/blogs/mt/establishing-rpo-and-rto-targets-for-cloud-applications/

SLA es un documento que especifica todas las condiciones del servicio prestado, responsabilidades de cada una de las partes y las posibles soluciones en el caso de incumplimiento.

Estas son algunas de las tecnolog铆as y t茅cnicas m谩s utilizadas en la recuperaci贸n tras fallos:

  • Copias de seguridad: crea copias de seguridad de tus datos en un sistema externo o env铆a una unidad externa a una ubicaci贸n externa. No obstante, las copias de seguridad no incluyen ninguna infraestructura de TI, por lo que no se consideran una soluci贸n completa de recuperaci贸n tras fallos.
  • Copia de seguridad como servicio (BaaS): al igual que las copias de seguridad de datos remotos, las soluciones de BaaS proporcionan copias de seguridad de datos peri贸dicas que ofrece un proveedor externo.
  • Recuperaci贸n tras fallos como servicio (DRaaS): Muchos proveedores de servicios en la nube ofrecen recuperaci贸n tras fallos como servicio (DRaaS) y modelos de servicio en la nube como IaaS y PaaS. Un modelo de servicio de DRaaS te permite crear copias de seguridad de tus datos y tu infraestructura de TI, as铆 como alojarlos en la infraestructura en la nube de un proveedor externo. Durante una crisis, el proveedor implementar谩 y orquestar谩 tu plan de DR para ayudar a recuperar el acceso y la funcionalidad con una interrupci贸n del funcionamiento m铆nima.
  • Instant谩neas en el momento: tambi茅n se denominan 鈥渃opias a un momento dado鈥. Las capturas replican datos, archivos o incluso una base de datos completa en un momento espec铆fico. Las capturas pueden usarse para restaurar datos, siempre que la copia se almacene en una ubicaci贸n que no se vea afectada por el evento. Sin embargo, puede producirse una p茅rdida de datos en funci贸n de cu谩ndo se hizo la captura.
  • Recuperaci贸n virtual: con las soluciones de DR virtual, puedes crear copias de seguridad de tus operaciones y datos, o incluso crear una r茅plica completa de tu infraestructura de TI para ejecutarlas en m谩quinas virtuales de terceros. En caso de desastre, puedes volver a cargar la copia de seguridad y reanudar la operaci贸n r谩pidamente. Para que esta soluci贸n sea efectiva, es necesario transferir datos y transferir cargas de trabajo con frecuencia.
  • Sitios de recuperaci贸n tras fallos: son ubicaciones que las organizaciones pueden utilizar temporalmente despu茅s de un desastre, que contienen copias de seguridad de datos, sistemas y otra infraestructura tecnol贸gica.

Fuente: Google

Alta Disponibilidad

馃挕 La disponibilidad se refiere al hecho de cuanto tiempo se encuentra un servicio disponible, para acceder al mismo.

驴Por qu茅 perder铆amos disponibilidad?

  • Problema en la red (M煤ltiples conexiones entre varios recursos).
  • Bug de una aplicaci贸n (Regularmente el responsable es el creador del software).
  • Falla del sistema (Ocurre cuando una VM corriendo un S.O. particular se torna como 鈥淣O DISPONIBLE鈥).
  • Corte de energ铆a.

馃挕 Alta disponibilidad: Contar con la mayor cantidad de tiempo de disponibilidad de nuestros recursos.
鉁 Lo ideal es contar con la mayor cantidad de tiempo de disponibilidad en nuestros recursos.
Los proveedores en la nube, brindan un Acuerdo de Nivel de Servicio (SLA) que garantiza cierto nivel de disponibilidad de los recursos con un porcentaje (%).
Este acuerdo es muy cercano al 100%. 馃挴
脷nicamente aplica para los recursos controlados por el proveedor. 馃寪

Tolerancia a Fallos

馃挕 Tolerancia a Fallos Es la capacidad de permanecer en funcionamiento incluso en el caso de que un componente o servicio deje de funcionar.

Caracter铆sticas:

  • Es la capacidad de un sistema para permanecer en funcionamiento.
  • Permite la redundancia de los datos permitiendo mayor disponibilidad.

Las estrategias de recuperaci贸n ante desastres, conocidas como Disaster Recovery (DR), son fundamentales para garantizar la continuidad de los negocios y la protecci贸n de los datos en situaciones de emergencia. Aqu铆 tienes algunas estrategias comunes de Disaster Recovery:

  1. Copias de seguridad regulares: Realizar copias de seguridad de los datos cr铆ticos y almacenarlas en ubicaciones seguras, ya sea en servidores locales o en la nube. Las copias de seguridad deben ser autom谩ticas y se deben probar de forma peri贸dica para asegurarse de que se pueden restaurar correctamente.

  2. Replicaci贸n de datos: Configurar la replicaci贸n en tiempo real o cerca de tiempo real de los datos cr铆ticos en servidores o centros de datos secundarios. Esto garantiza que siempre haya una copia actualizada de los datos disponibles.

  3. Centros de datos secundarios o fuera del sitio: Mantener un centro de datos secundario o un sitio de recuperaci贸n ante desastres en una ubicaci贸n geogr谩fica diferente. Esto protege los datos y sistemas en caso de desastres naturales o incidentes locales.

  4. Virtualizaci贸n y contenedores: Utilizar tecnolog铆as de virtualizaci贸n y contenedores para permitir la r谩pida implementaci贸n de sistemas y aplicaciones en servidores alternativos en caso de una falla en el servidor principal.

  5. Plan de Continuidad de Negocios (BCP): Desarrollar un plan de continuidad de negocios que detalle c贸mo se debe actuar en caso de desastres. Esto debe incluir la asignaci贸n de funciones y responsabilidades, la comunicaci贸n con el personal y proveedores, y los pasos espec铆ficos para la recuperaci贸n.

  6. Pruebas de recuperaci贸n ante desastres: Realizar pruebas peri贸dicas de DR para asegurarse de que todos los procedimientos funcionen correctamente. Esto ayuda a identificar posibles problemas antes de que ocurra un desastre real.

  7. Servicios de nube para DR: Utilizar servicios de nube como parte de su estrategia de DR. Muchos proveedores de nube ofrecen servicios espec铆ficos de recuperaci贸n ante desastres que pueden facilitar la recuperaci贸n y reducir los costos.

  8. Recuperaci贸n de datos en tiempo real (RTO) y punto de recuperaci贸n (RPO): Definir objetivos claros para el tiempo de recuperaci贸n (cu谩nto tiempo puede pasar antes de que se restaure el servicio) y el punto de recuperaci贸n (cu谩ntos datos se pueden perder). Estos objetivos var铆an seg煤n la cr铆tica de la aplicaci贸n y los datos.

  9. Almacenamiento resiliente: Utilizar tecnolog铆as de almacenamiento resiliente, como RAID, para proteger los datos contra fallos de hardware.

  10. Educaci贸n y capacitaci贸n del personal: Asegurarse de que el personal est茅 capacitado y preparado para responder adecuadamente a situaciones de recuperaci贸n ante desastres.

Es importante adaptar las estrategias de DR a las necesidades y presupuesto de su organizaci贸n. Un enfoque adecuado para la recuperaci贸n ante desastres puede minimizar el tiempo de inactividad y proteger los activos cr铆ticos en caso de cualquier incidente inesperado.

What is a Service Level Agreement (SLA)?

A service level agreement (SLA) is an outsourcing and technology vendor contract that outlines a level of service that a supplier promises to deliver to the customer. It outlines metrics such as uptime, delivery time, response time, and resolution time. An SLA also details the course of action when requirements are not met, such as additional support or pricing discounts. SLAs are typically agreed upon between a client and a service provider, although business units within the same company can also make SLAs with each other.
Fuente: AWS