Cómo detectar fallas y reparar sistemas

Clase 31 de 43 • Curso Profesional de Arquitectura de Software

Resumen

Diseñar con confianza la disponibilidad implica anticipar la falla y responder sin demoras. Aquí se explican, con ejemplos claros, las tácticas esenciales para detectar incidentes, reparar el servicio y reintroducir el sistema, desde ping/echo y latido hasta votación, redundancia activa o pasiva y el uso de un repuesto preparado.

¿Cómo se define la disponibilidad y qué familias de tácticas existen?

La disponibilidad se ve desafiada por un estímulo claro: la falla. El objetivo es que el problema quede oculto al usuario o que el sistema sea reparado de forma correcta y rápida. Para ello se agrupan tácticas en cuatro familias: detección, recuperación centrada en reparación, recuperación centrada en reintroducción del servicio y prevención.

Estímulo de diseño: la falla que compromete la disponibilidad.
Resultado esperado: falla oculta o sistema reparado.
Familias: detección, recuperación por reparación, recuperación por reintroducción, prevención.

¿Qué tácticas de detección mejoran la disponibilidad?

Las tácticas de detección permiten saber si un componente sigue funcionando y, si no, por qué. Son la base para alertar a desarrolladores y operadores, y activar respuestas oportunas.

¿Qué es ping o echo y para qué sirve?

Un componente envía un mensaje genérico a otro componente.
La respuesta confirma si el destino está disponible, sin requerir datos útiles.
Permite a un cliente decidir si puede confiar en el componente servidor.

¿Cómo funciona el latido para alertas de disponibilidad?

Un componente emite periódicamente un mensaje de “estoy activo”.
Si no llega dentro del tiempo esperado, se asume pérdida de disponibilidad.
Útil en componentes sin salida visual: procesadores de tareas, envío de emails o notificaciones push.
Debe informar que está en buen estado de salud a desarrolladores y operadores.

¿Por qué el manejo y registro de excepciones son clave?

Detectan cuándo la disponibilidad pudo verse comprometida.
Identifican con precisión la causa del incidente.
Facilitan diagnóstico y acciones de mejora.

¿Qué tácticas de recuperación reparan y reintroducen el sistema?

La recuperación por reparación busca que, ante una falla, el sistema vuelva a operar con rapidez. Estas tácticas también preparan el terreno para la reintroducción del servicio una vez estabilizado.

¿Cómo funciona la votación y el arbitraje?

Varios componentes ofrecen la misma funcionalidad, pero pueden responder distinto.
Un componente central realiza el arbitraje y decide cuál respuesta es válida.
Si la mayoría coincide y uno difiere, se retira del clúster al componente en falta y se reemplaza.

¿Qué aporta la redundancia activa con líder?

Todos los mensajes de entrada llegan a todos los componentes redundantes.
Si uno falla, se lo quita del clúster y el servicio sigue en milisegundos.
Solo un componente responde: el líder.
Si cae el líder, se elige un nuevo líder, lo que agrega complejidad a la implementación.

¿Cuándo usar redundancia pasiva líder-seguidora?

La comunicación llega a un componente principal que sincroniza con otros pasivos.
Típico en bases de datos: la líder lee y escribe, la seguidora recibe cambios de estado.
La seguidora puede operar como base de datos de lectura.
Repuesto o backup: cuando algo falla, se reemplaza todo el sistema o una gran parte por un sistema preparado. No está activo hasta que se pone en línea, suele actuar como receptor de actualizaciones y puede requerir inicialización. Exige tener varios componentes disponibles por separado y sin estar activos.

¿Te gustaría comentar cómo aplicas ping/echo, latidos o redundancias en tus sistemas y qué retos encuentras al operar clústeres con líder?

Abril Darynka Tapia Sosa

student•

Escenarios.

Disponibilidad:
Estimulo -> Falla Tácticas -> Ocultar la falla o reparar el sistema Tipos de tácticas en disponibilidad:

Detección
- Ping / Eco
- Latido
- Excepciones
Recuperación: Preparar / Reparar
- Votación
- Redundancia activa
- Redundancia pasiva
- Repuesto
Recuperacion: Reintroducción
Prevención

Eduardo Reyes

student•

Llevo todo el curso basando mis notas en tus aportes.

Miguel Angel Reyes Moreno

student•

Ya somos 2, Eduardo, y también usando chat gpt!

Carlos Eduardo Diaz Polanco

student•

Escenario de disponibilidad. En este caso el estímulo es la falla, algo pasó que compromete la disponibilidad. vamos a ver las diferentes tácticas que podemos usar para trabajar con este posible escenario.

• Detección, en este caso contamos con varias tácticas: la primera es la de
o ping / eco. que se trata de como un componente envía un mensaje genérico a otro componente para saber si el otro componente esta disponible o no.
o Latido, esta táctica es similar pero en vez de que haya interacción entre dos componentes, cada uno de estos envían una señal propia que indica que continua activo.
o Excepciones, Un método para reconocer fallas es encontrar una excepción, que se produce cuando se reconoce una de las clases de fallas. El manejador de excepciones generalmente se ejecuta en el mismo proceso que introdujo la excepción.

• Recuperación, como podemos estar listos para que si algo falla podamos recuperar rápidamente el sistema.
o Votación, El algoritmo de votación puede ser “reglas de mayoría” o “componente preferido” o algún otro algoritmo. Este método se usa para corregir el funcionamiento defectuoso de algoritmos o fallas de un procesador y se usa a menudo en sistemas de control.
o Redundancia activa, Cuando se produce una falla, el tiempo de inactividad de los sistemas que utilizan esta táctica suele ser de milisegundos, ya que la copia de seguridad es actual y el único momento de recuperación es el tiempo de conmutación. La redundancia activa a menudo se utiliza en una configuración cliente / servidor, como los sistemas de administración de bases de datos, donde las respuestas rápidas son necesarias incluso cuando ocurre una falla.
o Redundancia pasiva, Un componente (el primario) responde a los eventos e informa a los otros componentes (los recursos) de las actualizaciones de estado que deben realizar. Cuando ocurre una falla, el sistema primero debe asegurarse de que el estado de la copia de seguridad sea lo suficientemente reciente antes de reanudar los servicios.
o Repuesto, Una plataforma de computación de reserva en espera está configurada para reemplazar muchos componentes diferentes que fallaron. Debe reiniciarse a la configuración de software apropiada y debe tener su estado inicializado cuando ocurre una falla.

Elmer Padilla Espinoza

student•

Se le agradece Carlos, muy amable por postear este resumen.

Antonio Rafael González Ferrer

student•

Apuntes:

Disponibilidad, detección, reparación

Disponibilidad. Nuestro estímulo es la falla.

Detección. Detectar si perdimos disponibilidad o si hay alguna actividad que está sucediendo en nuestro sistema que está comprometiendo la disponibilidad. • Ping / Eco. Se trata de cómo un componente va a mandar un mensaje genérico a otro componente para que el componente le responda. Esa respuesta simplemente es una forma de saber si el componente al que nos comunicamos está disponible o no. • Latido. Un componente emite un mensaje periódicamente para notificar disponibilidad, de esta forma podemos tener alertas de que cuándo un componente no notifica en x tiempo sabemos que perdió disponibilidad. • Excepciones. Nos ayuda a darnos cuenta cuándo se pudo haber comprometido la disponibilidad y exactamente por qué. Reparación. Cómo estar listo para que si algo falla lo podamos reparar de la forma más rápida posible, ya sea a través de interacción con un operador o incluso que el sistema pueda repararse solo. • Votación. Significa que tenemos múltiples componentes que tienen la misma funcionalidad pero sin embargo no podemos confiar que todos respondan lo mismo, a través de un componente central que pueda evaluar esa respuesta podemos decidir si un componente está en falta o no. • Redundancia activa. Trata de garantizar que todos los mensajes de entrada le lleguen a todos los componentes redundantes al cluster. • Redundancia pasiva. En vez que la comunicación se haga a todos los componentes, la comunicación se hace a un componente y ese es responsable de sincronizar con otros componentes que están escuchando de manera pasiva estos cambios. • Repuesto. Nos dice que cuándo algo falle podemos remplazar todo el sistema o una gran parte del sistema por un sistema de tipo Backup que tengamos preparado para seguir respondiendo. Reintroducción. Cómo podemos hacer dado una falla de disponibilidad para reintroducir el sistema y que vuelva a estar disponible. Prevención. Qué podemos hacer para prevenir el estado de falta de disponibilidad.

JUAN PABLO MAYORGA MENDIETA

student•

Muchas gracias, resumen muy completo

Victor Manuel Sarria Salinas

student•

el mas completo, la verdad.

Christian Gómez

student•

Algo sucedió que compromete la disponibilidad, entonces se crean tácticas para controlar esta disponibilidad. Las tácticas son:

Detección: Perdimos disponibilidad o existe algo que la podía comprometer. Tácticas:

Ping / Eco
Latido
Excepciones

Recuperación: Se concentra en que si algo falla, se pueda reparar de la manera mas rápida posible. Tácticas:

Votación
Redundancia Activa
Redundancia pasiva

Re-introducción: Dado una falla el sistema se concentra en como volver a restablecer el sistema.
Prevención: Que se puede hacer para previnir la falta de disponibilidad.

Lucas Pontoriero

student•

Me gustaria saber que libros recomiendan para aprender mas en profundidad este tema. Grs

santiago Ceballos

student•

Disponibilidad

En este caso el estimulo es la falla, algo pasó que compromete la disponibilidad. vamos a ver las diferentes tácticas que podemos usar para trabajar con este posible escenario.

Deteccion

Detectar si perdimos disponibilidad o si hay alguna actividad que está sucediendo en nuestro sistema que está comprometiendo la disponibilidad.
1. Ping / eco: que se trata de como un componente envía un mensaje genérico a otro componente para saber si el otro componente esta disponible o no; Esta tactica nos permite entender cuando un componente es cliente de otro.
2. Latido: esta táctica es similar pero en vez de que haya interacción entre dos componentes, cada uno de estos envían una señal propia que indica que continua activo; cuando un componente no notifica en un limite de tiempo sabemos que perdio disponibilidad.
3. Excepciones: el manejo y registo de excepciones nos ayuda a resolver preguntas relacionadas con cuando y por que se vio afectada la disponibilidad.
Recuperacion: Preparar / Reparar

Como podemos estar listos para que si algo falla podamos recuperar rápidamente el sistema.
1. Votación: sucede cuando tenemos multiples componentes con la misma funcionalidad sin embargo no podemos confiar en que todos responda lo mismo; evaluamos por medio de un componente central si todos tienen la misma respuesta de esta manera si uno falla podemos sacarlo del cluster de componentes y reemplazarlo por uno nuevo.
2. Redundancia activa: No evalua el estado del componente sino que trata de garantizar que todos los mensajes de entrada lleguen a cada componente del cluster. Cuando un componente falla lo podemos cambiar y nuevamente estar disponible en milisegundos.
3. Redundacia pasiva: La comunicacion solo se hace con un componente del cluster y es el responsable de sincronizar a los otros componentes que escuchan pasivamente. Ej: en las bases de datos donde tenemos una base de datos lider y una seguidora. escribe y lee mientras que la base de datos seguidora recibe los cambios de estado.
4. Repuesto: cuando algo falle podemos reemplazar una parte o todo el sistema por un backup que tenemos preparado, no esta activo debe estar puesto en linea, mientras va estar como receptor de las actualizaciones y necesita una inicializacion. Es la mas radical de todas.

Gerardo Jesús Mota Olguín

student•

Escenario de disponibilidad. En este caso el estimulo es la falla, algo pasó que compromete la disponibilidad. vamos a ver las diferentes tácticas que podemos usar para trabajar con este posible escenario.

Detección, en este caso contamos con varias tácticas, la primera es la de ping / eco. que se trata de como un componente envía un mensaje genérico a otro componente para saber si el otro componente esta disponible o no. Latido, esta táctica es similar pero en vez de que haya interacción entre dos componentes, cada uno de estos envían una señal propia que indica que continua activo. Excepciones.

Juan Carlos Ortiz Romero

student•

Escenarios. 🤖 Disponibilidad: Estimulo -> Falla Tácticas -> Ocultar la falla o reparar el sistema. 🤖 Tipos de tácticas en disponibilidad: • Detección o Ping / Eco o Latido o Excepciones • Recuperación: Preparar / Reparar o Votación o Redundancia activa o Redundancia pasiva o Repuesto • Recuperacion: Reintroducción • Prevención

Antonio Madrid

student•

La redundacia activa me recuerda al patrón de diseño Mediator

William Schnaider Torres Bermon

student•

La disponibilidad se refiere a la capacidad de un sistema para estar operativo y accesible cuando se necesita. Es un atributo de calidad crítico, especialmente en aplicaciones de misión crítica.

1. Detección de Fallas

La detección temprana de fallas es esencial para minimizar el tiempo de inactividad. Aquí hay algunas técnicas comunes:

Ping/Eco:
- Como bien mencionaste, esta técnica implica enviar una solicitud a un componente y esperar una respuesta. Es un método simple pero efectivo para verificar si un componente está en línea.
Latido (Heartbeat):
- Los componentes envían mensajes periódicos para indicar que están activos. La ausencia de un latido indica una posible falla. Esto permite la detección proactiva de problemas.
Excepciones:
- El manejo adecuado de excepciones permite identificar errores y condiciones inesperadas que pueden comprometer la disponibilidad. El registro de excepciones es crucial para el diagnóstico.
Monitorización:
- Esta practica comprende la recolección de métricas de rendimiento y salud de los componentes, esto incluye:
  - Uso de CPU y memoria.
  - Latencia de red.
  - Tasas de error.
- El monitoreo ayuda a detectar anomalías y tendencias que podrían indicar problemas inminentes.

2. Reparación de Fallas

Una vez detectada una falla, el sistema debe ser capaz de recuperarse rápidamente. Aquí hay algunas estrategias:

Votación:
- Cuando se utilizan componentes redundantes, la votación permite determinar la respuesta correcta en caso de discrepancias. Esto es útil para mitigar los efectos de fallas individuales.
Redundancia Activa:
- Todos los componentes redundantes procesan las mismas solicitudes simultáneamente. Si un componente falla, los demás continúan operando sin interrupción.
Redundancia Pasiva:
- Un componente principal procesa las solicitudes y sincroniza su estado con los componentes de respaldo. Si el componente principal falla, un componente de respaldo toma el control.
Repuesto (Spare):
- Se mantiene un sistema de respaldo listo para reemplazar el sistema principal en caso de una falla grave.
Reintroducción (Rollback):
- Este concepto se refiere a la capacidad del sistema de poder volver a una versión estable anterior al momento de ocurrir una falla, o a un punto de guardado conocido.

3. Prevención de Fallas

La mejor manera de garantizar la disponibilidad es evitar que ocurran fallas en primer lugar. Algunas estrategias de prevención incluyen:

Diseño para la Resiliencia:
- Construir sistemas con redundancia, tolerancia a fallas y capacidad de recuperación incorporadas.
Pruebas Exhaustivas:
- Realizar pruebas de carga, pruebas de estrés y pruebas de fallas para identificar y corregir posibles puntos débiles.
Mantenimiento Preventivo:
- Aplicar parches de seguridad, actualizar software y hardware, y realizar copias de seguridad periódicas.
Arquitectura de Microservicios:
- Este estilo de arquitectura puede ayudar a prevenir la propagación de errores de un modulo a otros.
Implementación de buenas practicas de DevOps:
- La automatización de despliegues y pruebas, permiten la detección temprana de errores, y la resolución agil de incidencias.

Consideraciones Adicionales:

Tiempo de inactividad aceptable: Es importante definir el tiempo de inactividad máximo aceptable para el sistema.
Costo de la disponibilidad: Lograr una alta disponibilidad puede ser costoso. Es necesario equilibrar los requisitos de disponibilidad con las limitaciones presupuestarias.
Complejidad: Implementar mecanismos de alta disponibilidad puede aumentar la complejidad del sistema.

Daniel Ortiz

student•

a la vida real la disponibilidad es cuando mediimos el famoso endpoint / o /ping usando un balanceador de carga para conocer si el recurso esta disponible o no, Si no responde o la latencia es alta se entra en por ejemplo bajar la version o crear una nueva entidad a la que se le pueda apuntar y mejorar su tiempo de respuesta

Cómo detectar fallas y reparar sistemas

Introducción al curso

Curso Profesional de Arquitectura de Software

Atributos de calidad

Qué son los atributos de calidad en software

Cómo medir idoneidad funcional en software

Qué es eficiencia de ejecución en software

Cómo medir interoperabilidad y coexistencia

Qué es la usabilidad y sus 6 dimensiones

Cómo medir confiabilidad en software

Los 5 pilares de seguridad en software

Cómo garantizar mantenibilidad con tests

Adaptabilidad vs capacidad de instalación vs reemplazo

Tensiones entre atributos de calidad de software

Atributos de calidad según fase de empresa

Patrones de arquitectura

Qué es un patrón de arquitectura

Modelo vista controlador: cómo separar responsabilidades

Arquitectura en capas: controller, servicio y repositorio

Event sourcing vs bases relacionales

Qué es la arquitectura microkernel

Arquitectura Comparte Nada con Map Reduce

Patrón de microservicios: cuándo y cómo

Qué es CQRS y cómo separa lectura de escritura

Arquitectura hexagonal: puertos y adaptadores

Qué son los contextos delimitados en DDD

Cómo combinar patrones de arquitectura

Evolución de patrones desde monolito a microservicios

Diseño de una arquitectura

Cómo traducir requerimientos en decisiones arquitectónicas

Conectores en arquitectura: tipos y cuándo usarlos

Llamadas asíncronas vs síncronas vs cliente-servidor

Conector enrutador vs difusión: Twitter

Conectores cola, repositorio y pub/sub

Framework de diseño orientado a atributos