Cómo recuperar y prevenir fallas en sistemas

Clase 32 de 43 • Curso Profesional de Arquitectura de Software

Resumen

Mantener la disponibilidad exige decisiones claras y tácticas confiables. Aquí se explican, de forma directa y aplicable, las familias de recuperación y prevención en arquitectura de software: reintroducción con modo sombra, sincronización de estado, punto de control, quitar del servicio, transacciones y monitoreo de procesos. Comprender estos enfoques permite actuar con rapidez ante fallas y proteger la consistencia del sistema.

¿Cómo opera la recuperación para mantener la disponibilidad?

La recuperación busca devolver componentes a producción sin comprometer la estabilidad. Se centra en reintroducir elementos replicados cuando vuelven a comportarse correctamente, restaurar estado consistente y evitar que datos inválidos contaminen el clúster productivo.

¿Qué es la reintroducción con modo sombra?

Un componente falla y se retira del clúster productivo.
Se lo mantiene en modo sombra: se evalúa su comportamiento por detrás.
Si un desarrollador, un operador o el sistema corrige la causa, se reintroduce y vuelve a ser productivo.
Beneficio clave: no se impacta la producción mientras se valida la corrección.

Habilidades aplicadas: aislar fallas sin downtime. Validar comportamiento antes de volver a atender tráfico. Operar con componentes replicados.

¿Cómo se realiza la sincronización de estado?

El componente no falla en lógica, pero su estado es inválido o desactualizado.
Se retira de producción y se sincroniza con los componentes sanos o con la base de datos.
Ejemplo práctico: una capa de cache queda desactualizada; se sincroniza y recién entonces vuelve a responder solicitudes.
Beneficio clave: evitar respuestas inconsistentes por estados internos antiguos.

Habilidades aplicadas: detectar desincronización de estado. Orquestar sincronización segura. Controlar fuentes de verdad de datos.

¿Para qué sirve el punto de control?

Se marcan puntos de control que representan estados consistentes de la aplicación.
Ante una falla, se revierte el componente al último punto consistente y se reproducen acciones ocurridas después mediante un log o registro.
Beneficio clave: recuperar consistencia con trazabilidad de cambios.

Habilidades aplicadas: definir checkpoints confiables. Reproducir secuencias de acciones. Mantener registros útiles para recuperación.

¿Cómo prevenir caídas con tácticas de disponibilidad?

La prevención reduce el riesgo antes de que escale. Se apoya en quitar del servicio componentes problemáticos, usar transacciones para no dejar cambios a medias y hacer monitoreo de procesos a bajo nivel.

¿Cuándo quitar del servicio un componente?

Se detecta consumo de memoria creciente o pérdida de memoria.
Se decide retirar la aplicación, reiniciarla y restablecer el componente.
Es una acción radical: no se repara en caliente, se evita que afecte a otros servicios.
Beneficio clave: contener el daño y recuperar capacidad de servicio con rapidez.

Habilidades aplicadas: monitorear memoria. Automatizar reinicios seguros. Aplicar isolación ante fallas recurrentes.

¿Por qué las transacciones preservan la consistencia?

Una transacción agrupa cambios para aplicarlos todos juntos o deshacerlos todos juntos.
Ejemplo clásico: bases de datos; útil también para cualquier bloque de cambios.
Beneficio clave: evitar que cambios parciales dejen el sistema en estado inconsistente.

Habilidades aplicadas: delimitar unidades atómicas de cambio. Diseñar commits y rollbacks coherentes. Proteger integridad de datos.

¿Qué aporta el monitoreo de procesos?

Observa procesos en ejecución de una máquina virtual o servidor.
Si detecta anomalías, termina el proceso y lo reinicia automáticamente.
Beneficio clave: mantener la disponibilidad del sistema aun con procesos individuales inestables.

Habilidades aplicadas: instrumentar supervisión automática. Reaccionar ante fallas de bajo nivel. Garantizar continuidad operativa.

¿Tienes experiencias aplicando modo sombra, sincronización o puntos de control en producción? Comparte tus prácticas y aprendizajes para enriquecer la discusión.

Carlos Eduardo Diaz Polanco

student•

• Reintroducción, Hay tácticas de reparación que se basan en la reintroducción de componentes. Cuando un componente redundante falla, puede reintroducirse después de haber sido corregido. Tales tácticas son el funcionamiento en la sombra, la resincronización del estado y la reversión.

o Modo sombra. Un componente previamente fallido puede ejecutarse en “modo sombra” durante un corto período de tiempo para asegurarse de que imita el comportamiento de los componentes en funcionamiento antes de restaurarlo al servicio.
o Resincronización del estado. Las tácticas de redundancia pasiva y activa requieren que el componente que se está restaurando tenga su estado actualizado antes de su regreso al servicio.
o Punto de control / retroceso. Un punto de control es una grabación de un estado consistente creado periódicamente o en respuesta a eventos específicos.

• Prevención, Las siguientes son algunas tácticas de prevención de fallas.
o Remoción del servicio. Esta táctica elimina un componente del sistema de la operación para someterse a algunas actividades para evitar fallas anticipadas. Un ejemplo es reiniciar un componente para evitar que las pérdidas de memoria causen una falla.
o Transacciones. Una transacción es la agrupación de varios pasos secuenciales, de modo que todo el paquete se puede deshacer a la vez. Las transacciones se utilizan para evitar que cualquier dato se vea afectado si falla un paso de un proceso y también para evitar colisiones entre varios subprocesos simultáneos que acceden a los mismos datos.
o Monitor de proceso. Una vez que se ha detectado un error en un proceso, un proceso de supervisión puede eliminar el proceso no productivo y crear una nueva instancia del mismo, inicializado en un estado apropiado como en la táctica de repuesto.

Elmer Padilla Espinoza

student•

Gracias Carlos, buen aporte con tu resumen.

Antonio Rafael González Ferrer

student•

Apuntes:

Reintroducción y prevención.

Reintroducción. Cómo podemos hacer dado una falla de disponibilidad para reintroducir el sistema y que vuelva a estar disponible. • Modo Sombra. Un componente comienza a fallar entonces lo quitamos de nuestro cluster productivo, pero seguimos evaluando por detrás si se comporta correctamente o no. Ya sea con un operador o el mismo sistema. • Sincronización de estado. El estado del componente pasa a ser inválido, entonces lo quitamos del cluster productivo y sincronizamos el estado de los que sí se comportan correctamente con el componente que no se estaba comportando correctamente. • Punto de control / Retroceso. Nos permite marcar estados de nuestra aplicación que sabemos que son consistentes. Entonces cuándo detectamos una falla, podemos quitar de servicio ese componente y volverlo atrás al estado consistente y luego reproducir con un log o registro las acciones que fueron sucediendo después de ese estado, de esa forma podemos recuperar el estado consistente de la aplicación y poder introducirlo al sistema. Prevención. Qué podemos hacer para prevenir el estado de falta de disponibilidad. • Quitar de servicio. Quitamos el componente y no vamos a estar continuamente reparándolo. • Transacciones. Controlar el bloque de cambios que vamos a hacer como para poder deshacerlos todos juntos o impactarlos todos juntos de esa forma prevenimos que cambios pequeños dejen nuestra aplicación en estado inconsistente. • Monitoreo de procesos. Se refiere a revisar los procesos de ejecución de una máquina virtual o de un servidor y poder eliminar o terminar uno de esos procesos y volver a iniciarlos cuándo detectamos que hay una falla, pueden ser automáticos y nos ayudan a que nuestro sistema siga estando disponible por más que un proceso se esté comportando de forma anormal.

Abril Darynka Tapia Sosa

student•

Tipos de tácticas en disponibilidad

Recuperacion: Reintroducción
- Modo sombra
- Sincronización de estado
- Punto de control / Retroceso
Prevención
- Quitar de servicio
- Transacciones
- Monitoreo de procesos

Carlos Ariel Chávez Maciel

student•

Sería interesante si hubiera un mapa conceptual, para tener una visión más clara y general. Facilitaría mucho el seguimiento de los temas. Saludos.

JUAN PABLO MAYORGA MENDIETA

student•

Es cierto, es mucho el volumen de información y tiende a generar un poco de confusión

Christian Gómez

student•

Re-introducción: Dado una falla el sistema se concentra en como volver a restablecer el sistema.Tácticas:

Modo Sombras
Sincronización de Estado
Punto de control / retroceso

Prevención: Que se puede hacer para previnir la falta de disponibilidad. Tácticas:

Quitar de Servicio
Transacciones
Monitoreo de Procesos

Julian Parra

student•

Para evitar inconsistencia de datos , las transacciones deben procesarse completamente, si no lo hacen entonces, entonces no se debe procesar nada. Esto hace referencia a que las transacciones deben ser Atómicas, se dicen atómicas

Fabián Andrés Arismendi Ferrada

student•

los títulos de estos últimos 3 vídeos podrían mejorar

Disponibilidad Tácticas parte 1 y parte 2

Juan Carlos Ortiz Romero

student•

https://blog.desdelinux.net/microservicios-arquitectura-software-frameworks-codigo-abierto/

Juan Carlos Ortiz Romero

student•

COMPLETO: Escenario de disponibilidad. En este caso el estímulo es la falla, algo pasó que compromete la disponibilidad. vamos a ver las diferentes tácticas que podemos usar para trabajar con este posible escenario. • Detección, en este caso contamos con varias tácticas: la primera es la de o ping / eco. que se trata de como un componente envía un mensaje genérico a otro componente para saber si el otro componente esta disponible o no. o Latido, esta táctica es similar pero en vez de que haya interacción entre dos componentes, cada uno de estos envían una señal propia que indica que continua activo. o Excepciones, Un método para reconocer fallas es encontrar una excepción, que se produce cuando se reconoce una de las clases de fallas. El manejador de excepciones generalmente se ejecuta en el mismo proceso que introdujo la excepción. • Recuperación, como podemos estar listos para que si algo falla podamos recuperar rápidamente el sistema. o Votación, El algoritmo de votación puede ser “reglas de mayoría” o “componente preferido” o algún otro algoritmo. Este método se usa para corregir el funcionamiento defectuoso de algoritmos o fallas de un procesador y se usa a menudo en sistemas de control. o Redundancia activa, Cuando se produce una falla, el tiempo de inactividad de los sistemas que utilizan esta táctica suele ser de milisegundos, ya que la copia de seguridad es actual y el único momento de recuperación es el tiempo de conmutación. La redundancia activa a menudo se utiliza en una configuración cliente / servidor, como los sistemas de administración de bases de datos, donde las respuestas rápidas son necesarias incluso cuando ocurre una falla. o Redundancia pasiva, Un componente (el primario) responde a los eventos e informa a los otros componentes (los recursos) de las actualizaciones de estado que deben realizar. Cuando ocurre una falla, el sistema primero debe asegurarse de que el estado de la copia de seguridad sea lo suficientemente reciente antes de reanudar los servicios. o Repuesto, Una plataforma de computación de reserva en espera está configurada para reemplazar muchos componentes diferentes que fallaron. Debe reiniciarse a la configuración de software apropiada y debe tener su estado inicializado cuando ocurre una falla. • Reintroducción, Hay tácticas de reparación que se basan en la reintroducción de componentes. Cuando un componente redundante falla, puede reintroducirse después de haber sido corregido. Tales tácticas son el funcionamiento en la sombra, la resincronización del estado y la reversión. o Modo sombra. Un componente previamente fallido puede ejecutarse en “modo sombra” durante un corto período de tiempo para asegurarse de que imita el comportamiento de los componentes en funcionamiento antes de restaurarlo al servicio. o Resincronización del estado. Las tácticas de redundancia pasiva y activa requieren que el componente que se está restaurando tenga su estado actualizado antes de su regreso al servicio. o Punto de control / retroceso. Un punto de control es una grabación de un estado consistente creado periódicamente o en respuesta a eventos específicos. • Prevención, Las siguientes son algunas tácticas de prevención de fallas. o Remoción del servicio. Esta táctica elimina un componente del sistema de la operación para someterse a algunas actividades para evitar fallas anticipadas. Un ejemplo es reiniciar un componente para evitar que las pérdidas de memoria causen una falla. o Transacciones. Una transacción es la agrupación de varios pasos secuenciales, de modo que todo el paquete se puede deshacer a la vez. Las transacciones se utilizan para evitar que cualquier dato se vea afectado si falla un paso de un proceso y también para evitar colisiones entre varios subprocesos simultáneos que acceden a los mismos datos. o Monitor de proceso. Una vez que se ha detectado un error en un proceso, un proceso de supervisión puede eliminar el proceso no productivo y crear una nueva instancia del mismo, inicializado en un estado apropiado como en la táctica de repuesto.

santiago Ceballos

student•

Disponibilidad

En este caso el estimulo es la falla, algo pasó que compromete la disponibilidad. vamos a ver las diferentes tácticas que podemos usar para trabajar con este posible escenario.

Deteccion

Detectar si perdimos disponibilidad o si hay alguna actividad que está sucediendo en nuestro sistema que está comprometiendo la disponibilidad.
1. Ping / eco: que se trata de como un componente envía un mensaje genérico a otro componente para saber si el otro componente esta disponible o no; Esta tactica nos permite entender cuando un componente es cliente de otro.
2. Latido: esta táctica es similar pero en vez de que haya interacción entre dos componentes, cada uno de estos envían una señal propia que indica que continua activo; cuando un componente no notifica en un limite de tiempo sabemos que perdio disponibilidad.
3. Excepciones: el manejo y registo de excepciones nos ayuda a resolver preguntas relacionadas con cuando y por que se vio afectada la disponibilidad.
Recuperacion: Preparar / Reparar

Como podemos estar listos para que si algo falla podamos recuperar rápidamente el sistema.
1. Votación: sucede cuando tenemos multiples componentes con la misma funcionalidad sin embargo no podemos confiar en que todos responda lo mismo; evaluamos por medio de un componente central si todos tienen la misma respuesta de esta manera si uno falla podemos sacarlo del cluster de componentes y reemplazarlo por uno nuevo.
2. Redundancia activa: No evalua el estado del componente sino que trata de garantizar que todos los mensajes de entrada lleguen a cada componente del cluster. Cuando un componente falla lo podemos cambiar y nuevamente estar disponible en milisegundos.
3. Redundacia pasiva: La comunicacion solo se hace con un componente del cluster y es el responsable de sincronizar a los otros componentes que escuchan pasivamente. Ej: en las bases de datos donde tenemos una base de datos lider y una seguidora. escribe y lee mientras que la base de datos seguidora recibe los cambios de estado.
4. Repuesto: cuando algo falle podemos reemplazar una parte o todo el sistema por un backup que tenemos preparado, no esta activo debe estar puesto en linea, mientras va estar como receptor de las actualizaciones y necesita una inicializacion. Es la mas radical de todas.
Recuperacion: Reintroduccion

Cómo podemos hacer dado una falla de disponibilidad para reintroducir el sistema y que vuelva a estar disponible, vemos como varios componentes replicados pueden ser reintroducidos a producción a medida que se comprueba su funcionamiento.
1. Modo sombra: un componente falla en el cluster de produccion pero continuamos monitoriando el comportamiento si es correcto o no; ya sea que el programador lo corriga o cambie. podemos volver a introducirlo y vuelva a ser productivo.
2. Sincronizacion de estado: el funcionamiento es normal pero el estado pasa a ser invalido, lo retiramos del cluster y sincronizamos el estado de los que si se comportan correctamente.
3. Punto de control / retroceso: nos permite marcar momentos de nuestra aplicacion donde sabemos que es consistente, cuando detectamos una falla podemos regresar aun estado anterior y revisar (debug, log) las acciones que sucedieron despues de ese estado. de esta manera podemos recuperar el estado estable y reintroducirlo al sistema.
Prevención

Qué podemos hacer para prevenir el estado de falta de disponibilidad.

Quitar de servicio: tenemos la capacidad de quitar del servicio a un componente, ese componente va a estar fuera y prevenimos que genero otro problema. Ej: Sabemos que la aplicacion cada vez esta consumiendo memoria de maner
Transacciones: el ejemplo mas claro es el de las bases de datos. Cualquier tipo de traccion internamente controla un bloque que impacten o dehaga cambios
Monitorie de procesos: revisar los precesos en ejecucion de una maquina virtual o un servidor y terminar un proceso dado una falla y volver a iniciarlo cuando detectamos que hay una falla, los monitoreos pueden ser automaticos.

Cómo recuperar y prevenir fallas en sistemas

Introducción al curso

Curso Profesional de Arquitectura de Software

Atributos de calidad

Qué son los atributos de calidad en software

Cómo medir idoneidad funcional en software

Qué es eficiencia de ejecución en software

Cómo medir interoperabilidad y coexistencia

Qué es la usabilidad y sus 6 dimensiones

Cómo medir confiabilidad en software

Los 5 pilares de seguridad en software

Cómo garantizar mantenibilidad con tests

Adaptabilidad vs capacidad de instalación vs reemplazo

Tensiones entre atributos de calidad de software

Atributos de calidad según fase de empresa

Patrones de arquitectura

Qué es un patrón de arquitectura

Modelo vista controlador: cómo separar responsabilidades

Arquitectura en capas: controller, servicio y repositorio

Event sourcing vs bases relacionales

Qué es la arquitectura microkernel

Arquitectura Comparte Nada con Map Reduce

Patrón de microservicios: cuándo y cómo

Qué es CQRS y cómo separa lectura de escritura

Arquitectura hexagonal: puertos y adaptadores

Qué son los contextos delimitados en DDD

Cómo combinar patrones de arquitectura

Evolución de patrones desde monolito a microservicios

Diseño de una arquitectura

Cómo traducir requerimientos en decisiones arquitectónicas

Conectores en arquitectura: tipos y cuándo usarlos

Llamadas asíncronas vs síncronas vs cliente-servidor

Conector enrutador vs difusión: Twitter

Conectores cola, repositorio y pub/sub

Framework de diseño orientado a atributos

Cómo detectar fallas y reparar sistemas