Apuntes:
Reintroducción y prevención.
Reintroducción. Cómo podemos hacer dado una falla de disponibilidad para reintroducir el sistema y que vuelva a estar disponible.
• Modo Sombra. Un componente comienza a fallar entonces lo quitamos de nuestro cluster productivo, pero seguimos evaluando por detrás si se comporta correctamente o no. Ya sea con un operador o el mismo sistema.
• Sincronización de estado. El estado del componente pasa a ser inválido, entonces lo quitamos del cluster productivo y sincronizamos el estado de los que sí se comportan correctamente con el componente que no se estaba comportando correctamente.
• Punto de control / Retroceso. Nos permite marcar estados de nuestra aplicación que sabemos que son consistentes. Entonces cuándo detectamos una falla, podemos quitar de servicio ese componente y volverlo atrás al estado consistente y luego reproducir con un log o registro las acciones que fueron sucediendo después de ese estado, de esa forma podemos recuperar el estado consistente de la aplicación y poder introducirlo al sistema.
Prevención. Qué podemos hacer para prevenir el estado de falta de disponibilidad.
• Quitar de servicio. Quitamos el componente y no vamos a estar continuamente reparándolo.
• Transacciones. Controlar el bloque de cambios que vamos a hacer como para poder deshacerlos todos juntos o impactarlos todos juntos de esa forma prevenimos que cambios pequeños dejen nuestra aplicación en estado inconsistente.
• Monitoreo de procesos. Se refiere a revisar los procesos de ejecución de una máquina virtual o de un servidor y poder eliminar o terminar uno de esos procesos y volver a iniciarlos cuándo detectamos que hay una falla, pueden ser automáticos y nos ayudan a que nuestro sistema siga estando disponible por más que un proceso se esté comportando de forma anormal.
¿Quieres ver más aportes, preguntas y respuestas de la comunidad?