Cómo medir confiabilidad en software

Clase 7 de 43 • Curso Profesional de Arquitectura de Software

Contenido del curso

Introducción al curso

1
Curso Profesional de Arquitectura de Software
02:36 min

Atributos de calidad

Patrones de arquitectura

Diseño de una arquitectura

Modelado y documentación de arquitectura

Tomar examen

Resumen

La confiabilidad en software define si un sistema se puede usar con normalidad en el tiempo. Aquí encontrarás cómo evaluar madurez, disponibilidad, tolerancia a fallos o resiliencia y capacidad de recuperación con métricas claras, ejemplos reales y prácticas para garantizar servicio continuo.

¿Qué es la confiabilidad y cuáles son sus subcaracterísticas?

La confiabilidad responde a una pregunta clave: ¿el sistema se mantiene utilizable a lo largo del tiempo?. Para entenderla de forma accionable, se descompone en cuatro atributos medibles.

Madurez: cuántas veces falla el sistema en uso normal. Menos fallos, mayor madurez.
Disponibilidad: proporción de tiempo en servicio durante su ciclo normal. Incluye fallos y ventanas de mantenimiento o despliegue.
Tolerancia a fallos o resiliencia: capacidad de seguir dando servicio pese a errores internos o en sistemas dependientes.
Capacidad de recuperación: rapidez para volver a operar tras una caída, ya sea por fallo o por una salida planificada.

¿Cómo se miden madurez, disponibilidad, resiliencia y recuperación?

Medir bien es la base para mejorar. Estas métricas permiten comparar y comprometer niveles de servicio.

Madurez con tiempo medio entre averías: mide cuánto tiempo pasa entre fallos. Cuanto más largo es ese intervalo, más maduro es el sistema.
Disponibilidad como porcentaje: se calcula el tiempo total disponible sobre el período evaluado. Ejemplo: 95 % en una semana o mes. Algunas organizaciones comprometen “nueves”, como seis nueves (99.9999 %), cuando la continuidad es crítica. Se formaliza en contratos del tipo service level agreement (SLA) o acuerdo de servicio.
Resiliencia con inyección de fallos: para verificar que el sistema sigue funcionando ante errores, se introducen fallos y se ejecutan pruebas. Netflix popularizó el chaos testing, donde se provocan fallos en distintos puntos para validar el comportamiento esperado bajo estrés.
Capacidad de recuperación con tiempo medio hasta la recuperación: mide cuánto tarda en volver a dar servicio tras salir de servicio por un fallo o por mantenimiento. Conecta con la mantenibilidad del código: si reparar es difícil, la recuperación se alarga y el servicio sufre.

Habilidades clave que se ejercitan al medir estos atributos:

Identificar fallos y registrar incidentes con precisión.
Definir objetivos de MTBF (tiempo medio entre averías) y MTTR (tiempo medio hasta la recuperación).
Acordar y auditar SLA con porcentajes de disponibilidad exigentes.
Diseñar pruebas de resiliencia usando técnicas tipo chaos testing.

¿Qué ejemplos aplicados ayudan a fijar estos conceptos?

Los ejemplos aterrizan los criterios y orientan decisiones de arquitectura y operación.

Madurez en transacciones críticas: banca y pagos con tarjeta. Se espera que el proceso de compra no falle. Un error sin explicación frustra al usuario y daña la confianza.
Disponibilidad con acuerdos formales: los SLA fijan la disponibilidad en un período (mensual o anual). Los sistemas críticos requieren medición fina para cumplir lo pactado.
Resiliencia en móviles con conectividad variable: la app debe soportar desconexión, timeouts y errores de comunicación. El objetivo es mantener el servicio pese a fallos intermitentes.
Capacidad de recuperación en distribuidos: en plataformas como servicio (por ejemplo, la plataforma de Amazon) es común usar escalabilidad automática para crecer ante fallos o picos y mantener el servicio. Con Docker, reiniciar un contenedor descarta el estado temporal defectuoso y permite seguir operando.

Conceptos y keywords que guían la práctica diaria:

Ciclo de vida y ventanas de mantenimiento o despliegue.
Errores de comunicación, desconexión y timeout en integraciones.
Sistemas dependientes y manejo de fallos cruzados.
Escalabilidad automática y reinicio de containers para recuperar servicio.

¿Tienes métricas objetivo que debas cumplir o un caso desafiante de disponibilidad o resiliencia? Comparte tu experiencia y enfoques en los comentarios.

Comentarios

Christian Gómez

student•

Confiabilidad: Se trata de cuanto el sistema nos permite utilizarlo a través del tiempo de forma normal. Para analizarlo utilizamos 4 características:

Madurez: Cuanto falla el sistema. Para medirla, se toma el tiempo entre cada fallo que haya tenido el sistema. Cuanto más tiempo pase, más maduro es el sistema.

Disponibilidad: Cuanto tiempo esta fuera de servicio el sistema con respecto a su ciclo de vida normal. Para medirlo, igualmente tomamos el tiempo que estuvo fuera y lo expresamos en una forma de porcentaje.

Tolerancia a fallos (Resilencia): Como el sistema se mantiene dando el servicio a pesar de que tenga un fallo o haya un fallo con la conexión a un sistema externo. Para medirlo hay que generar los fallos y ver como se comporta.

Capacidad de recuperación: Cuanto tiempo el sistema puede seguir estando disponible, luego de algún fallo. Para medirlo, guardamos el tiempo que el sistema vuelve a dar el servicio una vez que salio por un fallo.

Juan Pablo Perez

student•

Gracias compañero.

Victor Manuel Sarria Salinas

student•

gracias

Carlos Eduardo Diaz Polanco

student•

Confiabilidad
Atributos que tienen que tienen que ver con el uso normal del sistema a través del tiempo:
• Madurez, El grado en que un sistema, producto o componente satisface necesidades de confiabilidad bajo operación normal.
Ej: Sistemas de compras. Sistemas bancarios.
• Disponibilidad, Grado en el cual un sistema, producto o componente es operacional y accesible cuando se requiere su uso.
Ej: SLAs, contratos de servicio. Sistemas con eventos de carga pico puntuales.
• Tolerancia a fallos, Grado en el que un sistema, producto o componente funciona según lo previsto a pesar de la presencia de fallas de hardware o software.
Ej Aplicaciones móviles.
• Capacidad de recuperación, Grado en el que, en caso de interrupción o falla, un producto o sistema puede recuperar los datos directamente afectados y restablecer el estado deseado del sistema.
Ej Sistemas distribuidos, configuraciones auto-escalables en la nube. Puede estar conectado a la mantenibilidad.

Javier Alejandro Alamar Martínez

student•

Buenos resumenes!

Jerry David Malloney Romero

student•

Excelente resumen, concuerda con el contenido dado

Julian Parra

student•

Aporto en mas detalle cómo se ve representado el porcentaje en tiempo offline ya sea año / mes / día. Me parece importante por que cuando se firma un contrato de disponibilidad hay que ser consciente de lo que realmente se está garantizando

¿Cómo medimos la disponibilidad?

De primera instancia, todo sistema debe tener establecido un Acuerdo de Nivel de Servicio (Service Level Agreement – SLA) que defina cuánto tiempo y en qué horarios debe estar en línea. En el caso de aplicaciones de baja criticidad, dicho SLA puede ser de 8×5 horas a la semana excluyendo días festivos; para sistemas con mayor criticidad como una red de cajeros automáticos se tienen niveles de servicio que alcanzan las 24 horas al día, los 365 días del año. Así entonces, suponiendo un sistema con un SLA de 24×365 podríamos calcular su disponibilidad de la siguiente manera:

Disponibilidad = ((A – B)/A) x 100 por ciento)

Donde:

A = Horas comprometidas de disponibilidad: 24 x 365 = 8,760 Horas/año.

B = Número de horas fuera de línea (Horas de “caída del sistema” durante el tiempo de disponibilidad comprometido). Por ejemplo: 15 horas por falla en un disco; 9 horas por mantenimiento preventivo no planeado.

así entonces:

Disponibilidad = ((8,760 – 24)/8,760) x 100 por ciento) = 99.726%

Julian Parra

student•

Andrés Madrigal

student•

Excelente aporte!!!

Antonio Rafael González Ferrer

student•

Apuntes:

Confiabilidad

Madurez. Cuánto falla el sistema en su uso normal, cuánto menos falle consideraremos más maduro el sistema. Para medir se usa el tiempo medio entre averías.

Disponibilidad. Cuánto tiempo está fuera de servicio el sistema con respecto a su ciclo de vida normal.

Tolerancia a fallos. Cómo el sistema puede seguir dando servicio por más que haya un fallo en el contexto del sistema o en la interacción del sistema y otros sistemas independientes. Para medirlo necesitamos poder generar esos fallos y ver cómo se comporta el sistema.

Capacidad de recuperación. Cuánto el sistema puede seguir estando disponible luego de un fallo. Para medir esto usamos el tiempo medio hasta la recuperación.

Alex Eugenio Gavidia Donayre

student•

Buen aporte.

Luis Fernando Méndez González

student•

Confiabilidad
Es el atributo que permite usar el sistema a través del tiempo de forma normal. Esto se logra con las siguientes características:

Madurez: Es lo que se percibe entre las fallas del sistema, entre mas tiempo, mas maduro el sistema, pues menos averías se encuentran.
Disponibilidad: Es el tiempo que se encuentra disponible el sistema en un espacio de tiempo, se puede medir por la cantidad de tiempo que permanece fuera de servicio, son sistemas fácil de medir y extremadamente importantes de cuidar.
Tolerancia a fallos: Hace referencia a cómo el sistema puede seguir dando servicio a pesar de que exista un fallo intrasistema o intersistema, para medirlo necesitamos generar esos fallos y entender cómo se comporta nuestro sistema con ellos.
Capacidad de recuperación: Es el tiempo que requiere el sistema para poder volver a servicio tras un fallo.

Diego Ramirez

student•

Gracias!!

Abril Darynka Tapia Sosa

student•

Confiabilidad Cuanto el sistema nos permite a través del tiempo usarlo de forma normal

Madurez -> Cuanto menos falle más maduro es.
Disponibilidad -> Cuanto tiempo esta fuera de servicio en su uso normal.
Tolerancia a fallos -> Como el sistema puede seguir dando servicio por más que exista un fallo
Capacidad de recuperación -> Cuanto el sistema puede seguir disponible luego de un fallo.

Gonzalo Pozzoli

student•

:smi

Jeisson Duran

student•

Acá un articulo acerca de principios de la ingenieria del caos o Chaos Testing

Manuel Alejandro Tovar Maestre

student•

Comparto link para los que quieran profundizar un poco más en el CHAOS TESTING link: https://www.pagerduty.com/resources/learn/what-is-chaos-testing/

LUIS ALFONSO ROCHA GUERRERO

student•

un dia estaba realizando un pago por PSE, descontando de mi saldo pero no abono a la cuenta a la cual estaba pagando, pero el pago se efectuó al día siguiente, muy apesar que se presento la pantalla de error. creo que esto aplica para el tema de la confiabilidad , ya que la pasarela de pago debe garantizar 100% la entrega de ese dinero. o en su defecto la devolución, para dejar la operación en un estado consistente.

Jackeline Jaimes Ortiz

student•

Este ha sido el atributo que mejor he entendido!

Jazziel Horacio Puente Verdugo

student•

ya somos dos xD

Matias Acosta

student•

Andres Galindo

student•

importante en el marco de la definición de cualquier sistema

Frandel Corporan Rodríguez

student•

Confiabilidad

Cuanto el sistema nos permitirá su buen uso a través del tiempo.

Madurez: Trata de que cuanto menos fallo presente el sistema más maduro es. La distancia temporal entre cada fallo permite medir su nivel de madurez.
Disponibilidad: Cuanto tiempo esta fuera de servicio el sistema respecto a su siclo de vida normal (Expresado en porcentajes).
Tolerancia a fallos: Que tanto puede el sistema seguir dando servicio a pesar de los fallos.
Capacidad de recuperación: Cuanto el sistema puede seguir dando servicio luego de un fallo y cuanto se tomó volver a dar servicio luego de un fallo en caso de que haya estado fuera de servicio.

Camilo Beltrán

student•

Confiabilidad Cuanto el sistema nos permite usarlo con el paso del tiempo con total normalidad a pesar de problemas Madurez Cuanto falla el sistema en su uso normal, y entre menos falle se le considerará más maduro Puede ser medido calculando el tiempo medio entre averías, entre más tiempo pase, más maduro será el sistema Disponibilidad Cuanto tiempo está fuera de servicio el sistema con respecto a su ciclo de vida normal Podemos medir los momentos en los que sacamos el sistema fuera de servicio y lo expresamos en porcentaje Ejemplo: Se necesita disponibilidad del 95% Tolerancia a fallos (Resiliencia) Cómo el sistema puede seguir dando servicio a pesar de que haya fallos ya sea en el sistema o en la interacción entre el sistema y otros sistemas dependientes Lo medimos generando los fallos por testing, por ejemplo Capacidad de recuperación El tiempo que tardará el sistema en volver a dar servicio luego de salir por un fallo Ejemplo: Si el problema es en código, dependerá de la facilidad de reparar el código y el tiempo que esto demore

Viberth Gonzalez

student•

Atributos que tienen que tienen que ver con el uso normal del sistema a través del tiempo:

Madurez, cómo medimos cuánto falla el sistema en su operación normal, la forma de medirlo es usando el tiempo medio entre averias, cuánto mas tiempo pase, mas maduro va a ser el sistema.

Disponibilidad, % de tiempo en el que el sistema esta disponible, con respecto al ciclo de vida del sistema mismo. La disponibilidad incluso suele estar asociada a contratos.

Tolerancia a fallos, chaos testing.

Capacidad de recuperación, que tanto el sistema puede estar disponible hasta que se recupera de un fallo, se mide a traves del tiempo medio que pasa entre la caída del servicio y la recuperación del sistema.

ANDRES ALFONSO MIRA MEJIA

student•

✅

Juan Carlos Ortiz Romero

student•

🤖🤖🤖 Confiabilidad Cuanto el sistema nos permite a través del tiempo usarlo de forma normal Madurez -> Cuanto menos falle más maduro es. Disponibilidad -> Cuanto tiempo esta fuera de servicio en su uso normal. Tolerancia a fallos -> Como el sistema puede seguir dando servicio por más que exista un fallo Capacidad de recuperación -> Cuanto el sistema puede seguir disponible luego de un fallo.

Maritza pineda

student•

Confiabilidad: Madurez (errores del sistemas, en cuanto menos falle más maduro). Disponibilidad (Cuento tiempo esta fuera de servicio). Tolerancia a fallos (como puede el sistema continuar en la prestación del servicio a pesar de los fallos) . Capacidad de recuperación (cuanto puede estar disponible después de un fallo).

Juan Daniel Gualtero Diaz

student•

Muy Claro

Antony Dixon Albites Tapia

student•

En la parte de final del vídeo cuando se menciona a Amazon, ¿no sería un IAAS ? ,Ya que guido menciona que es una PAAS.

William Rodriguez

student•

Amazon ofrece IaaS PaaS y SaaS

Cómo medir confiabilidad en software

Introducción al curso

Curso Profesional de Arquitectura de Software

Atributos de calidad

Qué son los atributos de calidad en software

Cómo medir idoneidad funcional en software

Qué es eficiencia de ejecución en software

Cómo medir interoperabilidad y coexistencia

Qué es la usabilidad y sus 6 dimensiones