Resumen

Definir correctamente los objetivos de fiabilidad de tus sistemas es lo que separa a las organizaciones que innovan con confianza de las que se paralizan por miedo a fallar. En el marco de Site Reliability Engineering, existen conceptos fundamentales que permiten alinear a los equipos de desarrollo, operaciones y negocio bajo un mismo lenguaje y una misma meta. Aquí se explican los más relevantes: los indicadores y objetivos de nivel de servicio, y el porcentaje de error aceptable.

¿Por qué 100 % de fiabilidad es el objetivo incorrecto?

Puede sonar contradictorio, pero aspirar al 100 % de reliability es probablemente un error para cualquier aplicación [0:44]. Un sistema que nunca puede fallar es un sistema que nunca puede cambiar, nunca puede mejorar y nunca puede experimentar. Salvo excepciones extremas como un marcapasos, prácticamente ningún producto digital necesita ese nivel de exigencia.

Esto significa que necesitas establecer un margen realista que te permita innovar sin comprometer la experiencia de tus usuarios. Para lograrlo, SRE propone tres conceptos clave que funcionan de forma encadenada.

¿Qué es un SLI o service level indicator?

Un SLI es una métrica bien definida de un atributo de tu servicio [2:05]. Puede ser:

  • La disponibilidad del sistema.
  • La latencia de las respuestas.
  • El throughput o capacidad de procesamiento.
  • El freshness o frescura de los datos.

Estos indicadores son la base sobre la que se construyen los objetivos.

¿Qué diferencia hay entre SLO y SLA?

Un SLO (service level objective) es un objetivo trazado sobre un SLI [2:30]. Si tu indicador es la disponibilidad, podrías definir un SLO del 99.9 % o del 99 %. Es el nivel al cual apuntas y, lo más importante, si se cumple, tus clientes estarán satisfechos.

Por otro lado, el SLA (service level agreement) es un acuerdo contractual y legal entre organizaciones [3:05]. Incluye penalidades y consecuencias de negocio, por lo que su definición corresponde a los equipos comerciales y legales, no a los equipos técnicos.

¿Cómo funciona el error budget o porcentaje de error aceptable?

El error budget es la diferencia entre el 100 % y el SLO que has establecido [5:00]. Si tu objetivo es 99 % de disponibilidad, tu porcentaje de error aceptable es del 1 %. Ese margen de maniobra es el espacio que tienen todos los equipos —desarrollo, operaciones y producto— para realizar cambios, mantenimientos, experimentos y lanzar nuevas versiones.

Este concepto trae beneficios concretos a tu organización:

  • Incentivos comunes: el error budget es único para todos, lo que alinea a quienes escriben código y a quienes mantienen sistemas en producción [7:18].
  • Autogestión del riesgo: cada equipo es consciente del margen máximo de indisponibilidad permitido [7:35].
  • Motivación realista: un objetivo de 100 % es desmotivador porque para que algo nunca falle, la mejor estrategia sería que nunca cambie [8:00].
  • Responsabilidad compartida: el uptime deja de ser exclusivo de operaciones y se convierte en un compromiso de toda la organización [8:30].

¿Qué hacer cuando el error budget está disponible o se agota?

La clave no es solo definir un error budget, sino establecer consecuencias claras según su estado [9:05].

Cuando tienes margen de maniobra amplio, puedes priorizar la velocidad:

  • Lanzar nuevas versiones y funcionalidades.
  • Gestionar fallos inevitables de hardware.
  • Realizar experimentos arriesgados.

Cuando el error budget se agota, debes priorizar la estabilidad:

  • Ralentizar o detener lanzamientos de nuevas funciones.
  • Priorizar las tareas derivadas de los post mortem.
  • Automatizar los procesos de implementación para reducir errores humanos no intencionales e incrementar velocidad sin sacrificar estabilidad [10:20].

¿Por qué SRE necesita SLOs con consecuencias?

Establecer un SLO sin definir qué ocurre cuando se consume el error budget es como tener un semáforo sin que nadie respete los colores. SRE necesita SLOs con consecuencias [10:50], es decir, procedimientos organizacionales claros que indiquen cuándo es momento de acelerar y cuándo es momento de proteger la estabilidad.

Cuando toda tu organización comparte este lenguaje y actúa en consecuencia, logras un equilibrio saludable entre innovación y confiabilidad. ¿Ya tienes definidos los SLOs de tus servicios? Comparte tu experiencia y cómo ha cambiado la dinámica entre tus equipos.