SLO y Error Budget

3/8
Recursos

Aportes 6

Preguntas 0

Ordenar por:

驴Quieres ver m谩s aportes, preguntas y respuestas de la comunidad?

o inicia sesi贸n.

Service Level Terminology

SLI

Service Level Indicator
Un SLI es un indicador de nivel de servicio, una medida cuantitativa cuidadosamente definida de alg煤n aspecto del nivel de servicio que se proporciona.

  • La mayor铆a de los servicios consideran la latencia de la solicitud(request latency) (cu谩nto tiempo se tarda en devolver una respuesta a una solicitud) como un SLI clave.
  • Otros SLI comunes incluyen la tasa de error(error rate), a menudo expresada como una fracci贸n de todas las solicitudes recibidas.
  • Por ultimo el rendimiento del sistema(system throughput), tambien es un SLI com煤n, generalmente medido en solicitudes por segundo.
  • Otro tipo de SLI importante para las SRE es la disponibilidad(availability), o la fracci贸n del tiempo que se puede utilizar un servicio.

SLO

Service Level Objective
Un Objetivo de nivel de servicio es un valor objetivo o rango de valores para un nivel de servicio medido por un SLI. El objectivo al que apuntamos es al SLO, mientras que la metrica o indicador es SLI.

  • La elecci贸n y publicaci贸n de SLO para los usuarios establece expectativas sobre el rendimiento de un servicio. Esta estrategia puede reducir las quejas infundadas a los propietarios del servicio sobre, por ejemplo, la lentitud del servicio.
  • Sin un SLO expl铆cito, los usuarios a menudo desarrollan sus propias creencias sobre el desempe帽o deseado, que pueden no estar relacionadas con las creencias de las personas que dise帽an y operan el servicio.

SLA

Service level agreements
Un Acuerdo a nivel de servicio es un contrato expl铆cito o impl铆cito con sus usuarios que incluye las consecuencias de cumplir (o no cumplir) los SLO que contienen.

Las consecuencias se reconocen m谩s f谩cilmente cuando son financieras (un reembolso o una multa), pero pueden adoptar otras formas.

Una manera f谩cil de distinguir entre un SLO y un SLA es preguntarse 鈥溌縬u茅 sucede si no se cumplen los SLO?鈥: Si no hay una consecuencia expl铆cita, es casi seguro que est茅 mirando un SLO.

Por lo general, los y las SRE no se involucra en la construcci贸n de SLA, porque los SLA est谩n estrechamente vinculados a las decisiones comerciales y de productos.

Sin embargo, SRE se involucra para ayudar a evitar desencadenar las consecuencias de los SLO omitidos. Tambi茅n pueden ayudar a definir los SLI: obviamente, debe haber una forma objetiva de medir los SLO en el acuerdo, o surgir谩n desacuerdos.

Error Budget

El Porcentaje de error aceptable es la diferencia entre el 100% y nuestro objetivo (SLO) que tenemos como oportunidad para hacer cambios/mejoras/mantenimiento.

El Porcentaje de error aceptable nos permite

  • Aumentar la velocidad de desarrollo.
  • Incrementar mejoras.
  • Inovar en nuestros productos.

Beneficios del porcentaje de error aceptable

  • Incentivos comunes para desarrolladores y SREs: Encuentra el balance adecuado entre innovaci贸n y reliability.

  • Los equipos de desarrollo pueden gestionar el riesgo por su cuenta: Ellos deciden c贸mo utilizar el porcentaje de error aceptable.

  • Los objetivos de reliability poco realistas no son atractivos: Estos objetivos disminuyen la velocidad de la innovaci贸n.

  • Responsabilidad compartida por uptime del sistema: Los fallos de la infraestructura utilizan el porcentaje de error aceptable de los desarrolladores.

Consecuencias del porcentaje de error aceptable

Cuando hay porcentaje de error aceptable: Priorizar la velocidad
鈼 Lanzamiento de nuevas funciones.
鈼 Cambios previstos en el sistema.
鈼 Fallos inevitables en el hardware, las redes, etc.
鈼 Experimentos arriesgados.

Cuando se agota el porcentaje de error aceptable: Priorizar la estabilidad
鈼 Ralentizar o detener los lanzamientos de nuevas funciones.
鈼 Priorizar items del postmortem.
鈼 Automatizar los procesos de implementaci贸n.

  • SLI: m茅trica bien definida, por ejemplo disponibilidad
  • SLO: Objetivo de una m茅trica, por ejemplo 99.9% de disponibilidad

Les comparto esta caluladora para obtener el Error budget basado en el SLO que definan https://availability.sre.xyz/

Que interesante me pareci贸 esta clase! 馃槃

Tender a una alta disponibilidad es el resultado una eXperienza de Desarrollo (DX), desplegando con el menor dolor / complejidad una aplicaci贸n 馃

Excelente!