SLOs y SLIs: midiendo la calidad de software

Clase 17 de 21 • Curso Profesional de DevOps

Contenido del curso

Introducción

1
Qué es DevOps según un Site Reliability Engineer
04:51 min

Containers y ambientes de desarrollo

Pruebas

Integración Continua

Despliegue Continuo

Reliability

Cierre del curso

21
Flujo CI/CD completo con Docker y Jenkins
02:07 min

Tomar examen

Resumen

Medir bien cambia cómo construyes software: con Site Reliability Engineering (SRE) y sus SLOs y SLIs sabrás si tu producto está sano, si tu latencia es baja y si los errores están bajo control. Esta mirada, adoptada en Auth0 y documentada por Google en un libro open source, permite decidir con seguridad cada deployment y proteger a los clientes.

¿Qué es SRE y por qué medir con SLOs y SLIs?

La práctica de SRE no es nueva: es cómo las empresas evalúan si su producto “está bien”. El valor del libro de Google es que formaliza conceptos aplicables. No todo lo de Google se replica igual, pero sí sus bases.

¿Qué miden los SLIs: latencia, errores y tiempos en API?

Los Service Level Indicators (SLIs) son “qué mides”. Ejemplos directos:

Latencia de respuesta.
Cantidad de errores.
Tiempo de enviar un email.
Tiempo de respuesta en un path específico del API.

¿Cómo se fija un SLO: percentiles y ventanas de tiempo?

El Service Level Objective (SLO) es la meta cuantitativa. Un ejemplo claro: “percentil 99 del response time menor a 50 ms durante el mes, medido en ventanas de 5 minutos”. Así defines el estándar de calidad que quieres sostener de forma continua.

¿Cómo operar con monitoreo continuo en producción?

Medir siempre cambia el juego. Si observas un “blip” o pico donde el p99 supera los 50 ms, puedes relacionarlo con el último deployment y decidir un rollback. Así evitas regresiones y sostienes alta calidad enviando software a producción.

¿Por qué probar en producción con datos reales?

Un ambiente de pruebas no refleja siempre la data real. Monitorear en producción te da señales verdaderas del comportamiento de usuarios y sistema. Si estás bajo tu meta, puedes seguir lanzando con confianza.

Validación con tráfico real, no simulado.
Detección rápida de regresiones.
Decisiones de rollback basadas en datos.

¿Qué hacer cuando rompes la métrica y consumes el error budget?

Define y gestiona error budgets: un margen de “incumplimientos” permitidos. Si lo consumes a mitad de mes por varios deployments que elevaron la latencia, puedes pausar lanzamientos. Depende también de lo que prometes a clientes: si ofreces menos de 75 ms y tu estándar interno es 50 ms, al exceder ambos no deberías lanzar porque arriesgas tus garantías.

Pausar deployments del servicio afectado.
Analizar cambios que introdujeron la regresión.
Reanudar cuando vuelvas a cumplir el SLO.

¿Qué mentalidad y habilidades refuerza SRE con SLOs y SLIs?

Este enfoque impulsa una mentalidad más agresiva para proteger a los clientes y pragmática sobre qué cambios van a producción y cuándo. Mantén un monitoreo constante de todo lo que sale a producción para cumplir tus métricas: las de clientes, las internas y las del equipo.

¿Qué competencias prácticas se ponen en juego?

Definición de métricas claras: SLIs y SLOs.
Uso de percentiles (p99) y ventanas temporales.
Monitoreo continuo y correlación con deployments.
Gestión de regresiones con rollback oportuno.
Administración de error budgets y pausas de lanzamiento.
Alineación con acuerdos de servicio prometidos a clientes.

Si no vas a leer el libro completo, prioriza el capítulo de SLOs y SLIs: es gratuito (open source) y transforma la forma de lanzar software con seguridad. ¿Te gustaría compartir cómo defines tus SLOs o cómo gestionas tu error budget?

SLOs y SLIs: midiendo la calidad de software

Introducción

Qué es DevOps según un Site Reliability Engineer

Containers y ambientes de desarrollo

Docker soluciona "works on my machine"

Node.js con dependencias fijas y caché Docker

Infraestructura como código con Terraform

Pruebas

Mocha en containers: cómo correr pruebas sin instalar nada

Por qué tests centralizados son clave en CI

Integración Continua

Qué hace Continuous Integration paso a paso

Creación de una tienda en línea con Shopify

Correr pruebas con Docker local y Jenkins

Publicar imágenes Docker a Docker Hub desde Jenkins

Jenkins con herramientas de análisis externas

Despliegue Continuo

Automatiza deployments con Now desde Jenkins

Blue/Green vs Canary vs Rolling deployment

Acceptance tests en staging evitan desastres

Flujo CI/CD completo: Jenkins desde staging hasta producción

Reliability

Qué hacer cuando suena el teléfono por un incidente

SLOs y SLIs: midiendo la calidad de software

Monitoreo externo para uptime y latencia

Logs en producción: estructura, niveles y alertas

Métricas vs logs: cuándo usar cada uno

Cierre del curso

Flujo CI/CD completo con Docker y Jenkins