- 1

DevOps: Velocidad y Estabilidad en Entrega de Software
08:36 - 2

Mejores Prácticas de Site Reliability Engineering (SRE)
09:32 - 3

Conceptos Clave de Site Reliability Engineering: SLI, SLO y Error Budget
11:24 - 4

Construcción de Imágenes de Contenedores en Google Cloud
12:35 - 5

Despliegue Continuo en Google Cloud: Integración y Automatización
04:17 - 6

Gestión Segura de Credenciales con Secret Manager en GCP
02:15 - 7

Implementación de Infraestructura como Código con Deployment Manager
05:06 - 8

Despliegue Continuo e Infraestructura como Código en GCP
00:54
Conceptos Clave de Site Reliability Engineering: SLI, SLO y Error Budget
Clase 3 de 8 • Curso de Desarrollo y Despliegue en la Nube con Google Cloud Platform
Contenido del curso
¿Qué es la Site Reliability Engineering (SRE)?
La Site Reliability Engineering (SRE) es un enfoque moderno para gestionar operaciones de sistemas y asegurar la fiabilidad de las aplicaciones. Al contrario de lo que muchos podrían pensar, la meta de alcanzar un 100% de fiabilidad suele ser incorrecta para la mayoría de las aplicaciones. Esto se debe a que mantener un sistema completamente libre de fallos impide la innovación y el progreso, ya que disminuye la capacidad de experimentar y realizar cambios significativos. Solo muy pocas cosas, como un marcapasos, requieren este nivel absoluto de fiabilidad.
¿Qué son los indicadores y objetivos de nivel de servicio?
Para gestionar adecuadamente la fiabilidad, es crucial definir y entender los indicadores y objetivos de nivel de servicio. Estos permiten establecer expectativas claras sobre el rendimiento de un sistema.
-
Service Level Indicator (SLI): Es una métrica bien definida que mide atributos específicos de un servicio, como la disponibilidad, latencia o el throughput. Es un reflejo preciso de cómo un servicio está funcionando.
-
Service Level Objective (SLO): Se refiere a un objetivo específico trazado sobre un SLI. Por ejemplo, si tu SLI es la disponibilidad, tu SLO podría ser el 99.9% de disponibilidad. El SLO es crucial ya que define el nivel de rendimiento que deseas alcanzar, asegurando al cliente una experiencia satisfactoria.
-
Service Level Agreement (SLA): A diferencia de los anteriores, el SLA es un acuerdo contractual entre organizaciones, incluyendo penalidades si las expectativas no se cumplen. Es más un tema para los equipos comerciales y legales, no tanto para los equipos técnicos que deben concentrarse en los SLIs y SLOs.
¿Qué es el Error Budget?
El Error Budget o porcentaje de error aceptable es una herramienta fundamental en SRE. En lugar de aspirar al 100% de fiabilidad, se acepta un margen de error que permite realizar mejoras, experimentos y cambios sin comprometer la estabilidad. Es la diferencia entre el 100% y el SLO establecido. Por ejemplo, si tu SLO es del 99%, tendrás un 1% de margen para manejar posibles fallos o experimentos arriesgados.
Este margen es esencial porque:
-
Incrementa la velocidad de desarrollo: Permite al equipo operar con un nivel de riesgo calculado, alentando la innovación.
-
Responsabilidad compartida: Tanto equipos de desarrollo como de operaciones son conscientes del margen de maniobra, fomentando colaboración e incentivos comunes.
-
Autogestión del riesgo: Los equipos saben hasta qué punto pueden experimentar, impulsando una cultura de responsabilidad y colaboración.
¿Cuáles son los beneficios de implementar un Error Budget?
Implementar un error budget proporciona una dinámica positiva dentro de las organizaciones:
-
Incentivos comunes: Se alienta a los equipos de desarrollo y operaciones a trabajar juntos para mantener la fiabilidad dentro del margen acordado.
-
Gestión de riesgos: Los equipos pueden gestionar más efectivamente los riesgos al ser conscientes del margen de maniobra.
-
Motivación: Establecer porcentajes razonables de fiabilidad evita la desmotivación que podría provocar intentar alcanzar un objetivo inalcanzable de 100%.
-
Automatización y mejoramiento continuo: Se promueve la automatización de procesos para minimizar errores humanos y mejorar la eficiencia.
Es imprescindible que todo el personal de la organización comprenda las acciones a seguir cuando el error budget se está agotando. Esto implica priorizar la estabilidad, centrándose en la corrección de errores y automatizando procesos para prevenir fallos futuros. La automatización, en particular, es vital ya que reduce las posibilidades de errores humanos y asegura un flujo de trabajo más fluido.
Para concluir, SRE proporciona un marco para establecer objetivos claros y realistas que empoderan a los equipos a innovar y mejorar constantemente, garantizando la satisfacción del cliente y el crecimiento organizacional. Recuerda que el error budget crea un equilibrio entre la velocidad de desarrollo y la estabilidad del sistema, y esto es crucial para el éxito de cualquier proyecto tecnológico.