Curso de Ingeniería en Observabilidad con New Relic

Thresholds estáticos vs dinámicos en alertas

Curso de Ingeniería en Observabilidad con New Relic

Thresholds estáticos vs dinámicos en alertas

Resumen

Configurar alertas en una herramienta de observabilidad no es solo elegir un número y esperar lo mejor. Los thresholds o umbrales de referencia definen cuándo tu sistema te avisa que algo va mal, y entender la diferencia entre estáticos y dinámicos te ayuda a detectar anomalías reales sin ahogarte en falsas alarmas.

¿Qué es un threshold estático y cuándo conviene usarlo?

Un threshold estático espera un valor fijo definido por ti. Tú decides el número, el sistema lo respeta al pie de la letra.

Piensa en la alerta que configuramos antes: avisar al usuario cuando hay menos de cinco transacciones. Ese cinco lo pusiste tú, y mientras no lo cambies, esa será la línea roja sin importar el día ni la hora.

Este tipo de configuración funciona bien cuando ya conoces el comportamiento de tu aplicación y tienes claro qué valor representa un problema. Pero, ¿qué pasa cuando tu negocio cambia de ritmo según la hora o el día? Ahí el estático se queda corto.

¿Qué es un threshold estático? Es una regla de alerta donde tú defines manualmente el valor límite. El sistema dispara la alerta cuando se cruza ese número exacto, sin importar el contexto.

¿Cómo funcionan los thresholds dinámicos y por qué importan?

Los thresholds dinámicos no esperan un valor que tú insertes. Generan ese valor automáticamente analizando el histórico de datos de tu aplicación.

Y aquí viene lo interesante: lo que es positivo o negativo para tu aplicación no necesariamente lo es para otra parecida. Cada sistema tiene su propio pulso, y los umbrales dinámicos respetan esa huella.

Imagina la misma alerta de cinco transacciones, pero ahora ajustada según el día y la hora. Si tu negocio normalmente espera menos transacciones los domingos a las 3 a. m., el sistema lo entiende y no te despierta sin razón. Eso es ajuste dinámico.

¿Para qué casos son ideales los umbrales dinámicos?

Se destacan en dos escenarios concretos:

  • Encontrar anomalías automáticamente en tu entorno sin tener que calcular tú los rangos normales.
  • Aplicaciones nuevas donde aún no has establecido niveles de rendimiento y necesitas que el sistema aprenda solo.

En la configuración puedes elegir entre estática, anomalía o dinámica. Además, puedes jugar con tus datos agregando un query en NRQL, y la plataforma autogenera el gráfico correspondiente para que veas el comportamiento esperado en tiempo real.

¿Cómo defino la prioridad crítica o warning de una alerta?

Un umbral sin prioridad es ruido. Por eso, al definir un threshold, tienes que decirle al sistema qué tan grave es cuando se cruza esa línea. Hay dos niveles.

¿Cuándo usar prioridad crítica?

Un issue crítico es un problema que necesita resolverse inmediatamente. Está causando un impacto fuerte al negocio y puede incluso detener tus operaciones. No lo dejes pasar.

Ejemplos típicos: caída total del servicio, errores masivos en transacciones de pago, base de datos sin responder.

¿Y cuándo basta con un warning?

Un warning puede convertirse en una infracción crítica, pero todavía no lo es. Tienes un poco más de margen de tiempo, aunque te recomiendo no descuidarlo antes de que suba de nivel.

No es algo que detenga el negocio, pero mantenlo en el radar. Es la señal temprana de que algo se está desviando.

¿Cuál es la diferencia entre crítico y warning? Crítico exige acción inmediata porque ya está afectando al negocio. Warning es una advertencia temprana que puede escalar, pero aún no es urgente.

A diferencia de configuraciones anteriores donde solo elegías una opción, aquí puedes definir ambos niveles en la misma alerta: un valor que dispare warning y otro más grave que dispare crítico. Así construyes una escalera de respuesta en lugar de un interruptor de todo o nada.

Conceptos clave para configurar alertas inteligentes

Antes de cerrar, vale la pena fijar los términos que aparecieron y que vas a usar todo el tiempo al trabajar con observabilidad:

  • Threshold estático: valor fijo definido manualmente por el usuario.
  • Threshold dinámico o de anomalía: valor calculado automáticamente con base en el histórico de datos.
  • NRQL: lenguaje de consulta que te permite construir queries y generar gráficos automáticos sobre tus datos.
  • Prioridad crítica: nivel de alerta para problemas que detienen o afectan gravemente el negocio.
  • Prioridad warning: nivel de alerta para situaciones que pueden escalar a críticas si no se atienden.

Déjame saber en los comentarios qué configuración usas más en tu día a día: ¿estáticos, dinámicos o una mezcla de ambos?