Resumen

Prioriza decisiones con datos claros: las métricas y dashboards ofrecen una visión rápida, comparable y comunicable del estado de un servicio. Los logs siguen siendo útiles, pero suelen entrar en juego cuando algo ya salió mal. En operaciones reales (como en Auth0 con Datadog), comparar versiones, ver latencia y entender errores con visualizaciones acelera el diagnóstico y mejora la comunicación técnica y no técnica.

¿Por qué mirar métricas antes que logs?

Las métricas permiten ver tendencias, comparar versiones y detectar picos sin perderse en líneas de texto. Además, se pueden generar visualizaciones incluso a partir de logs, pero un dashboard bien diseñado simplifica el análisis y lo hace compartible.

¿Qué problema resuelven dashboards de métricas?

  • Resumen visual de errores y latencia en tiempo real.
  • Comparaciones A/B claras entre servicios en producción.
  • Comunicación efectiva con equipos no técnicos.
  • Detección de picos y patrones que en logs pasan desapercibidos.

¿Cuáles son los tipos de métricas universales?

Plataformas como Datadog y otros vendors comparten un lenguaje común: counters, histograms y gadgets. Estos tipos se entienden en el ecosistema y permiten estandarizar la observabilidad. - Un counter incrementa por evento, por ejemplo, un error. - Un histogram modela distribuciones de tiempos, como la latencia. - Los gadgets ayudan a construir visualizaciones en dashboards.

¿Cómo comparar versiones y latencia con dashboards?

En producción, es posible reemplazar una versión por otra y enviar tráfico a ambas para comparar. Así, se observan tasas de error, latencia y consistencia con claridad, sin depender de leer logs línea por línea.

¿Cómo hacer comparación A/B en producción?

  • Usa una vista tipo client side errors comparison para observar errores en paralelo.
  • Envía un counter por cada error en lugar de solo usar logs.
  • Identifica picos de errores y su frecuencia en cada versión.
  • Decide si la nueva versión es igual o mejor antes de el rollout total.

¿Cómo evaluar latencia y consistencia?

  • Compara la latencia con un histogram entre versiones.
  • Detecta si una versión es más rápida pero menos consistente por sus picos.
  • Define un SLO: por ejemplo, latencia menor de cien en la mayoría de la window de cuatro horas.
  • Observa ventanas de una hora o cuatro horas para confirmar estabilidad.

¿Qué medir y cómo controlar costos en vendors de métricas?

Medir “todo” es tan contraproducente como llenar de logs. Tanto logs como métricas cuestan (almacenamiento, procesamiento y facturación). La cardinalidad y el volumen pueden disparar costos, así que la prudencia es clave.

¿Qué sí medir en tu servicio?

  • Tiempo desde que entra el request al servidor hasta que sale.
  • Duración de llamadas a la base de datos.
  • Contadores de errores por operación relevante.
  • Métricas que impacten directamente al servicio, no detalles triviales.

¿Cómo ser prudente con costos y cardinalidad?

  • Evita métricas que no aporten decisiones.
  • Controla la cardinalidad: limita etiquetas que multiplican series.
  • Complementa métricas con logs solo cuando aporte valor.
  • Ajusta en producción según necesidades reales.

Además, cuando surgen incidentes, los dashboards marcan la diferencia: permiten ver el estado, comunicar hallazgos y coordinar acciones con rapidez. Los logs siguen ahí como apoyo, pero lidera con métricas.

¿Tú cómo equilibras counters, histograms y logs en producción? Comparte tus prácticas y dudas en los comentarios.