Métricas vs logs: cuándo usar cada uno

Clase 20 de 21 • Curso Profesional de DevOps

Resumen

Prioriza decisiones con datos claros: las métricas y dashboards ofrecen una visión rápida, comparable y comunicable del estado de un servicio. Los logs siguen siendo útiles, pero suelen entrar en juego cuando algo ya salió mal. En operaciones reales (como en Auth0 con Datadog), comparar versiones, ver latencia y entender errores con visualizaciones acelera el diagnóstico y mejora la comunicación técnica y no técnica.

¿Por qué mirar métricas antes que logs?

Las métricas permiten ver tendencias, comparar versiones y detectar picos sin perderse en líneas de texto. Además, se pueden generar visualizaciones incluso a partir de logs, pero un dashboard bien diseñado simplifica el análisis y lo hace compartible.

¿Qué problema resuelven dashboards de métricas?

Resumen visual de errores y latencia en tiempo real.
Comparaciones A/B claras entre servicios en producción.
Comunicación efectiva con equipos no técnicos.
Detección de picos y patrones que en logs pasan desapercibidos.

¿Cuáles son los tipos de métricas universales?

Plataformas como Datadog y otros vendors comparten un lenguaje común: counters, histograms y gadgets. Estos tipos se entienden en el ecosistema y permiten estandarizar la observabilidad.

Un counter incrementa por evento, por ejemplo, un error.
Un histogram modela distribuciones de tiempos, como la latencia.
Los gadgets ayudan a construir visualizaciones en dashboards.

¿Cómo comparar versiones y latencia con dashboards?

En producción, es posible reemplazar una versión por otra y enviar tráfico a ambas para comparar. Así, se observan tasas de error, latencia y consistencia con claridad, sin depender de leer logs línea por línea.

¿Cómo hacer comparación A/B en producción?

Usa una vista tipo client side errors comparison para observar errores en paralelo.
Envía un counter por cada error en lugar de solo usar logs.
Identifica picos de errores y su frecuencia en cada versión.
Decide si la nueva versión es igual o mejor antes de el rollout total.

¿Cómo evaluar latencia y consistencia?

Compara la latencia con un histogram entre versiones.
Detecta si una versión es más rápida pero menos consistente por sus picos.
Define un SLO: por ejemplo, latencia menor de cien en la mayoría de la window de cuatro horas.
Observa ventanas de una hora o cuatro horas para confirmar estabilidad.

¿Qué medir y cómo controlar costos en vendors de métricas?

Medir “todo” es tan contraproducente como llenar de logs. Tanto logs como métricas cuestan (almacenamiento, procesamiento y facturación). La cardinalidad y el volumen pueden disparar costos, así que la prudencia es clave.

¿Qué sí medir en tu servicio?

Tiempo desde que entra el request al servidor hasta que sale.
Duración de llamadas a la base de datos.
Contadores de errores por operación relevante.
Métricas que impacten directamente al servicio, no detalles triviales.

¿Cómo ser prudente con costos y cardinalidad?

Evita métricas que no aporten decisiones.
Controla la cardinalidad: limita etiquetas que multiplican series.
Complementa métricas con logs solo cuando aporte valor.
Ajusta en producción según necesidades reales.

Además, cuando surgen incidentes, los dashboards marcan la diferencia: permiten ver el estado, comunicar hallazgos y coordinar acciones con rapidez. Los logs siguen ahí como apoyo, pero lidera con métricas.

¿Tú cómo equilibras counters, histograms y logs en producción? Comparte tus prácticas y dudas en los comentarios.

Benjamín Casazza

teacher•

Es importante mencionar que cuando tienes logs y herramientas de monitoreo hay distintas formas de monitorear un aplicativo ya que algunos pueden ser: -Browser (alguna ruta critica por ejemplo un carrito de compra) -Infraestructura como instancias o servidores -Application Performance Monitoring (APM) etc

Por lo tanto es muy importante saber como SRE que monitorear para resolver que situación por ejemplo si es un aplicativo web es imporante ver estos factores: -Largest Contentful Paint (LCP) -First Input Delay (FID) -Cumulative Layout Shift (CLS) De esa forma resolver si es un tema del browser, del CDN, del aplicativo o de la Infraestrcutra

https://web.dev/i18n/es/vitals/

Jonathan Barzola

student•

Muchisimas gracias Benjamín!

Juan David Cajamarca Acuña

student•

No midamos cosas triviales, midamos cosas que impacten nuestro servicio. Lo mismo para los logs, ambas cosas cuestan, sólo reportemos lo importante.

Edith Giselle Lopez Lopez

student•

Me parece que las Metricas juegan un papel muy importante y al saberlos usar es bastante interesante lo que se muestra

Alejandro Sanchez

student•

Wau spanglish

Iván Toro

student•

Datadog (Wikipedia).

uRieL Martinez Bautista

student•

Esto es muy interesante, este curso no veo que tiene mucha demanda y se lo atribuyo a que hace falta mas contenido sobre el back, arquitectura, etc.

Isaías Soto

student•

Para monitorizar métricas de latencia en producción, algunos de los mejores servicios incluyen:

DataDog: Proporciona dashboards interactivos y métricas en tiempo real.
Prometheus: Ideal para sistemas en contenedores, se integra bien con Kubernetes.
Grafana: Visualiza métricas desde diferentes fuentes, incluyendo Prometheus.
AWS CloudWatch: Para aplicaciones en la nube de AWS, permite establecer alarmas y visualización de métricas.

Estos servicios se aplican a plataformas que manejan aplicaciones web, microservicios y entornos de contenedores.

Didier Sotto Acosta

student•

"Mide cosas que impacten el servicio, no triviales".

Lourdes Marianela Sotelo Espinoza

student•

Las métricas son buena si se entienden, analizan y con eso se toman decisiones

Jonnathan Ramiro Juma Jara

student•

Podrían agregar como implementar varios tipos de herramientas para monitorio.

Gerardo Alberto Soto Alvarez del Castillo

student•

Una de tantas herramientas para monitorear servidores es Munin y cuenta con varios Plugins: http://munin-monitoring.org/ Ejemplo de como utilizarlo: https://www.youtube.com/watch?v=9LZfjg9KE9Y

José Hugo Calderón Villanueva

student•

Las metricas te permiten indentificar algunas posibles fallas.

Métricas vs logs: cuándo usar cada uno

Introducción

Qué es DevOps según un Site Reliability Engineer

Containers y ambientes de desarrollo

Docker soluciona "works on my machine"

Node.js con dependencias fijas y caché Docker

Infraestructura como código con Terraform

Pruebas

Mocha en containers: cómo correr pruebas sin instalar nada

Por qué tests centralizados son clave en CI

Integración Continua

Qué hace Continuous Integration paso a paso

Creación de una tienda en línea con Shopify

Correr pruebas con Docker local y Jenkins

Publicar imágenes Docker a Docker Hub desde Jenkins

Jenkins con herramientas de análisis externas

Despliegue Continuo

Automatiza deployments con Now desde Jenkins

Blue/Green vs Canary vs Rolling deployment

Acceptance tests en staging evitan desastres

Flujo CI/CD completo: Jenkins desde staging hasta producción

Reliability

Qué hacer cuando suena el teléfono por un incidente

SLOs y SLIs: midiendo la calidad de software

Monitoreo externo para uptime y latencia

Logs en producción: estructura, niveles y alertas

Métricas vs logs: cuándo usar cada uno

Cierre del curso

Flujo CI/CD completo con Docker y Jenkins