Logs en producción: estructura, niveles y alertas

Clase 19 de 21 • Curso Profesional de DevOps

Resumen

Domina los logs en producción con estructura, niveles correctos y alertas accionables. Aquí se explica cómo pasar de simples prints a un sistema fiable basado en structured logging, exception tracking y una cultura de responsabilidad on call que reduce caos y acelera la respuesta ante fallos.

¿Por qué los logs en producción requieren estructura y niveles claros?

Cuando producción falla, no puedes “reiniciar y probar” como en local. Los logs deben ser moderados, útiles y siempre parseables. Con miles de máquinas y un flujo inmenso, el texto libre no escala: necesitas structured logging en JSON para que cualquier sistema pueda agregar, filtrar y analizar sin fricción.

Usa niveles de log: logger.info, logger.warn, logger.error, logger.fatal. Cada uno comunica severidad y urgencia.
Estandariza el formato: structured logging en JSON permite parsear y agregar. Evita mezclar texto libre con objetos sin estándar.
Priorización efectiva: busca fatal cuando el servicio cae. Trata como error lo que controlas internamente. Deja en info fallos de servicios externos que no controlas, si no impactan la disponibilidad.
Ejemplo de herramientas: Pino en Node facilita structured logging en JSON.

Ideas clave:

“Ser moderado con los logs” porque cuestan y pueden saturar. Aun así, cuando “todo se rompe”, los logs son tu ancla.
Sin estructura, no podrás “meterlo en ningún sistema de logs para agregar”. La estandarización es no negociable.

¿Qué ventajas aporta el structured logging en JSON?

Parseo confiable: cada entrada es un objeto con claves predecibles.
Búsquedas precisas: filtra por nivel, servicio, request-id o error-id.
Agregación y visualización: integra con tu pila de observabilidad sin hacks.

¿Cómo decidir el nivel correcto de cada evento?

Evalúa impacto en usuario y estado del servicio.
Define reglas claras por dominio: qué es info, warn, error, fatal en tu aplicación.
Mantén consistencia para que los filtros funcionen cuando más importa.

¿Cómo organizar la responsabilidad y el on call para incidentes?

La persona o equipo que despliega es quien debe estar on call. No delegues en un operador ajeno: quien tiene más contexto soluciona más rápido y mejor.

Recibe alertas de lo crítico y haz seguimiento de cada incidente.
Evita buscar a ciegas en un “stream infinito”: usa un exception tracker para errores no manejados.
Envía excepciones a un “bucket” especial: priorízalas y dales visibilidad.

Prácticas recomendadas:

Integraciones útiles: crear un issue en GitHub, enviar alerta a Slack, o ambas según severidad.
Usa reglas de severidad: si es crítico, que suene el teléfono; si es menor, que vaya a un backlog para revisión sin prisa.
Observa el life cycle por release: relaciona excepciones con despliegues para rastrear regresiones rápido.

¿Por qué un exception tracker cambia el juego?

Centraliza errores no manejados con contexto suficiente para actuar.
Permite reglas de alerta por severidad e impacto.
Prioriza: lo que llega al exception tracker merece más atención que el ruido de logs generales.

¿Qué decisiones tomar sobre exception tracking y datos sensibles?

Hay soluciones abiertas como Sentry (puedes auto-hospedar) o usar el servicio del proveedor. Considera:

Si lo corres en tu infraestructura y se cae, también caen las alertas: te quedas ciego.
Prefiere no enviar datos personales en errores: minimiza riesgo y habilita proveedores externos con tranquilidad.
Define una integración entre tu logger y el exception tracker para no duplicar código.

¿Cómo mapear niveles de log a Sentry sin esfuerzo extra?

Un patrón productivo: asociar niveles altos a envíos automáticos al exception tracker. Así, quien usa la librería no debe “pensarlo”.

// Ejemplo conceptual con Pino + Sentry (Node.js)
import pino from 'pino'
import * as Sentry from '@sentry/node'

Sentry.init({ dsn: process.env.SENTRY_DSN })
const logger = pino({ level: 'info' })

function log(level, msg, context = {}) {
  logger[level]({ msg, ...context })
  if (['error', 'fatal'].includes(level)) {
    Sentry.captureMessage(msg, level.toUpperCase())
  }
}

// Uso
log('info', 'servicio iniciado', { service: 'api' })
log('error', 'falló dependencia interna', { service: 'api', code: 'EDEP' })
log('fatal', 'servicio caído', { service: 'api' })

Beneficios prácticos reportados:

Menos llamadas a operaciones y más control del equipo dueño del servicio.
Alertas alineadas a quien puede arreglar el problema.
Flujo natural: logger.error y logger.fatal van a Sentry; el resto, solo a la pila de logs.

¿Tienes una práctica útil de structured logging o un flujo de on call que te funciona? Comparte tu enfoque y qué alertas realmente te ayudan a reaccionar a tiempo.

Juan David Cajamarca Acuña

student•

Los niveles en los logs son sumamente importantes, y también el definirlos correctamente.

También es sumamente importante manejar los logs con una estructura que pueda ser parseada. De esta manera, si tenemos que estudiar un bloque gigante de logs de errores, podríamos utilizar un sistema de logs o desarrollar un script que procese esa información.

Un Exception es un error que no está manejado en nuestro código. Si esto llega a ocurrir en nuestro servicio, debería ir a un Bucket diferente; debería ir en la pila de logs, pero también debe tener un espacio especial en algún lado (crear un issue en GitHub, crear un Slack alert, etc) con el fin de llamar nuestra atención para que podamos atenderlo y resolverlo lo más rápido posible, aunque no cause downtime. Esto es Exception tracking.

Hay varias soluciones para Exception Tracking, una de ellas es Sentry. Sentry nos permite enviar un Exception hacia ellos y establecer reglas (si hay un error de cierta severidad, por ejemplo, se nos notificará a través de nuestro teléfono móvil; o si es un error leve, se crea una historia de usuario en el Backlog de Sentry y nos llega un mensaje a Slack, el cual podremos ver en jornada laboral sin ninguna prisa). El objetivo es que lo que llegue a Sentry debe tener nuestra atención por encima de lo que esté reportado en los logs, porque son fallas que directa o indirectamente afectan a la plataforma en producción.

Es muy importante contar con un Exception Tracker para estudiar el lifecycle de los despliegues a producción.

Eddy Arellanes

student•

Para NodeJs me gusta usar winston https://github.com/winstonjs/winston

JUAN CARLOS PARRA GALAN

student•

es el mejor

Johanna Paola Escobar Fandiño

student•

Es una buena practica tener estructurados los logs.

Iván Toro

student•

PinoJS

José Hugo Calderón Villanueva

student•

Buena practica usar log para todo

Oswaldo Cruz Simon

student•

Escribí un blog sobre log estructurado que puede complementar lo que se comenta esta clase sobre como crear alertar y manejar los niveles de logs ademas ayuda a encontrar errores lógicos solamente revisando los logs. https://medium.com/@oswaldo-cruz/best-practices-for-log-monitoring-e8522ae1d05b

Isaías Soto

student•

Para clasificar los logs y entender mejor la severidad de los problemas, utiliza niveles de log adecuados. Los más comunes son:

Info: Para mensajes informativos que no indican un problema.
Warn: Advertencias sobre condiciones que podrían convertirse en problemas.
Error: Indica fallos en la ejecución que pueden afectar el funcionamiento.
Fatal: Errores críticos que causan la caída del sistema.

Además, considera implementar Structured Logging para que los logs sean más fáciles de analizar. Esto consiste en usar un formato estándar como JSON, facilitando la búsqueda y el filtrado en sistemas de gestión de logs.

Danilo Pazos

student•

Una duda que siempre he tenido, es durante cuánto tiempo se debe almacenar los logs productivos, cuánto tiempo es lo ideal o buena practica?

He visto empresas donde lo tienen 1 mes, 3 meses, un año.

Oscar Osvaldo Ozorio

student•

Siempre dependerá de la política de la empresa en cuanto a auditoria y recuperación de datos.

Isaías Soto

student•

La mejor manera de trabajar con logs de bases de datos implica varias prácticas:

Estructura de logs: Usa un formato consistente como JSON para facilitar la parsificación y búsqueda.
Clasificación por niveles: Clasifica los logs en niveles como INFO, WARN, ERROR y FATAL. Esto ayuda a priorizar la atención.
Uso de herramientas: Implementa un sistema de seguimiento para excepciones, como Sentry, que te permita gestionar y alertar sobre errores críticos.
Monitoreo proactivo: Establece métricas para monitorear el rendimiento y posibles fallos en tiempo real.

Esto asegura que puedas identificar y resolver problemas eficientemente.

Edith Giselle Lopez Lopez

student•

¿Debemos también colocar errores que se solucionan en menos de 10 minutos ?

Jose SRE

student•

Consejo importante al usar logs en Sentry

フレーム

student•

Los logs son fundamentales en la etapa de monitoreo.

Logs en producción: estructura, niveles y alertas

Introducción

Qué es DevOps según un Site Reliability Engineer

Containers y ambientes de desarrollo

Docker soluciona "works on my machine"

Node.js con dependencias fijas y caché Docker

Infraestructura como código con Terraform

Pruebas

Mocha en containers: cómo correr pruebas sin instalar nada

Por qué tests centralizados son clave en CI

Integración Continua

Qué hace Continuous Integration paso a paso

Creación de una tienda en línea con Shopify

Correr pruebas con Docker local y Jenkins

Publicar imágenes Docker a Docker Hub desde Jenkins

Jenkins con herramientas de análisis externas

Despliegue Continuo

Automatiza deployments con Now desde Jenkins

Blue/Green vs Canary vs Rolling deployment

Acceptance tests en staging evitan desastres

Flujo CI/CD completo: Jenkins desde staging hasta producción

Reliability

Qué hacer cuando suena el teléfono por un incidente

SLOs y SLIs: midiendo la calidad de software

Monitoreo externo para uptime y latencia

Logs en producción: estructura, niveles y alertas

Métricas vs logs: cuándo usar cada uno

Cierre del curso

Flujo CI/CD completo con Docker y Jenkins