Understanding Infrastructure Metrics

Clase 11 de 23Curso de Observabilidad Avanzada con New Relic

Resumen

Las métricas de infraestructura muestran claramente la salud general de tu sistema, proporcionando rastros fundamentales para la toma de decisiones eficientes. Aprender a interpretar estas métricas en plataformas especializadas como New Relic facilita mantener una visión integral sobre el rendimiento y la operación de tu sistema, asegurando respuestas oportunas ante diversos escenarios.

¿Qué indica la métrica de uso de CPU?

El uso de CPU refleja el porcentaje utilizado en procesos de usuario, sistema y otras operaciones, incluyendo tiempos de espera (Input Output Weight) y tiempos inactivos (Idle Time). Es ideal mantener su promedio por debajo del 70%, permitiendo capacidad adicional ante aumentos repentinos. Preocúpate cuando este porcentaje se mantenga entre 80-90% de manera sostenida, ya que puede indicar degradación en rendimiento general del sistema y afectar aplicaciones asociadas.

¿Cómo interpretar correctamente el uso de memoria?

Esta métrica mide el RAM físico utilizado actualmente por el host, registrando memoria usada, de caché, almacenada en búfer y libre:

  • Mantener siempre entre 10% y 15% de memoria libre es recomendable.
  • Responde de forma proactiva ante incrementos continuos del uso de memoria, ya que podría estar ocurriendo un cuello de botella en el sistema.
  • Incrementos ocasionales y caídas corresponden generalmente a patrones normales de carga.

En contexto, si observas crecimiento sostenido de memoria, revisa inmediatamente procesos específicos como Kubernetes o Kafka, ya que podrían presentar rezagos en procesos esenciales.

¿Cuál es la relevancia del uso de almacenamiento en tu infraestructura?

El uso del espacio de almacenamiento muestra claramente cuánto espacio en disco ha sido ocupado, recomendándose utilizaciones menores al 80%. Si el almacenamiento supera este límite, podrías comenzar a experimentar lentitud en operaciones de lecto-escritura e impacto negativo sobre procesos generales del host. Máxima atención es requerida si tu capacidad se acerca o sobrepasa el 90%, ya que generará alto impacto en el tiempo de espera (Input-Output wait times).

¿Qué revela la métrica del tráfico de red?

El tráfico de red evalúa la transferencia de datos entre sistemas, contenedores y APIs externas, incluyendo la tasa de transferencia y paquetes así como errores. Se recomienda:

  • Ver estabilidad en el flujo de datos con picos y caídas normales correspondientes a actividad esperada.
  • Monitorear interrupciones repentinas en tráfico, ya que suelen significar problemas de conectividad.
  • Evaluar incrementos inexplicables en transferencia de datos, siendo señales posibles de rendimiento problemático o aumentos en tasas de error.

¿Cómo entender la métrica de uso del disco?

El uso del disco muestra claramente cuánto espacio utilizan diferentes dispositivos en tu infraestructura. Este apartado suele presentarse como una tabla sencilla, intuitiva y fácil de comprender en términos generales.

¿Qué significa el promedio de carga (load average)?

Este indicador expresa la carga general del sistema, midiendo cuántos procesos esperan o están usando la CPU. New Relic representa esta métrica en tres promedios distintos:

  • Promedio de 1 minuto, con picos más variables debido al menor número de puntos de datos capturados.
  • Promedio de 5 y 15 minutos, mostrando tendencias más estables.

Presta especial atención si observas promedios consistentemente superiores al número disponible de núcleos de CPU, indicando posible saturación o problemas de cuello de botella en procesos de entrada y salida, situación que amerita investigación inmediata.

Experiencias reales usando métricas de infraestructura

Seguro tienes anécdotas personales relacionadas con cómo las métricas de infraestructura facilitaron tu respuesta ante problemas técnicos críticos. Comparte en comentarios tu experiencia en interpretación y gestión de estas métricas; tus aportes enriquecerán nuestra comprensión y desempeño como profesionales técnicos.