Métricas de infraestructura en New Relic: CPU, memoria y red
Clase 11 de 23 • Curso de Observabilidad Avanzada con New Relic
Resumen
Las métricas de infraestructura son claves para conocer la salud y desempeño de tus sistemas informáticos. Aprender a interpretar estos datos en plataformas como New Relic te permite tomar decisiones acertadas para optimizar recursos y mantener la estabilidad de tu infraestructura tecnológica.
¿Qué muestra el uso de CPU en tus sistemas informáticos?
La métrica del uso de CPU revela qué porcentaje del tiempo de procesamiento emplean tus máquinas en tareas específicas como procesos del sistema, procesos de usuario y tiempos de espera. Para proteger el rendimiento del sistema, la utilización promedio debería mantenerse por debajo del 70%, aunque picos ocasionales son normales.
Es preocupante una utilización constante por encima del 80 a 90%, ya que esto indica posibles problemas graves en las aplicaciones subyacentes y una degradación general del servicio. Si observas que la utilización es demasiado baja de manera constante, podría ser momento de reducir los recursos asignados.
¿Cómo afecta el uso de memoria al rendimiento de tu infraestructura?
Monitorear la memoria utilizada por tu host es crucial porque asegura que tengas siempre un margen suficiente para soportar incrementos temporales en la actividad. Es ideal mantener una disponibilidad de memoria entre el 10 y 15%, evitando sobrepasar el uso del 80%.
Debes actuar cuando notes aumentos sostenidos en la memoria, ya que pueden indicar problemas, como cuellos de botella o ralentización del sistema. La identificación temprana del incremento constante y anormal en el uso de memoria puede evitar fallas mayores en servicios alojados que utilizan estos recursos.
¿Cuándo es alarmante el uso de almacenamiento?
Revisar el almacenamiento es sencillo pero crítico. Evitar superar el 80% del uso del disco asegura un rendimiento óptimo tanto en memoria como en CPU. Si el uso supera el 90%, enfrentarás lentitud persistente en operaciones clave de lectura y escritura.
La gestión adecuada del espacio en disco garantiza una respuesta rápida del sistema y previene tiempos prolongados de espera en procesamiento de datos.
¿De qué forma influye el tráfico de red en tu sistema?
El rendimiento, errores y flujo de datos entre tu infraestructura y sistemas externos son fundamentales para ofrecer un servicio eficaz. El tráfico de red ideal presenta picos y valles predecibles que corresponden al uso regular del sistema por parte de los usuarios.
Al detectar caídas o aumentos repentinos en el tráfico, es importante investigar posibles problemas, como interrupciones de conectividad o degradaciones en APIs específicas. Esto ayudará a mantener la estabilidad en la interacción con usuarios y servicios externos.
¿Cuál es el significado del promedio de carga en New Relic?
El promedio de carga refleja la cantidad de procesos en espera o activos usando la CPU del sistema durante períodos definidos (1, 5 y 15 minutos). En situaciones normales, el promedio de carga debería fluctuar constantemente y regresar a una línea base estable.
Si el valor promedio excede constantemente el número de núcleos de CPU disponibles, puede significar que existe una incapacidad para manejar la carga actual, incluso si el uso de CPU se reporta como bajo. Notar estos comportamientos ayuda a identificar cuellos de botella específicos del sistema, optimizando así su desempeño global.
¿Has experimentado situaciones similares en tu día a día trabajando con infraestructuras tecnológicas? Comparte tu experiencia en los comentarios y discutamos cómo estas métricas te han ayudado a resolver problemas concretos.