Métricas de salud en GitLab para prevenir fallas de infraestructura

Clase 50 de 53 • Curso de DevOps con GitLab

Contenido del curso

Introducción

Administración

Planificación

Verificación

Empaquetación

Seguridad

Distribución

Monitoreo

Conclusiones

53
Automatización en desarrollo con DevOps y GitLab
02:29 min

Tomar examen

Resumen

Comprende cómo las métricas de salud en GitLab anticipan fallas, evitan downtime y guían decisiones clave: optimizar código o escalar recursos. Con un monitoreo claro de CPU, memoria, latencia y throughput, es posible pasar de la reacción a la prevención y sostener el crecimiento cuando los workloads y los requests aumentan.

¿Qué son las métricas de salud y por qué influyen en decisiones críticas?

Las métricas de salud muestran si la infraestructura está por fallar. Cuando la utilización del CPU y la memoria se acercan a límites conocidos, toca decidir: optimizar para usar mejor los recursos o crecer la capacidad porque la demanda sube.

Indican riesgo de quedarnos sin memoria o procesamiento.
Permiten decidir entre tuning de código o escalamiento.
Reflejan crecimiento del negocio si las solicitudes aumentan.

¿Cómo priorizar salud sobre performance para reducir downtime?

La salud determina si el sistema corre. Si los objetivos de salud no se cumplen, el performance es secundario: el downtime cuesta más que unos milisegundos extra de respuesta.

Primero, estabilidad y disponibilidad.
Luego, optimizaciones de latencia.
Decisiones informadas por métricas reales de infraestructura y aplicación.

¿Cómo monitorear CPU, memoria, latencia y throughput en GitLab?

En la pestaña de métricas de GitLab, al hacer scroll aparecen gráficos de cores usados y memoria consumida en el cluster. Ahí se identifican límites de riesgo y se correlacionan eventos.

GitLab marca los releases para correlacionar cambios con picos.
Un cluster puede verse estable con piquitos durante deployments.
Durante un deploy se matan y crean pods, variando el uso de recursos.

¿Qué revelan los picos durante deployments sobre el uso de recursos?

Los picos muestran cambios momentáneos en cores y memoria por el ciclo de vida de pods durante el despliegue.

Más uso de cores al último deploy.
Menos uso general por reinicio de pods.
Variaciones ligeras, esperadas y observables.

¿Cómo entender la diferencia entre CPU y memoria con una analogía simple?

El CPU es como la “inteligencia” que ejecuta instrucciones; la memoria (RAM), las “páginas” donde se almacenan resultados.

CPU: capacidad de generar y ejecutar instrucciones.
Memoria: espacio para guardar información temporal.
Relación clara entre procesamiento y almacenamiento efímero.

¿Cómo configurar alertas en GitLab para actuar de forma preventiva?

GitLab permite crear alertas sencillas sobre cualquier métrica clave: memoria, cores, latencia y throughput. Esto evita enterarnos tarde y reaccionar cuando el problema ya ocurrió.

Definir umbrales cuando un pod usa 1 core o más de 0.5 core.
Alertar por igual o menor para detectar caídas anómalas de memoria.
Un bajón de memoria puede indicar falla de un componente.

¿Qué pasos seguir para activar una alerta útil y accionable?

Configurar la alerta es directo: elegir la métrica, fijar el umbral y añadir.

Seleccionar la métrica relevante para el servicio.
Establecer condición: mayor, menor o igual.
Confirmar con “add” para activarla.

¿Qué habilidades se fortalecen al trabajar con métricas de salud?

Observabilidad aplicada con GitLab.
Lectura de latencia y throughput en contexto.
Detección temprana de límites de riesgo en CPU y memoria.
Toma de decisiones: optimizar vs escalar.
Cultura de prevención con alertas y monitoreo continuo.

¿Tienes métricas de salud que te gustaría ver en GitLab o que uses para medir tu performance y estabilidad? Comparte tus ideas en los comentarios.

Comentarios

Gerardo Alberto Soto Alvarez del Castillo

student•

En mis practicas de Administración de Servidores en mi universidad utiliza vamos el software Munin para monitoria de los servidores, tiene buena documentación y es OpenSource.

Francisco Garcia [C6]

student•

Una metrica que me parece importante, es la capacidad disponible en Disco Duro, esto a menudo arroja errores diversos.

Pablo Aquino

student•

Las alertas de espacio en disco, Uso de % de memoria y CPU son básicas cuando monitoreamos la salud de los servidores.

Farid Ivanir Escate Picon

student•

Netdata es otro software bueno para monitorear servers on-premise

Fabian Andres Villon Garcia

student•

Como se establece o asigno metricas si no tengo mis servidores en k8, que herramientas debo instalar.

Victor Muchica Farfan

student•

La metrica de Disco y de uso de ancho de banda son recomendados

Eddie Andres Rios Elgueta

student•

Reacción reactiva: actuar después de un error
Reacción preventiva: actuar antes de un error, con el fin de sortearlo

Métricas de salud en GitLab para prevenir fallas de infraestructura

Introducción

DevOps con GitLab para automatizar entregas de software

Qué es DevOps y cómo integra desarrollo con operaciones

DevOps como ciclo iterativo continuo: etapas y beneficios clave

GitLab como plataforma integral para el ciclo de vida DevOps

Diferencias clave entre GitLab y GitHub para desarrolladores

Administración

Configuración de autenticación segura en GitLab

Grupos y subgrupos de GitLab para organizar proyectos y permisos

Gestión de permisos y colaboradores en GitLab

Rastros de auditoría en GitLab para administración segura

Creación y configuración de proyectos en GitLab

Planificación

Diferencias entre Agile y Waterfall en desarrollo de software

Creación y gestión de issues en GitLab para colaboración eficaz

Etiquetas para organizar issues en GitLab

Planificación en Gitlab-Pesos

Creación y gestión de milestones en GitLab para sprints y releases

Boards en GitLab para visualizar flujos de trabajo con issues

Service Desk de GitLab para soporte por correo electrónico

Planificación en Gitlab-Quick actions

Verificación

Inicialización de Angular con GitLab y test-driven development

Merge requests y control de calidad en GitLab

Flujo completo de merge requests en GitLab

Automatización de flujos de trabajo con GitLab CI

GitLab CI: configuración, stages y variables para automatización

Configuración de GitLab CI para proyectos Angular

Validación de archivos GitLab CI con linter antes del pipeline

gitlab-ci.yml

Configuración de GitLab Pages para hosting estático con CI

Configuración de GitLab Pages para deploy automático de Angular

Desarrollo ágil y sus doce principios fundamentales

GitLab AutoDevOps: pipelines automatizados con seguridad y calidad

Configuración de GitLab Auto DevOps con Kubernetes en Google Cloud

Configuración de Auto DevOps en GitLab con Kubernetes

Empaquetación

Integración de GitLab Container Registry con Auto DevOps

Introducción a contenedores

Seguridad

DevSecOps: integración de seguridad en el ciclo de desarrollo

Autenticación de commits con llaves PGP en GitLab

Pruebas estáticas de seguridad en GitLab para detectar vulnerabilidades

Análisis de contenedores con GitLab y Clair para detectar vulnerabilidades

Análisis de vulnerabilidades en dependencias de NPM, PIP y Composer

Pruebas dinámicas de seguridad con DAST en GitLab

GitLab Security Dashboard: hub centralizado de vulnerabilidades

Distribución

Continuous Deployment seguro con GitLab y control de riesgos

Configuración de ambientes en GitLab para desarrollo industrial

Review apps: ambientes efímeros por branch para feedback rápido

Estrategias de Distribución

Feature Flags

Rollback en GitLab para revertir errores en producción

Monitoreo

Importancia del monitoreo en DevOps y despliegue continuo

Métricas de desempeño en GitLab con Prometheus

Métricas de salud en GitLab para prevenir fallas de infraestructura

Métricas de equipo en GitLab para optimizar workflows de DevOps

Integración de GitLab con Sentry para rastrear errores en producción

Conclusiones

Automatización en desarrollo con DevOps y GitLab