Monitoreo externo para uptime y latencia
Clase 18 de 21 • Curso Profesional de DevOps
Contenido del curso
Containers y ambientes de desarrollo
Pruebas
Integración Continua
Despliegue Continuo
Reliability
Cierre del curso
La confiabilidad no se improvisa: medir uptime y latencia con SLOs y SLIs es clave para saber si tu API o website realmente funciona para el público. Aquí encontrarás cómo elegir indicadores útiles, por qué el monitoreo debe ser third party y cómo enlazarlo con despliegues en Now para mejorar la experiencia del usuario.
¿Cómo medir uptime y latencia con SLOs y SLIs?
Definir SLOs y SLIs te permite observar lo que importa: disponibilidad y tiempos de respuesta desde la perspectiva del usuario. No todos los servicios se miden igual; por ejemplo, no tiene sentido medir la latencia de un HTTP request a un worker que no escucha un puerto. El indicador debe reflejar el comportamiento real de lo que expones públicamente.
- Disponibilidad percibida: ¿está arriba o no? Lo que el usuario pregunta es si puede usar el servicio.
- Latencia relevante: medir el tiempo de respuesta impacta la experiencia.
- Contexto del servicio: una API puede no tener redundancia global; un website sí puede, para bajar latencia.
¿Qué medir y qué evitar en workers?
- Evitar SLIs que no aplican: no medir HTTP si no hay puerto.
- Alinear SLIs con el diseño del servicio: cada indicador debe tener sentido técnico y de producto.
¿Cómo impactan la latencia y el uptime al cliente?
- Menor latencia por cercanía regional mejora la experiencia.
- Un SLO de respuesta bajo ciertos milisegundos ayuda a definir objetivos claros.
¿Por qué usar un proveedor externo para monitoreo?
Medir desde tu propia infraestructura no es totalmente confiable: si tu plataforma cae, también cae tu medición. Un proveedor externo aporta independencia y visión global. Servicios como Pingdom o apex.sh Ping configuran infraestructura en múltiples regiones para llamar tu dirección y reportar disponibilidad y tiempos de respuesta.
- Independencia operativa: mide aunque tu infraestructura falle.
- Cobertura mundial: verifica si el DNS resuelve y responde en diferentes países.
- Detección de fallas parciales: un país puede fallar por DNS aunque en otro funcione.
- Métricas de tiempo: reportan cuánto tarda en responder tu endpoint.
¿Cómo funcionan los probes y qué indican?
Cada prueba externa es un probe. Si empiezas a fallar probes, lo primero es preguntar si hubo deployment. Si no hubo cambios, toca indagar con logs, metrics y excepciones. Un buen rastreo de errores con exception trackers simplifica el ciclo de mejora corrigiendo bugs.
¿Cómo integrar el monitoreo con Now y mejorar latencia?
Trata tu deployment en Now como productivo y practica continuous delivery: si no automatizas el intercambio de DNS, no es continuous deployment. Configura un CNAME hacia la dirección activa para recibir tráfico constante y observar el comportamiento cuando hay cambios. Podrás ver cómo migra el tráfico entre deployments y ejecutar un rollback si hace falta.
- Configurar CNAME para apuntar al deployment en Now.
- Observar latencia y disponibilidad con Uptime Monitoring siempre activo.
- Analizar regiones con mayor latencia y explorar redundancia global.
¿Qué estrategia DNS usar con CNAME y continuous delivery?
- CNAME hacia el deployment actual para mantener tráfico constante.
- Cambios de DNS visibles en la migración de tráfico entre versiones.
- Facilita rollback cuando una versión nueva falla probes.
¿Cómo reducir latencia con regiones y redundancia global?
- Lanzar en múltiples regiones para acercarte al usuario.
- Comparar métricas entre regiones: por ejemplo, un deployment en San Francisco vs otra región en paralelo.
- Establecer un objetivo de respuesta en milisegundos por región.
¿Tienes experiencias midiendo con third parties o ajustando regiones en Now? Comparte en comentarios qué SLIs te han servido más y cómo te fue con los probes.