Monitoreo externo para uptime y latencia

Clase 18 de 21 • Curso Profesional de DevOps

Resumen

La confiabilidad no se improvisa: medir uptime y latencia con SLOs y SLIs es clave para saber si tu API o website realmente funciona para el público. Aquí encontrarás cómo elegir indicadores útiles, por qué el monitoreo debe ser third party y cómo enlazarlo con despliegues en Now para mejorar la experiencia del usuario.

¿Cómo medir uptime y latencia con SLOs y SLIs?

Definir SLOs y SLIs te permite observar lo que importa: disponibilidad y tiempos de respuesta desde la perspectiva del usuario. No todos los servicios se miden igual; por ejemplo, no tiene sentido medir la latencia de un HTTP request a un worker que no escucha un puerto. El indicador debe reflejar el comportamiento real de lo que expones públicamente.

Disponibilidad percibida: ¿está arriba o no? Lo que el usuario pregunta es si puede usar el servicio.
Latencia relevante: medir el tiempo de respuesta impacta la experiencia.
Contexto del servicio: una API puede no tener redundancia global; un website sí puede, para bajar latencia.

¿Qué medir y qué evitar en workers?

Evitar SLIs que no aplican: no medir HTTP si no hay puerto.
Alinear SLIs con el diseño del servicio: cada indicador debe tener sentido técnico y de producto.

¿Cómo impactan la latencia y el uptime al cliente?

Menor latencia por cercanía regional mejora la experiencia.
Un SLO de respuesta bajo ciertos milisegundos ayuda a definir objetivos claros.

¿Por qué usar un proveedor externo para monitoreo?

Medir desde tu propia infraestructura no es totalmente confiable: si tu plataforma cae, también cae tu medición. Un proveedor externo aporta independencia y visión global. Servicios como Pingdom o apex.sh Ping configuran infraestructura en múltiples regiones para llamar tu dirección y reportar disponibilidad y tiempos de respuesta.

Independencia operativa: mide aunque tu infraestructura falle.
Cobertura mundial: verifica si el DNS resuelve y responde en diferentes países.
Detección de fallas parciales: un país puede fallar por DNS aunque en otro funcione.
Métricas de tiempo: reportan cuánto tarda en responder tu endpoint.

¿Cómo funcionan los probes y qué indican?

Cada prueba externa es un probe. Si empiezas a fallar probes, lo primero es preguntar si hubo deployment. Si no hubo cambios, toca indagar con logs, metrics y excepciones. Un buen rastreo de errores con exception trackers simplifica el ciclo de mejora corrigiendo bugs.

¿Cómo integrar el monitoreo con Now y mejorar latencia?

Trata tu deployment en Now como productivo y practica continuous delivery: si no automatizas el intercambio de DNS, no es continuous deployment. Configura un CNAME hacia la dirección activa para recibir tráfico constante y observar el comportamiento cuando hay cambios. Podrás ver cómo migra el tráfico entre deployments y ejecutar un rollback si hace falta.

Configurar CNAME para apuntar al deployment en Now.
Observar latencia y disponibilidad con Uptime Monitoring siempre activo.
Analizar regiones con mayor latencia y explorar redundancia global.

¿Qué estrategia DNS usar con CNAME y continuous delivery?

CNAME hacia el deployment actual para mantener tráfico constante.
Cambios de DNS visibles en la migración de tráfico entre versiones.
Facilita rollback cuando una versión nueva falla probes.

¿Cómo reducir latencia con regiones y redundancia global?

Lanzar en múltiples regiones para acercarte al usuario.
Comparar métricas entre regiones: por ejemplo, un deployment en San Francisco vs otra región en paralelo.
Establecer un objetivo de respuesta en milisegundos por región.

¿Tienes experiencias midiendo con third parties o ajustando regiones en Now? Comparte en comentarios qué SLIs te han servido más y cómo te fue con los probes.

Comentarios

Arantxa Giovanna Rosas Del Valle

student•

Yo uso Pingdom en mi trabajo y es bastante bueno, tiene integraciones con Slack, SMS e Email y permite escalar a varios grupos dependiendo del tiempo que esté abajo el servicio. Tiene varias funcionalidades útiles para monitoreo, incluso puedes hacer tus propios scripts y que Pingdom monitoree el resultado.

Juan Jose Vega

student•

Puedes escribir un post sobre eso, cómo lo usas y tus truquitos.

Mario Cortés

student•

Genial, voy a indagar mas sobre esa herramienta.

Juan David Cajamarca Acuña

student•

Si tenemos un servicio público (un API o un sitio web) lo primero que el público va a mirar es si funciona o no, si está "arriba" o si está caído. ¿Cómo debemos medir esto? Obviamente podemos monitorearlo internamente, que nuestra infraestructura permanezca constantemente haciendo peticiones al servicio para verificar su estado; sin embargo, esto no es 100% fiable porque si se cae nuestra infraestructura, no tendríamos manera de verificar el estado de nuestro servicio. Lo recomendado para medir el uptime, es decir, si estamos arriba o no, como un indicator de SLO/SLI, es utilizar un third-party one (proveedor externo) para finalmente medir nuestra métrica de manera interna y de manera pública. Hay gran variedad para escoger un servicio con estas características, y unos de ellos son Pingdom y Ping de Apex sh. Ambos despliegan infraestructuras en todas las partes del mundo, y desde dichas infraestructuras realizan las peticiones a nuestro servicio. Con uno de estos servicios, estaríamos probando:

Que a nivel de DNS mundialmente nuestro servicio esté funcionando correctamente (un servicio podría estar funcionando en un país pero no en otro por problemas de DNS).
El tiempo de respuesta. Esto es muy importante, para brindarle una mejor experiencia a nuestros usuarios.

Ezequiel

student•

Si están acá por el reto de observabilidad podemos ver la ventaja de tener integrado en la plataforma de New Relic los Synthetics para monitorear la disponibilidad desde distintas regiones como hicimos en el curso sin tener que implementar una herramienta externa

Jhonatan Jose Maria Ibañez Taccsi

student•

Con el curso de observabilidad de New Relic se puede crear un Ping Monitor :)

Fabian Devia Saenz

student•

Recomiento https://uptimerobot.com/

Carlos Alberto Gutierrez Ramirez

student•

Los exhorto a estudiar a todos...

Wilmer Jaramillo M.

student•

Dejo por aqui mi herramienta para tener uptime:

Jonathan Salamanca Criado

student•

esto es lo mejor que he integrado en mis sistemas

Edith Giselle Lopez Lopez

student•

Las herramientas de Uptime Monitoring son herramientas todas paga. Existe alguna buena free

Frank Enderson Leon Linares

student•

Puedes crearte una tu mismo o tomar como ejemplo algunas que hay libres y modificarlas un ejemplo aquí. podrías hacer en cualquier lenguaje o utilizar nagios es una buena opción. https://github.com/danawoodman/python-uptime-monitor https://motoma.io/basic-server-monitoring-with-python/

Danilo Pazos

student•

Ya había escuchado de pingdom hace mucho tiempo pero aún no había escuchado un caso de uso real, me parece muy interesante

Monitoreo externo para uptime y latencia

Introducción

Qué es DevOps según un Site Reliability Engineer

Containers y ambientes de desarrollo

Docker soluciona "works on my machine"

Node.js con dependencias fijas y caché Docker

Infraestructura como código con Terraform

Pruebas

Mocha en containers: cómo correr pruebas sin instalar nada

Por qué tests centralizados son clave en CI

Integración Continua

Qué hace Continuous Integration paso a paso

Creación de una tienda en línea con Shopify

Correr pruebas con Docker local y Jenkins

Publicar imágenes Docker a Docker Hub desde Jenkins

Jenkins con herramientas de análisis externas

Despliegue Continuo

Automatiza deployments con Now desde Jenkins

Blue/Green vs Canary vs Rolling deployment

Acceptance tests en staging evitan desastres

Flujo CI/CD completo: Jenkins desde staging hasta producción

Reliability

Qué hacer cuando suena el teléfono por un incidente

SLOs y SLIs: midiendo la calidad de software

Monitoreo externo para uptime y latencia

Logs en producción: estructura, niveles y alertas

Métricas vs logs: cuándo usar cada uno

Cierre del curso

Flujo CI/CD completo con Docker y Jenkins