Aún no tienes acceso a esta clase

Crea una cuenta y continúa viendo este curso

Implementar Uptime Monitoring

18/21
Recursos

Si vamos a medir nuestro Uptime como un indicador de SLO y SLI deberías usar un proveedor externo para tener la métrica interna y externa.

Ambas herramientas tanto Pingdom y Ping setean infraestructura en todo el mundo y luego llaman a la dirección que le digamos para verificar si estamos disponibles en cada parte. También nos dicen cuánto tardo en responder nuestro producto o website.

Aportes 4

Preguntas 1

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad? Crea una cuenta o inicia sesión.

Yo uso Pingdom en mi trabajo y es bastante bueno, tiene integraciones con Slack, SMS e Email y permite escalar a varios grupos dependiendo del tiempo que esté abajo el servicio. Tiene varias funcionalidades útiles para monitoreo, incluso puedes hacer tus propios scripts y que Pingdom monitoree el resultado.

Si tenemos un servicio público (un API o un sitio web) lo primero que el público va a mirar es si funciona o no, si está “arriba” o si está caído.
¿Cómo debemos medir esto?
Obviamente podemos monitorearlo internamente, que nuestra infraestructura permanezca constantemente haciendo peticiones al servicio para verificar su estado; sin embargo, esto no es 100% fiable porque si se cae nuestra infraestructura, no tendríamos manera de verificar el estado de nuestro servicio.
Lo recomendado para medir el uptime, es decir, si estamos arriba o no, como un indicator de SLO/SLI, es utilizar un third-party one (proveedor externo) para finalmente medir nuestra métrica de manera interna y de manera pública.
Hay gran variedad para escoger un servicio con estas características, y unos de ellos son Pingdom y Ping de Apex sh. Ambos despliegan infraestructuras en todas las partes del mundo, y desde dichas infraestructuras realizan las peticiones a nuestro servicio. Con uno de estos servicios, estaríamos probando:

  • Que a nivel de DNS mundialmente nuestro servicio esté funcionando correctamente (un servicio podría estar funcionando en un país pero no en otro por problemas de DNS).
  • El tiempo de respuesta. Esto es muy importante, para brindarle una mejor experiencia a nuestros usuarios.

Ya había escuchado de pingdom hace mucho tiempo pero aún no había escuchado un caso de uso real, me parece muy interesante