Qué hacer cuando suena el teléfono por un incidente

Curso Profesional de DevOps

Contenido del curso

Introducción

1
Qué es DevOps según un Site Reliability Engineer
04:51 min

Containers y ambientes de desarrollo

Pruebas

Integración Continua

Despliegue Continuo

Reliability

Cierre del curso

21
Flujo CI/CD completo con Docker y Jenkins
02:07 min

Tomar examen

Qué hacer cuando suena el teléfono por un incidente

Resumen

Cuando suena el teléfono, necesitas un plan claro. Aquí vas a encontrar cómo actuar con triage disciplinado, comunicación transparente y post‑mortems útiles para que el equipo que despliega a producción también maneje sus incidentes, reduzca el estrés y evite repetir errores.

¿Quién debe manejar los incidentes y cómo decidir con triage?

En lugar de delegar siempre a infraestructura, la propuesta es que quien envía el software a producción se haga cargo. Servicios como Pager Duty pueden alertarte y escalar si no respondes, pero asumir el incidente implica liderazgo y foco desde el primer minuto.

¿Qué significa estar on call y asumir el incidente?

Confirmar: “lo manejo yo” y evitar escalación innecesaria.
Abrir un canal de comunicación con el equipo desde el inicio.
Registrar cada acción en un timeline para no repetir pasos.
Usar logs y dashboards para validar hipótesis rápido.
Mantener la compostura y trabajar con calma.

¿Cómo aplicar triage y priorizar?

Evaluar impacto: ¿es pequeño o significativo?.
Si es menor, marcar como resuelto o diferir con criterio.
Si es importante, medir alcance y abrir comunicación con el equipo.
Documentar: “ya verifiqué X, Y, Z” para evitar retrabajo y preguntas.

¿Cómo comunicar con status page y evitar escalación y tickets?

La comunicación es crucial. Tanto si afecta a clientes externos como si es interno, anunciar el estado reduce ruido, evita duplicar esfuerzos de soporte y genera confianza.

¿Qué y cuándo informar a clientes internos o externos?

Publicar en el status page o canal interno: “sabemos que hay un problema y estamos trabajando”.
Actualizar por etapas: “identificamos”, “estamos arreglando”, “enviamos la fix a producción”, “estamos monitoreando”.
Cerrar como resuelto cuando haya confianza real en la estabilidad.
Recordar: una buena comunicación evita tickets, tuits y pánico innecesario.

¿Por qué la comunicación reduce estrés y errores?

Evita interrupciones de soporte con preguntas repetidas.
Disminuye el ruido que aumenta el estrés durante el incidente.
Centraliza respuestas en un solo lugar y muestra transparencia.
Es el primer paso práctico de un buen incident response.

¿Qué incluye un post-mortem y cómo compartir el aprendizaje?

Cuando termina el incidente, el trabajo clave comienza. Un buen post‑mortem es donde aprendes, previenes regresiones y ayudas a que la organización mejore de forma concreta.

¿Cómo usar el timeline después del incidente?

Reconstruir la secuencia de eventos con fecha y acciones.
Usarlo para entender decisiones y tiempos de reacción.
Publicarlo interno si aporta claridad, aunque no siempre es necesario.

¿Qué debe contener un post-mortem efectivo?

Qué falló y por qué falló.
Cómo no nos dimos cuenta antes.
Qué haremos al respecto para mejorar.
Ejemplos útiles: faltó un log; no había timeout; manejo de errores incorrecto cuando Facebook no estaba disponible.
Datos para contexto: fecha, cantidad de errores, tiempo de downtime.
Un resumen claro para clientes y una disculpa honesta cuando aplique.
Contexto técnico y gráficas que sirvan para aprender internamente.
Difusión interna: un blog post interno ayuda a que otros equipos eviten el mismo problema, sin perseguir a nadie.

Consejo práctico: si el teléfono suena por lo mismo otra vez, no te castigues, arregla la causa raíz y compártelo dentro del equipo para que no vuelva a pasar.

¿Qué prácticas te han funcionado cuando estás on call? Comparte tu experiencia y enfoques para mejorar el incident response de tu equipo.

Juan David Cajamarca Acuña

Estudiante

Usualmente, son los operadores quienes manejan los incidentes de la compañía (a ellos son a los que llaman [en horario extra-laboral]), aunque no debería ser siempre así; los trabajadores que desarrollan el software son quienes deberían manejar sus incidentes.

Cuando ocurre un incidente, tenemos una llamada y aceptamos el manejo del mismo, quiere decir que no se va a escalar a otra persona y que seremos el responsable de ello.

Debemos verificar la dimensión del incidente. Si es algo pequeño, puede que no sea necesario resolverlo de manera inmediata y puede ser resuelto en horario laboral o en un momento específico. Si por otro lado, es un incidente grande, lo atendemos de forma inmediata.
Abrir un canal de comunicación con nuestros compañeros.
Llevar un Timeline. Anotar cada paso llevado a cabo, una secuencia de eventos con fecha. Con esto, nos evitamos tener que repetir pasos que ya hemos realizado, o que ingrese un nuevo trabajador y explicarle lo que ya le hemos explicado a varias personas, también nos ahorraríamos el tener que responder dudas e inquietudes de nuestros compañeros; estaría todo documentado. (Los video-chats no se guardan). No siempre es necesario publicar el Timeline en un incidente; sin embargo, es muy importante tenerlo, puesto que si llegan más personas a atender el asunto, habrán muchas preguntas, lo cual se transforma en estrés y entre más estrés tengamos, más errores cometeremos. El Timeline es mucho más efectivo después del incidente. Puede ser compartido entre los compañeros internos para que sepan cómo manejamos el incidente.
Notificar a nuestro cliente. No importa si el cliente es público o interno, pero debemos notificar la situación. Debemos informarle al cliente que ya estamos trabajando en dicho incidente (aunque no sepamos aún qué está sucediendo con exactitud), y a medida que vayamos avanzando, le vamos notificando de los pasos que estamos dando para que esté al tanto hasta que resolvamos el incidente. La comunicación es crucial, y así, le damos confianza al cliente de que cada vez que algo salga mal, se lo diremos. Sin comunicación, el cliente comenzará a insistir y a hacer preguntas (las cuales ya debieron haber sido respondidas en un documento) lo cual se resume en estrés, que no es saludable para un momento de resolución de incidentes.
El proceso no termina cuando se soluciona el incidente, sino que luego debemos escribir un Post-Mortem. A pesar de que es tedioso, es la mejor manera de aprender. El Post-Mortem es una explicación detalla sobre qué estuvo mal, por qué estuvo mal, por qué no nos dimos cuenta antes y qué haremos al respecto, qué vamos a mejorar. Puede ser estructurado con un resumen de manera que nuestro cliente de nivel ejecutivo pueda comprender, donde también se pueden pedir disculpas de manera formal, y luego añadir una sección bastante técnica sobre el incidente (con gráficas de ser posible) porque literalmente es de ahí de donde aprendemos qué hicimos mal. Es importante que el cliente vea la sección técnica, para que esté enterado de que como compañía estamos aprendiendo y que muy probablemente este incidente no volverá a ocurrir.
Lo más importante: comunicar sobre el incidente internamente. Ya sabemos manejar el incidente, la compañía crece, los equipos crecen, y las probabilidades de que le vuelva a ocurrir ese mismo incidente a otro equipo, aumentan.

Qué hacer cuando suena el teléfono por un incidente

Introducción

Qué es DevOps según un Site Reliability Engineer

Containers y ambientes de desarrollo

Docker soluciona "works on my machine"

Node.js con dependencias fijas y caché Docker

Infraestructura como código con Terraform

Pruebas

Mocha en containers: cómo correr pruebas sin instalar nada

Por qué tests centralizados son clave en CI

Integración Continua

Qué hace Continuous Integration paso a paso

Continuos Integration VS Continuos Delivery

Correr pruebas con Docker local y Jenkins

Publicar imágenes Docker a Docker Hub desde Jenkins

Jenkins con herramientas de análisis externas

Despliegue Continuo

Automatiza deployments con Now desde Jenkins

Blue/Green vs Canary vs Rolling deployment

Acceptance tests en staging evitan desastres

Flujo CI/CD completo: Jenkins desde staging hasta producción

Reliability