Que hacer cuando suena el teléfono:
- Mide el alcance del error (Mide el impacto del error).
- Comunícate con el cliente y compañeros.
- Escribe un postmortem.
Introducción
Introducción y Filosofia de DevOps
Containers y ambientes de desarrollo
Ambientes Homogéneos para Applicaciones
Implementación de Dockerfile
Ambientes Homogéneos para Infraestructura
Pruebas
Implementación de Pruebas
Sin pruebas no hay confianza
Integración Continua
Continuous Integration y Artifacts
Continuos integration y Continuos delivery
Implementación de CI con Jenkins
Implementación de Artifacts con Jenkins
Herramientas Externas en proceso de CI
Despliegue Continuo
CD a Ambiente Staging
Continous Deployments
Implementar acceptance tests en Jenkins
Completar Pipeline de CD
Reliability
Introducción a Incident Response
Introducción a Reliability - SLO/SLI
Implementar Uptime Monitoring
Exception Trackers y Logs
Métricas
Cierre del curso
Conclusiones
No tienes acceso a esta clase
¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera
A menudo se asume que los operadores deben gestionar todos los incidentes en una compañía, pero, ¿es realmente eficaz? Muchos expertos y empresas están empezando a desafiar esta convención. Se plantea que los mismos desarrolladores que envían el software a producción deberían también encargarse de manejar sus propios incidentes. Esta estrategia ofrece diversas ventajas:
Por ello, herramientas como PagerDuty resultan indispensables, ya que permiten gestionar alertas y notificaciones de manera efectiva, incluso activando escalaciones cuando el personal designado no responde.
Responder a un incidente requiere de un proceso bien definido para asegurar que se maneje de manera eficiente y reducir al mínimo el impacto. Aquí te presentamos un enfoque paso a paso de cómo actuar cuando surge un incidente:
Evaluación inicial (Triage):
Notificación a clientes:
Documentación y proceso de mejoras:
Un postmortem no es simplemente una revisión de un incidente; es una oportunidad valiosa para aprender y mejorar. Consiste en realizar un análisis exhaustivo de qué salió mal, por qué ocurrió y cómo prevenirlo en el futuro. Aquí te presentamos los elementos esenciales de un postmortem eficaz:
Pagder Duty ofrece excelentes recursos y ejemplos sobre cómo estructurar un postmortem. Además, compañías como Outzettle publican incidentes significativos, ofreciendo contexto técnico y disculpándose con los clientes, lo que refuerza la confianza en su compromiso con la mejora continua.
Dado que las empresas están en constante crecimiento y evolución, la documentación interna se vuelve crucial para que cualquier lección aprendida esté fácilmente disponible para nuevos miembros del equipo, asegurando que los errores no se repitan. Así que, aunque redactar un postmortem puede parecer tedioso, es una inversión en inteligencia organizacional y una herramienta poderosa para evitar que tu teléfono suene otra vez por la misma razón.
Aportes 11
Preguntas 0
Que hacer cuando suena el teléfono:
Facebook se cayó hace poco. No importa cuando leas esto…
Usualmente, son los operadores quienes manejan los incidentes de la compañía (a ellos son a los que llaman [en horario extra-laboral]), aunque no debería ser siempre así; los trabajadores que desarrollan el software son quienes deberían manejar sus incidentes.
Cuando ocurre un incidente, tenemos una llamada y aceptamos el manejo del mismo, quiere decir que no se va a escalar a otra persona y que seremos el responsable de ello.
Excelente la honestidad!
Excelente clase
Muy buenos concejos, te agradezco todo.
El documentar el proceso y los incidentes que pasan me parece que es muy importante en las compañías porque como lo menciona el profesor si llega uno nuevo al caso y se esta tardando mas de lo esperado ya esta documentado todo el proceso que hiciste y en ocasiones las imágenes también son importantes en este proceso de documentar
Les recomiendo ver este video de Freddy narrando la caída de Gitlab es oro puro
Muy buena explicación y relevancia al proceso de incidentes!!!
Buen clase!
¿Quieres ver más aportes, preguntas y respuestas de la comunidad?