Gestión de Incidentes: Ciclo de Vida y Mejores Prácticas

Clase 5 de 19 • Curso de Estrategia de Seguridad Informática para Empresas

Contenido del curso

Importancia de la seguridad de la información

Componentes clave de un programa de seguridad de la información

Gestión de riesgos

Continuidad del negocio

Software seguro

Diseño del equipo

Caso de estudio Platzi

19
Certificación ISO 27001: Implementación y Mejora Continua en Platzi
08:39 min

Tomar examen

Resumen

Saber cómo reaccionar ante un evento adverso en tus sistemas puede marcar la diferencia entre una interrupción menor y una crisis prolongada. La respuesta a incidentes es el proceso de gestionar eventos adversos para mitigar daños, recuperar operaciones y extraer lecciones que fortalezcan la organización a futuro. Aquí se explica el ciclo completo basado en el estándar NIST 800-61, desde la preparación hasta el análisis posterior.

¿Cómo se estructura el ciclo de vida de la gestión de incidentes?

El estándar NIST 800-61 organiza la gestión de incidentes en fases secuenciales que forman un ciclo continuo de mejora. Cada fase cumple un rol específico y alimenta a la siguiente.

¿Qué implica la fase de preparación?

La preparación [0:14] es el punto de partida. No se trata únicamente de tener un equipo listo, sino de contar con un plan claro que defina:

Quién puede comunicar el incidente al público y a los clientes.
Cuál es el mecanismo de notificación.
Qué riesgos existen para prevenirlos antes de que se conviertan en incidentes.

Entender los riesgos es la parte esencial de esta fase, porque prevenir siempre será más eficiente que reaccionar.

¿Cómo funciona la detección y el análisis?

Cuando un incidente ocurre, la primera pregunta es: ¿cómo nos enteramos? [1:04] Existe software especializado que recoge eventos constantemente. Estos eventos se evalúan para determinar si requieren atención inmediata o pueden pasar a un análisis posterior.

Una recomendación práctica es observar la frecuencia de señales. Un solo bip en el radar puede no ser alarmante, pero cuando aparecen dos, tres o más, esa repetición indica la gravedad del incidente [1:24].

Una vez detectado, el incidente pasa al escalamiento, que se organiza en tres niveles de atención [1:46]:

Nivel uno: la primera línea de soporte, operadores que leen señales y resuelven problemas simples.
Nivel dos: personas especializadas con conocimiento profundo del producto o proceso, capaces de mitigar el daño.
Nivel tres: equipo de investigación que interviene cuando no se ha identificado la causa raíz y se requiere análisis especializado.

¿Qué pasos seguir para contener y recuperar operaciones?

Ante cualquier incidente, la prioridad absoluta es la contención [2:24]. Esto puede significar desconectar un equipo, bloquear tráfico de cierto origen o tomar decisiones drásticas que en condiciones normales no se aplicarían.

Después de contener el daño viene la erradicación [2:50]: entender cómo evitar que el problema se repita. Finalmente, la recuperación restaura las operaciones normales y se declara que la organización está fuera de peligro.

¿Por qué el postmortem es clave para aprender de un incidente?

Todo incidente debe producir un postmortem [3:42], un documento que registra la secuencia completa de eventos, el momento en que se detectó el problema, las lecciones aprendidas y las acciones correctivas.

Es importante aclarar que este documento no se escribe en caliente [4:26]. Durante la atención, el equipo registra observaciones en un canal de comunicación dedicado a incidentes, sin importar si algunas hipótesis resultan incorrectas. Luego se construye el postmortem con información verificada.

La plantilla de referencia de Atlassian [4:08] sugiere incluir:

La primera señal o evento capturado.
El problema, su impacto y criticidad.
La línea de tiempo: quién reportó, quién atendió, qué acciones se ejecutaron.
La causa raíz identificada.
Lecciones aprendidas y next steps.

Para encontrar la causa raíz se recomienda la técnica de los cinco por qué [5:16]. Por ejemplo: falló la base de datos, ¿por qué? Porque hubo demasiadas conexiones de escritura, ¿por qué? Y así sucesivamente hasta llegar al origen real del problema.

¿Qué herramientas ayudan durante la atención de un incidente?

Cuando se reporta un problema, una práctica efectiva es consultar las páginas de estado de los proveedores de nube [6:13] como AWS, GCP o Azure. Esto permite descartar si la falla es interna o proviene de un proveedor externo.

Otro recurso útil es la página de estado de servicios como Cloudflare [6:36], que muestra qué componentes están operativos y cuáles presentan problemas.

También existen repositorios con plantillas de postmortem y ejemplos reales de incidentes atendidos [5:56], que sirven como guía para documentar adecuadamente cada caso.

El aprendizaje obtenido del postmortem retroalimenta directamente la fase de preparación, cerrando el ciclo. La pregunta clave siempre es: ¿qué debe aprender el equipo para responder de manera más efectiva la próxima vez? Si has gestionado incidentes en tu organización, comparte qué prácticas te han resultado más útiles.

Comentarios

Eloy Chávez Dev

student•

Me gusto como en este curso se explica el ciclo de vida de la respuesta a incidentes

Les comparto un pequeño ejemplo aplicado a los sistemas:

1. Preparación:

Desarrollar un plan de respuesta a incidentes: El plan debe definir los roles y responsabilidades, los procedimientos de respuesta y las herramientas que se utilizarán.
Identificar los activos críticos: Es importante identificar los activos que son más importantes para la organización y que deben protegerse con prioridad.
Realizar ejercicios de respuesta a incidentes: Los ejercicios ayudan a probar el plan de respuesta y a identificar las áreas que necesitan mejorar.

2. Detección:

Implementar medidas de detección: Se deben implementar medidas para detectar los incidentes de seguridad de manera rápida y eficiente.
Monitorear los sistemas y la red: Es importante monitorizar los sistemas y la red para identificar cualquier actividad anómala.
Investigar las alertas: Se deben investigar todas las alertas de seguridad para determinar si se ha producido un incidente.

3. Contención:

Aislar los sistemas afectados: Es importante aislar los sistemas afectados para evitar que el incidente se propague.
Deshabilitar las cuentas de usuario comprometidas: Se deben deshabilitar las cuentas de usuario que se han visto comprometidas.
Contener el malware: Se debe contener el malware para evitar que se propague a otros sistemas.

4. Erradicación:

Eliminar el malware: Se debe eliminar el malware de los sistemas afectados.
Limpiar los sistemas afectados: Se deben limpiar los sistemas afectados para eliminar cualquier rastro del incidente.
Restaurar los sistemas a su estado original: Se deben restaurar los sistemas a su estado original antes del incidente.

5. Recuperación:

Desarrollar un plan de recuperación: El plan de recuperación debe definir cómo se restaurarán los sistemas y los datos a su estado original.
Implementar el plan de recuperación: Se debe implementar el plan de recuperación para restaurar los sistemas y los datos a su estado original.
Aprender del incidente: Es importante aprender del incidente para mejorar el plan de respuesta a incidentes y prevenir futuros incidentes.

Diego Fernando Ramos Aguirre

student•

Gran aporte, gracias por ejemplo de aplicación.

Sergio Trujillo Ortega

student•

excelente resumen, recomendación que no pediste, prueba usar emojis 😅🫶🍀

Miguel Angel Franco

student•

5. Respuestas a incidentes

Son eventos adversos para mitigar potenciales daños recuperar operaciones y aprender de estas lecciones para mejoras futuras.

5.1. Preparación

El plan que se va a desarrollar cuando ocurra un incidente.

· ¿Quién puede comunicar el incidente?

· ¿Quién tiene la autorización de dar a conocer a sus clientes lo que esta ocurriendo?

Entender los riesgos para evitar esos incidentes.

5.2. Detección y análisis

Hay softwares especializados que está recopilando eventos, esos eventos son evaluados y pueden indicar el tipo de problema según la necesidad de atención. Se usan normalmente 3 niveles de atención:

· Primer nivel: Primera línea de atención al usuario o los operadores que leen las señales, ellos darán solución a problemas mínimos ocurridos.

· Segundo nivel: Al no ser solucionado el problema en el primer nivel, se le dará información a personal mas especializado al producto o proceso, para mitigar el daño y ar solución.

· Tercer nivel: Cuando se llega a este punto porque no se detecta la raíz del problema, se requiere investigación y a su vez un equipo especializado.

1.3. Contención, erradicación y recuperación

· Contención: contener el equipo que está ocasionando el incidente.

· Erradicación: Como evitar que este incidente suceda de nuevo.

· Recuperación: Se finalizará la operación de recuperación de las fases normales y se****** indicará que estamos fuera de peligro.

1.4. Actividad post-incidente

· Crear canales útiles en los canales de contención.

· Pregunta entre colegas las dudas, soluciones y problemas sucedidos anteriormente.

· Es necesario llamar a un equipo de expertos.

Construir un documento de análisis post-mortem, es un documento que me explica la secuencia

Diego Fernando Ramos Aguirre

student•

Gracias por el resumen, muy bueno.

Juan Carlos Gutiérrez Ayala

student•

Gestión de eventos adversos para mitigar potenciales daños.

800-601 NIST

Preparación

Detección y análisis. Qué tan grave es. Hay tres niveles de atención usuales:

Primer nivel.

Segundo nivel si el problema es más complejo.

Tercer nivel, para problema complejo donde no se tiene determinada la causa raíz.

Contención, erradicación y recuperación. Lo primero es contener el daño o aislar el equipo que minimice drásticamente el daño. La recuperación se tiene al volver con la operación normal.

Actividad post-incidente.

Tener canales de comunicación eficientes. Construir documento de análisis post-mórtem. Las acciones y aprendizaje nos retroalimentan sobre qué hacer para minimizar una exposición y que no vuelva a ocurrir.

Iriquel Bernabel

student•

Gracias, Así es, ¡muy acertado! La implementación del análisis post-mortem ya que tiene como objetivo concienciar, informar y dar a conocer a altos directivos el evento.

Fernando Sánchez Mejía

student•

Respuesta a incidentes

Se refiere a la gestión de eventos adversos, para mitigar potenciales daños, recuperar operaciones y aprender de estas lecciones para mejoras futuras.

Ciclo de vida de respuesta a incidentes

Preparación: Del equipo que va atender los incidentes, el plan que vamos a desarrollar cuando curra, quien puede comunicar el incidente. Entender los riesgos para evitar y mitigar los incidentes.
Detección y análisis: Como nos enteramos. Tenemos software especializado que recoge los eventos. Esos son evaluados y nos indica si es un problema que puede ser atendido de una vez o debe ira a un análisis posterior. Frecuencia de los eventos ayuda a detectar que tan grave es el incidente. Recomendable clasificar los incidentes para escalar según su complejidad.
Contención, erradicación y recuperación: Siempre que se atienda un incidente es importante hacer una contención del daño del mismo. Una vez contenido, empezamos a entender como evitar que nos vuelva a suceder, eso es la erradicación y finalizamos con la recuperación de las operaciones normales e indicamos que estamos fuera de peligro.
Actividad post-incidente: Útil tener canales de comunicación entre todos los niveles. Análisis de las lecciones aprendidas. Un documento que explique todo lo que paso en el momento, las lecciones aprendidas y los siguientes pasos. Esto nos regresa a la fase de preparación.

Cuando atendemos un incídete lo más importante es lo que aprendimos de este. Y generar un documentos post-mortem o post incídete.

Otro elemento importante es una línea de tiempo incluido, quien reporto, quien atendió, que acciones se ejecutaron. Identificar la causa raíz, si es conocida.

❓ Recomendable usar la técnica de los 5 porqués

Eloy Chávez Dev

student•

También les comparto mi fork de los postmortem templates que no los vi en la sección de recursos en este momento.

Sergio Trujillo Ortega

student•

😁👌

Andrés Felipe Bermudez

student•

Todos estos cursos de ciberseguridad son sólo descripciones pero enrealidad ninguno muestra cómo hacer las cosas. Todos los cursos describen qué es el concepto, una descripción del proceso, pero no da herramientas para capacitarse en el Cómo.

Kevin Plazas

student•

En udemy si te brindan herramientas sin tanta cnsura por decirlo asi

Edwin Omar de la Cruz Garcia

student•

¿Qué es el NIST 800-61?

El NIST 800-61 es una publicación especial del Instituto Nacional de Estándares y Tecnología (NIST, por sus siglas en inglés) de los Estados Unidos. También se conoce como "Computer Security Incident Handling Guide" o "Guía de Manejo de Incidentes de Seguridad Informática".

Esta guía proporciona directrices detalladas sobre cómo detectar, mitigar y responder a incidentes de seguridad informática en organizaciones. Está diseñada para ayudar a los equipos de seguridad y a los profesionales de TI a manejar de manera efectiva los incidentes de seguridad, minimizando el impacto en la organización y reduciendo el riesgo de futuros incidentes.

El NIST 800-61 aborda varios aspectos del manejo de incidentes, incluyendo la preparación para incidentes, la detección y análisis de incidentes, la contención y erradicación de amenazas, la recuperación de sistemas y datos, y la respuesta a incidentes a nivel organizativo.

En resumen, el NIST 800-61 es una referencia importante para las organizaciones que desean establecer un proceso eficaz para manejar incidentes de seguridad informática de manera proactiva y eficiente.

MARIA TERESA PANIAGUA RIVERA

student•

Gracias

Gestión de Incidentes: Ciclo de Vida y Mejores Prácticas

Importancia de la seguridad de la información

Implementación de un Programa de Seguridad de la Información

Seguridad de la Información: Implementación y Estrategia Empresarial

Componentes clave de un programa de seguridad de la información

Componentes Clave de un Programa de Seguridad de la Información

Elementos Clave de Políticas de Seguridad de la Información