Supuestos que rompen sistemas de IA sin tocar código

Clase 12 de 12 • Curso de Ética y Manejo de Datos para Inteligencia Artificial

Contenido del curso

Decisiones responsables con datos y LLMs

Privacidad, seguridad y propiedad de datos

Sesgos, calidad y confiabilidad de modelos

Gobernanza y cumplimiento aplicables al trabajo

Resumen

Cuando un sistema de inteligencia artificial se despliega, sus reglas y controles se diseñan bajo ciertos supuestos. Pero esos supuestos no son estáticos: el modelo evoluciona, los datos crecen y los usuarios encuentran usos que nadie anticipó. Entender dónde se mueven esos supuestos y cómo responder es la diferencia entre un sistema confiable y uno que genera daño sin que nadie lo note.

La analogía es clara: los límites de velocidad en una autopista se definieron pensando en ciertos autos, frenos y pavimento. Si ahora circulan vehículos autónomos con mejores sensores, la regla no cambió, pero el contexto sí, y eso puede volver la regla insuficiente o incluso peligrosa [0:12]. Con los sistemas de IA pasa exactamente lo mismo.

¿Cuáles son los tres supuestos que se mueven sin aviso?

Existen tres tipos de supuestos que cambian silenciosamente y que todo equipo debería monitorear de forma activa.

¿Cómo afecta el comportamiento del modelo?

Un sistema que en 2025 respondía preguntas básicas de salud tenía límites claros. Un modelo más capaz puede dar recomendaciones mucho más específicas y convincentes, aunque el diseño original sea el mismo [0:35]. Las señales de alerta incluyen:

Respuestas que antes eran consistentes y ahora no lo son.
El modelo rechaza cosas que antes hacía o hace cosas que antes rechazaba.
Sube la tasa de alucinaciones [0:49].

¿Qué riesgos trae el acceso a nuevos datos?

Cada nueva fuente de datos es una nueva puerta. Un hospital que suma datos de un reloj inteligente ahora tiene frecuencia cardíaca y sueño mezclados con historia clínica. Dos datasets inofensivos por separado se vuelven sensibles juntos [1:03]. Otro ejemplo: una tarjeta de supermercado, datos de farmacia y una aseguradora. El resultado es que se pueden inferir enfermedades y ajustar precios. Cada paso parecía pequeño, pero el efecto combinado no lo fue.

¿Por qué los casos de uso no previstos son tan peligrosos?

Un chatbot de recursos humanos que empieza a redactar documentos legales o un modelo de crédito que se usa para filtrar candidatos laborales son ejemplos de misma herramienta, distinto impacto [1:27]. Y lo más importante: ninguno de estos cambios requiere tocar código.

¿Cómo clasificar dónde está el problema?

Antes de corregir, hay que localizar. La clasificación se divide en tres niveles: riesgo de modelo, riesgo de producto y riesgo de proceso [1:42].

Si el modelo responde distinto, el problema está en el modelo: auditas versiones.
Si responde igual pero la decisión cambia, el problema está en el producto: revisas lógica y métricas.
Si cambian los datos, el problema está en el proceso: auditas el pipeline de datos [1:58].

La herramienta clave es un log de decisiones. Cada output debería registrar versión del modelo, datos usados y decisión final. Sin eso, estás adivinando [2:10].

Para detectar usos no previstos, hay que prestar atención a consultas fuera del diseño original, usuarios fuera del público objetivo, picos raros de uso o quejas inesperadas [2:20]. Al detectar algo nuevo, un checklist rápido ayuda: ¿quién es afectado? ¿Qué decisión impacta? ¿Hay un humano en el loop? ¿Hay datos sensibles? ¿Puede discriminar? Si más de dos preguntas no tienen respuesta clara, detené su uso [2:40].

¿Cómo construir controles operativos reales?

La plantilla de revisión de escenarios tiene cinco campos: supuesto cambiado, riesgo, daño, control y responsable [2:55]. La brecha de control es la distancia entre el riesgo y lo que realmente se está controlando. Bloquear la palabra "salario" no bloquea "cuánto gana María" [3:08]. Para evaluar esa brecha: define qué puede salir mal, qué hace realmente el control y qué tan lejos está de cubrir el problema. Probalo bajo estrés, eso es red teaming: si podés romper el sistema, la brecha es real [3:22].

El resultado no es un informe, es un backlog. Cada ítem tiene ID, control, brecha, dueño, fecha, dependencias y estado [3:32]. Un control medible tiene número: no es "parece seguro", sino "97 de 100 bloqueos fueron efectivos" [3:52]. Ejemplos de métricas útiles:

Prompts dañinos detectados.
Rechazos activos.
Violaciones de acceso.
Acciones confirmadas por humanos [4:00].

Sin números no hay auditoría real. Un caso concreto: un asistente de atención al cliente que al principio respondía preguntas simples y ahora recibe solicitudes de recomendaciones financieras, respondiendo sin que nadie haya cambiado el modelo ni el código [4:12]. Las preguntas que surgen son exactamente las de este marco: ¿qué supuesto cambió? ¿Dónde está el riesgo? ¿Qué control implementarías primero?

Dejá tu análisis o un caso real donde te haya pasado algo parecido en los comentarios.

Comentarios

Juan Carlos Martínez Lima

student•

Siempre será importante el factor humano . pero con conocimiento del proceso ..

Santiago Pineda Botero

student•

1. Diagnóstico breve de la clase

Qué promete: Identificar riesgos en sistemas de IA mediante la detección de supuestos cambiantes sin modificar el código fuente.
Qué entrega realmente: Un marco conceptual básico para categorizar riesgos (modelo, producto, proceso) y una estructura operativa para documentar brechas de control.
Para quién sirve: Gestores de producto, analistas de datos o responsables de cumplimiento que necesitan supervisar sistemas de IA en producción sin perfil técnico de ingeniería.
Principal límite: La ausencia de técnicas de monitoreo técnico automatizado, delegando la gestión a procesos manuales y documentación.

2. Qué enseña realmente y qué solo aparenta enseñar

Enseña una taxonomía de riesgos y una metodología de auditoría basada en registros de decisiones y plantillas de escenarios. Aparenta enseñar una auditoría técnica profunda, pero en realidad propone una gestión de riesgos administrativa. No profundiza en cómo detectar técnicamente el "drift" (desviación) del modelo, limitándose a la observación cualitativa.

3. Contenidos de la clase

Explícitos: Clasificación de riesgos (modelo, producto, proceso), importancia del log de decisiones, checklist de evaluación de impacto, estructura de backlog de auditoría.
Inferenciales: La necesidad de una cultura de gobernanza de datos, la fragilidad de los sistemas de IA ante cambios de contexto, la insuficiencia de los controles de seguridad basados en palabras clave.
Ausentes: Métricas estadísticas de detección de deriva (drift), técnicas de adversarial testing automatizado, herramientas de observabilidad de IA (LLMOps), manejo de sesgos en embeddings.

4. Vacíos, omisiones y riesgos pedagógicos

Falla pedagógica al no definir cómo medir técnicamente la "brecha de control". Se menciona la necesidad de números ("97 de 100"), pero no se enseña cómo obtener esos datos de forma sistemática. Existe un riesgo de falsa seguridad al sugerir que una plantilla de Excel (backlog) es suficiente para mitigar riesgos críticos en producción.

5. Evaluación por nivel

Qué sí corresponde: Identificación de riesgos y categorización de problemas.
Qué faltó y era exigible: Métodos para validar la integridad de los datos de entrada y técnicas básicas de monitoreo de alucinaciones.
Qué no sería razonable exigir: Implementación de técnicas avanzadas de alignment o re-entrenamiento de modelos.

6. Aplicación real de lo aprendido

Contexto: Entornos corporativos donde se despliegan modelos pre-entrenados (APIs) en flujos de trabajo críticos.
Uso: Auditoría de cumplimiento en sistemas de atención al cliente o filtrado de candidatos.
Limitaciones: Ineficiente para sistemas de alta frecuencia o donde el volumen de consultas hace imposible la revisión manual de logs.

7. Qué más investigar y qué puede profundizarse más

Investigar: Conceptos de Data Drift y Concept Drift, marcos de trabajo como NIST AI RMF, y herramientas de observabilidad (LangSmith, Arize, WhyLabs).
Profundizar: Técnicas de Red Teaming para LLMs y métodos estadísticos para detectar cambios en la distribución de los datos de entrada.

8. Evidencia

Directa: Transcripción que detalla la tríada de riesgos (modelo, producto, proceso) y la plantilla de 5 campos.
Inferencias: El enfoque es puramente de gestión de riesgos, no de ingeniería de software.
Límites: El material es introductorio y carece de rigor técnico para entornos de producción a gran escala.

9. Conclusión honesta

Fortaleza: Claridad en la separación de responsabilidades (modelo vs. producto vs. proceso).
Debilidad: Enfoque excesivamente manual y artesanal para un problema que requiere automatización.
Mejora mínima: Incluir al menos una herramienta de monitoreo de logs para automatizar la detección de anomalías.

10. 5 preguntas avanzadas

Pregunta: ¿Por qué la distinción entre riesgo de modelo y riesgo de producto es crítica para la asignación de recursos? Respuesta: Porque el riesgo de modelo requiere intervención técnica (ajuste de hiperparámetros o versión), mientras que el de producto requiere cambios en la lógica de negocio o reglas de filtrado. Elemento: Tríada de riesgos. Importancia: Evita desperdiciar tiempo de ingeniería en problemas que son de diseño de producto. Aplicación: Priorización de tickets en equipos de IA. Ejemplo: Un modelo que alucina (modelo) vs. un chatbot que da consejos financieros no autorizados (producto). Rigor: Revela una visión operativa clara. Aporte: Optimización de recursos.
Pregunta: ¿Cómo se valida la efectividad de un control si el sistema no registra el contexto completo de la decisión? Respuesta: Es imposible. Sin un log que incluya versión del modelo, datos de entrada y decisión, la auditoría es una conjetura. Elemento: Herramienta clave (log de decisiones). Importancia: El log es la única fuente de verdad para la trazabilidad. Aplicación: Auditorías de cumplimiento (GDPR/AI Act). Ejemplo: Análisis forense de una decisión de crédito denegada. Rigor: Subraya la necesidad de infraestructura de datos. Aporte: Estandarización de logs.
Pregunta: ¿Por qué el red teaming manual es insuficiente para sistemas dinámicos? Respuesta: Porque el espacio de estados de un modelo es infinito; el red teaming manual solo cubre casos conocidos, no emergentes. Elemento: Brecha de control y red teaming. Importancia: Define el límite de la seguridad reactiva. Aplicación: Pruebas de estrés en sistemas críticos. Ejemplo: Intentar romper un bot de RRHH con prompts de inyección. Rigor: Reconoce la limitación del esfuerzo humano. Aporte: Necesidad de automatización.
Pregunta: ¿Qué significa que un control sea "medible" en el contexto de la clase? Respuesta: Que debe basarse en métricas de éxito/fallo cuantificables, no en percepciones cualitativas. Elemento: Control medible (97 de 100). Importancia: Elimina la subjetividad en la auditoría. Aplicación: Reportes de KPIs de IA. Ejemplo: Tasa de rechazo de prompts maliciosos. Rigor: Exige rigor estadístico. Aporte: Cultura de métricas.
Pregunta: ¿Cómo afecta la "brecha de control" a la escalabilidad de un sistema de IA? Respuesta: Una brecha grande requiere supervisión humana constante, lo que impide la automatización total y aumenta el costo operativo. Elemento: Brecha de control. Importancia: Es el cuello de botella del retorno de inversión. Aplicación: Análisis de viabilidad de proyectos. Ejemplo: Un sistema de moderación que requiere revisión humana del 50% de los casos. Rigor: Conecta riesgo con rentabilidad. Aporte: Visión estratégica.

11. 5 proyectos avanzados

Proyecto: Auditor de Logs de IA. Objetivo: Crear un dashboard que analice logs de un chatbot para detectar cambios en la distribución de consultas. Base: Log de decisiones. Dificultad: Alta. Resultado: Alerta automática de deriva.
Proyecto: Framework de Red Teaming Automatizado. Objetivo: Script que envíe 1000 prompts adversarios a una API y registre fallos. Base: Red teaming. Dificultad: Muy alta. Resultado: Informe de vulnerabilidades.
Proyecto: Simulador de Escenarios de Riesgo. Objetivo: Base de datos de "supuestos cambiados" para predecir impactos. Base: Plantilla de revisión. Dificultad: Media. Resultado: Matriz de riesgos actualizada.
Proyecto: Sistema de Evaluación de Sesgo por Código Postal. Objetivo: Medir disparidad de resultados en modelos de contratación. Base: Ejemplo de Ana en Colombia. Dificultad: Alta. Resultado: Reporte de equidad.
Proyecto: Pipeline de Validación de Datos de Entrada. Objetivo: Implementar filtros estadísticos antes de que el dato llegue al modelo. Base: Acceso a datos. Dificultad: Alta. Resultado: Reducción de inyecciones de datos no previstos.

Juan Camilo Mejía Rodríguez

student•

Excelente ejemplo del efecto cascada en la agregación de datos. Me pareció muy ilustrativo cómo datos aparentemente inofensivos por separado (como el historial médico y los precios de medicamentos) se vuelven sensibles cuando se cruzan. Esto es clave para entender por qué necesitamos auditar no solo el modelo, sino también el pipeline de datos y los nuevos casos de uso que emergen. El log de decisiones con versión del modelo, datos utilizados y output es fundamental para detectar cuándo los supuestos cambian. ¡Gracias por esta perspectiva sobre los riesgos que no se ven en el código!

Supuestos que rompen sistemas de IA sin tocar código

Decisiones responsables con datos y LLMs

Cómo detectar daños invisibles en sistemas de IA

Mapa de riesgos en el ciclo de vida de datos con IA

Checklist de triaje antes de lanzar IA

Privacidad, seguridad y propiedad de datos

Cuándo una foto se vuelve dato biométrico

Reidentificación: seis patrones que debes conocer

Cinco rutas donde los LLMs filtran tus datos

Cómo proteger secretos comerciales al usar IA

Sesgos, calidad y confiabilidad de modelos

Sesgo vs discriminación en modelos de IA

Inyección de prompt en agentes de IA

Deepfakes perfectos: por qué falla el proceso

Gobernanza y cumplimiento aplicables al trabajo

Cinco principios de privacidad para decisiones de producto

Supuestos que rompen sistemas de IA sin tocar código