Mapa de riesgos en el ciclo de vida de datos con IA

Clase 2 de 12 • Curso de Ética y Manejo de Datos para Inteligencia Artificial

Contenido del curso

Decisiones responsables con datos y LLMs

Privacidad, seguridad y propiedad de datos

Sesgos, calidad y confiabilidad de modelos

Gobernanza y cumplimiento aplicables al trabajo

Resumen

Cada dato que entra a un sistema de inteligencia artificial recorre un camino largo y, muchas veces, invisible. Saber exactamente dónde está ese dato, quién lo tocó y qué transformación sufrió es lo que separa a un proyecto responsable de uno que acumula riesgos en silencio. Aquí se presenta un método práctico para trazar ese recorrido completo, asignar responsables humanos a cada punto y detectar los momentos exactos donde la privacidad y la ética están en juego.

¿Qué es un mapa de ciclo de vida de datos y por qué importa?

Un mapa de ciclo de vida de datos traza el recorrido completo de un dato, desde que entra al sistema hasta que se elimina [0:27]. La analogía es directa: pensalo como un paquete postal. Querés saber quién lo tocó, a dónde fue y si alguien lo abrió. Sin ese mapa, los riesgos se esconden entre equipos, entre sistemas o entre contratos.

El problema real es que un equipo puede recolectar datos personales sin saberlo, mientras otro los cruza con otra tabla y, sin darse cuenta, genera información personal identificable [1:00]. El mapa fuerza claridad.

¿Cuáles son los 10 pasos del recorrido de datos en IA?

Para cualquier sistema con IA, el recorrido tiene 10 pasos mínimos, cada uno funcionando como punto de control técnico y ético [1:13]:

Recolección: dónde entran los datos, con qué base legal y si el usuario lo sabe. Una ciudad con cámaras de tráfico debe responder esto antes de encenderlas [1:26].
Clasificación: etiquetar qué es público, privado o sensible. Si combinás desempeño laboral con nombre y número de identificación, ya es información personal identificable [1:48].
Limpieza y preparación: no solo se corrigen errores, también se detectan sesgos históricos. Un modelo que predice deserción escolar usando datos de barrios desatendidos va a castigar a esos mismos barrios si nadie atrapa el sesgo aquí [2:06].
Anonimización o seudonimización: enmascarar identificadores cuando no son estrictamente necesarios [2:28].
Almacenamiento y control de acceso: quién puede ver qué, por cuánto tiempo, con registro de cada acceso [2:36].
Entrenamiento del modelo: qué versión de datos se usó y quién lo aprobó. Sin este registro, no podés rastrear la causa de un fallo [2:47].
Validación y prueba de equidad: un scoring crediticio puede funcionar bien en promedio pero negar préstamos a ciertos códigos postales. Las métricas de equidad detectan eso antes de producción [3:02].
Despliegue y monitoreo: los datos cambian con el tiempo, fenómeno conocido como deriva de datos, y el rendimiento se degrada. Un sistema médico con IA necesita un doctor humano revisando sus sugerencias [3:19].
Registro de salidas y explicabilidad: cada decisión debe poder explicarse a una persona no técnica, lo que se conoce como IA explicable [3:36].
Retención y eliminación: los datos tienen fecha de vencimiento. Regulaciones como el GDPR otorgan derecho a solicitar un borrado [3:50].

¿Dónde se pierde el control: las cuatro zonas de frontera?

Estos 10 pasos se organizan en cuatro zonas donde normalmente se pierde el control [4:03]:

Zona de producto: lo que el usuario ve. ¿Sabe realmente qué datos está entregando?
Zona de datos: la materia prima. ¿Fueron escrapeados, proporcionados o comprados? En América Latina, la ley 25.326 de Argentina o la LGPD de Brasil definen qué se permite [4:24].
Zona de modelo: donde los datos se convierten en inteligencia. Si usás un modelo externo como Llama o DeepSeek, ¿con qué datos fueron entrenados? [4:37]
Zona de proveedores: cada proveedor es un punto donde los datos salen de tu control. Si un hospital usa un chatbot externo y un paciente comparte síntomas, ¿a dónde van esos datos? [4:49]

Cada vez que los datos cruzan una de estas zonas, debería existir una regla explícita.

¿Por qué el join es el paso más peligroso para la privacidad?

El join, es decir, combinar dos conjuntos de datos, es probablemente el momento de mayor riesgo [5:10]. Un dataset hospitalario tiene IDs y condiciones de salud sin nombres. Un registro gubernamental tiene IDs y nombres. Al unirlos, cada condición de salud tiene nombre y apellido. El dato personal no existía hasta que se hizo el join.

La investigación muestra que tan solo tres atributos, código postal, fecha de nacimiento y género, pueden ser suficientes para identificar a una persona [5:42]. Incluso las inferencias cuentan: si alguien pide recetas bajas en azúcar y el sistema infiere una condición de salud, eso ya es un dato personal aunque nunca se haya declarado [5:55].

¿Cómo hacer auditable cada punto del mapa?

Cada punto necesita metadatos, que son la etiqueta del paquete, no el contenido [6:12]. Como mínimo deben incluir:

Identificador único.
Marca de tiempo.
Base legal.
Actor responsable con nombre y apellido.
Clasificación del dato.
Destino de transferencias.
Transformaciones aplicadas.

Sin esto, no podés responder tres preguntas básicas: ¿quién recolectó esto? ¿Por qué se compartió? ¿Dónde está ahora? Y algo clave: si todos somos responsables, nadie lo es [6:50].

¿Cómo se aplica esto a un bot de soporte real?

Un bot que procesa tickets de cliente ilustra perfectamente los tres puntos de riesgo principales [7:22]:

Captura de entrada: el usuario puede compartir datos personales sin darse cuenta. Controles: filtrado de datos personales, consentimiento activo y retención limitada.
Procesamiento del modelo: las conversaciones pueden usarse para entrenamiento. Controles: barreras de seguridad, permisos por rol y revisión humana.
Almacenamiento y proveedores: cuando los datos salen, perdés el control. Controles: minimización, límite de retención y auditoría de proveedores.

Si alguien escribe "me llamo María, tarjeta termina en 4567", eso nunca debería llegar en texto plano a un modelo externo [7:47]. Se debe detectar, reemplazar por marcadores y recién entonces enviar.

La diferencia entre evidencia vaga y evidencia real es enorme. No sirve "se verificó el sesgo". Lo que buscás es algo como: "encontramos una brecha del 12% en los códigos postales X, Y y Z, evaluado el 10 de mayo" [9:00].

Ahora pensá en el caso de Juan, de Colombia, que trabaja en una fintech que quiere usar IA para aprobar créditos combinando historial financiero, ubicación geográfica y comportamiento digital [9:26]. ¿En qué paso aparece un riesgo de privacidad? ¿Dónde hay un join peligroso? ¿Qué control propondrías? Dejá tu análisis o un caso real en los comentarios.

Comentarios

Juan Carlos Martínez Lima

student•

Se viola la privacidad del paciente, al ser recolectados sus datos, si este no lo autoriza ..

Santiago Pineda Botero

student•

1. Diagnóstico breve de la clase

Qué promete: Mapear riesgos éticos y técnicos en el ciclo de vida de datos para IA.
Qué entrega: Un marco teórico de 10 pasos para el flujo de datos y una estructura de gobernanza basada en zonas de responsabilidad.
Para quién sirve: Gestores de proyectos, analistas de datos y responsables de cumplimiento que inician en IA.
Principal límite: La ausencia de una metodología de implementación técnica (código o herramientas específicas) para automatizar los controles propuestos.

2. Qué enseña realmente y qué solo aparenta enseñar

Enseña: La importancia de la trazabilidad, la necesidad de definir dueños por etapa y el peligro del join de datos.
Aparenta enseñar: Gestión de riesgos operativa. Aunque menciona controles, no profundiza en cómo integrarlos en un pipeline de CI/CD o en arquitecturas de datos modernas (ej. Data Mesh).

3. Contenidos de la clase

Explícitos: 10 pasos del ciclo de vida (recolección a eliminación), 4 zonas de frontera (producto, datos, modelo, proveedores) y requisitos de metadatos.
Inferenciales: La necesidad de una cultura organizacional de responsabilidad individual y la inevitabilidad de la deriva de datos.
Ausentes: Técnicas de Differential Privacy, Federated Learning como mitigación, y marcos de trabajo legales específicos fuera de menciones genéricas a GDPR/LGPD.

4. Vacíos, omisiones y riesgos pedagógicos

Falla pedagógica: Advierte sobre el riesgo de que modelos externos (Llama/DeepSeek) usen datos para entrenamiento, pero no enseña cómo verificar contractualmente o técnicamente la exclusión de datos en esos proveedores.
Omisión: No aborda el riesgo de prompt injection como vector de extracción de datos personales, limitándose a la privacidad en la entrada.

5. Evaluación por nivel

Qué sí corresponde: Definición de los 10 pasos y la importancia de los metadatos.
Qué faltó y era exigible: Un ejemplo de matriz de riesgos (RACI) aplicada a uno de los 10 pasos.
Qué no sería razonable exigir: Implementación de modelos de lenguaje privados (LLMOps) a nivel avanzado.

6. Aplicación real de lo aprendido

Contextos: Auditoría de sistemas de IA, cumplimiento normativo (GDPR/LGPD) y diseño de arquitecturas de datos.
Uso actual: Implementación de Data Governance en empresas que integran APIs de terceros.
Limitaciones: La clase es estática; en entornos de producción, el flujo de datos es dinámico y los controles manuales propuestos (hojas de cálculo) son inescalables.

7. Qué más investigar y qué puede profundizarse más

Investigar: Privacy-Preserving Machine Learning (PPML) y técnicas de anonimización avanzada (k-anonimato, l-diversidad).
Profundizar: IA Explicable (XAI) y herramientas de monitoreo de deriva (drift) como Evidently AI o Arize.

8. Evidencia

Directa: Transcripción detallada de los 10 pasos y las 4 zonas de frontera.
Inferencias: La necesidad de un "dueño" por paso es una inferencia de gestión de riesgos estándar (RACI).
Límites: El material carece de ejemplos de código o plantillas descargables.

9. Conclusión honesta

Fortaleza: Claridad conceptual al desglosar el ciclo de vida del dato.
Debilidad: Excesiva dependencia de procesos manuales y falta de rigor técnico en la mitigación.
Mejora mínima: Incluir una plantilla de "Data Protection Impact Assessment" (DPIA) básica.

10. 5 preguntas avanzadas

Pregunta: ¿Cómo se mitiga el riesgo de re-identificación tras un join de datos si los metadatos no incluyen una política de enmascaramiento dinámico? Respuesta: Implementando políticas de acceso basadas en atributos (ABAC) que restrinjan el cruce de tablas a nivel de base de datos. Elemento concreto: El fenómeno del join como paso más peligroso. Por qué importa: Evita la creación accidental de información personal identificable. Aplicación: Data Warehousing. Ejemplo: Unir bases de salud con registros de marketing. Rigor: Revela que la clase ignora la capa de seguridad de base de datos. Aporte: Introduce el control técnico sobre el control administrativo.

Pregunta: Si el entrenamiento del modelo (paso 6) ocurre en un proveedor externo, ¿es suficiente la anonimización en el paso 4? Respuesta: No, se requiere Data Minimization extrema y contratos de procesamiento de datos (DPA) que prohíban el re-entrenamiento. Elemento concreto: Zona de proveedores. Por qué importa: El proveedor puede inferir datos personales incluso de datos anonimizados. Aplicación: Gestión de proveedores de IA. Ejemplo: Uso de OpenAI API para análisis de sentimientos. Rigor: Expone la fragilidad de confiar solo en la anonimización. Aporte: Desmitifica la seguridad por anonimización.

Pregunta: ¿Cómo afecta la deriva de datos (paso 8) a la validez de las métricas de equidad (paso 7)? Respuesta: La deriva puede invalidar los supuestos de equidad iniciales, requiriendo re-validación continua. Elemento concreto: Despliegue y monitoreo. Por qué importa: La equidad no es un estado estático, es un proceso. Aplicación: MLOps. Ejemplo: Scoring crediticio que cambia con la inflación. Rigor: Conecta dos pasos aislados en la clase. Aporte: Introduce el concepto de monitoreo de equidad en tiempo real.

Pregunta: ¿Qué metadato es indispensable para garantizar el derecho al olvido (GDPR) en un modelo entrenado? Respuesta: El linaje de datos (data lineage) que vincule cada registro al modelo específico. Elemento concreto: Retención y eliminación. Por qué importa: Sin linaje, es imposible saber qué datos influyeron en qué pesos del modelo. Aplicación: Cumplimiento legal. Ejemplo: Auditoría de borrado de datos de usuarios. Rigor: Muestra la dificultad técnica de la eliminación en IA. Aporte: Define el requisito técnico para el cumplimiento legal.

Pregunta: ¿Es posible la IA explicable (paso 9) si el modelo utiliza inferencias de datos no declarados? Respuesta: Es extremadamente difícil, ya que la explicabilidad depende de la transparencia de las variables de entrada. Elemento concreto: Registro de salidas y explicabilidad. Por qué importa: Las inferencias ocultas crean sesgos "caja negra" imposibles de auditar. Aplicación: Auditoría de modelos. Ejemplo: Sistemas de recomendación que usan datos inferidos. Rigor: Cuestiona la viabilidad de la explicabilidad en sistemas complejos. Aporte: Advierte sobre los límites de la IA explicable.

11. 5 proyectos avanzados

Auditoría de Data Lineage: Crear un grafo de dependencias de datos para un modelo de IA usando herramientas como OpenLineage.
Pipeline de anonimización automática: Desarrollar un script que detecte y enmascare PII (información personal) en tiempo real antes de enviar prompts a una API.
Dashboard de monitoreo de equidad: Implementar un sistema que compare métricas de equidad (ej. Equalized Odds) en producción frente a un set de validación.
Simulador de Join de Riesgo: Crear un entorno donde se crucen dos datasets anonimizados para demostrar cómo se re-identifican individuos.
Framework de Auditoría de Proveedores: Diseñar un cuestionario técnico y un contrato de procesamiento de datos (DPA) específico para proveedores de LLMs.

Marlon Melara

student•

Esta clase te lleva a plantear muchas preguntas a decir verdad para profundizar en este tema que cada vez se vuelva más delicado con el amplio uso de la IA en muchos lugares, procesos, etc.

Bueno acá mis ideas:

Riesgo de privacidad: La ubicación es un dato sencible. Si asumo que el producto de la fintech es una App desde donde se puede solicitar y aprovar un crédito rompe de alguna forma con la privacidad del usuario.
Join peligro: el riesgo puede ser la re-identificación entre el historial y la ubicación geográfica. No estoy seguro.
Control concreto: Solo recolectar la ubicación si es estrictamente necesario para validar la identidad (cuando se enrola en una App o en algún formulario de la fintech), no para rastrear movimientos diarios. Y los datos deben ser anonimizados.

MARIA ROMELIA CHICA DE VASQUEZ

student•

¿Cuál es la mejor forma de auditar información?

La estrategia más efectiva es adherir metadatos a cada registro desde el momento en que se captura. Los metadatos funcionan como la etiqueta de envío de un paquete postal: no te dicen qué hay adentro, pero te cuentan toda su historia.

Para que un sistema sea verdaderamente auditable, cada dato debe viajar con un identificador único, una marca de tiempo (timestamp) de cada modificación, la base legal que permite su uso y el registro de si fue anonimizado o cifrado. Si un auditor te pregunta de dónde salió una predicción específica de tu IA, estos metadatos te permitirán rastrear el camino exacto hacia atrás, demostrando que tienes control total sobre la información y que cumples con las normativas de seguridad.

Cristian Camilo Fuentes Montes

student•

Riesgo de privacidad: Tanto la ubicacion como el comportamiento digital son datos sensibles. Ya que al ser una app para solicitar y aprobar creditos cosas como la ubicación o el comportamiento digital no son necesarias y constituyen una violación a la privacidad
Join peligro: el riesgo puede ser la re-identificación entre el historial y la ubicación geográfica.
Control concreto: Para evitar este tipo de situaciones se deben revaluar los datos que se recolectan para la verificación de datos y limitar el cruze de información que se realize con terceros

Daniel Felipe Salazar Gonzalez

student•

Super

Ana Lilian Zuniga de Santos

student•

que no se tienes pprevasida de los datos

Matias Revuelta

student•

¿Por qué es peligroso combinar bases de datos?

Al cruzar dos tablas aparentemente inofensivas, puedes crear un perfil altamente identificable sin darte cuenta. Imagina que tienes una lista de síntomas médicos anónimos y, por otro lado, un registro de asistencia con códigos postales y fechas de nacimiento. Si haces un join entre ambas, la combinación de código postal, fecha de nacimiento y género suele ser suficiente para identificar a una persona específica en una población grande.

Este fenómeno transforma información general en datos personales sensibles de forma instantánea. Para evitar riesgos legales y éticos, debes tratar cada cruce de datos con el mismo nivel de seguridad y escrutinio que la recolección original. Antes de fusionar información, pregúntate si es estrictamente necesario para el objetivo del negocio y aplica técnicas de seudonimización o enmascaramiento para proteger la identidad de los usuarios.

Mapa de riesgos en el ciclo de vida de datos con IA

Decisiones responsables con datos y LLMs

Cómo detectar daños invisibles en sistemas de IA