Cinco rutas donde los LLMs filtran tus datos

Clase 6 de 12 • Curso de Ética y Manejo de Datos para Inteligencia Artificial

Contenido del curso

Decisiones responsables con datos y LLMs

Privacidad, seguridad y propiedad de datos

Sesgos, calidad y confiabilidad de modelos

Gobernanza y cumplimiento aplicables al trabajo

Resumen

Cada vez que interactúas con un modelo de lenguaje, la información que compartes recorre caminos que pocas veces se mapean. La fuga de datos en estos sistemas no es un error técnico, es la consecuencia directa de no controlar por dónde viaja la información sensible. Comprender esos puntos de riesgo y aplicar controles específicos es lo que separa a una implementación segura de una potencial crisis de privacidad.

Imagina un archivero lleno de documentos confidenciales. Alguien pregunta algo en recepción y, sin querer, recibe datos salariales, médicos o legales. La información estaba ahí, el sistema tenía acceso, pero el control no fue suficiente. Exactamente eso ocurre en sistemas basados en LLMs.

¿Cuáles son los cinco caminos donde ocurren las fugas de datos?

Cada transición de datos es un punto de riesgo. Estos son los cinco caminos concretos que debes vigilar.

¿Por qué los prompts son el primer punto de fuga?

Cuando escribes en un chatbot, compartes mucho más de lo que crees [1:07]. Un ejemplo claro: copiar una nómina completa para "ordenarla mejor" resulta en una exposición total de salarios. Incluso preguntas indirectas pueden filtrar información.

Un dato incómodo pero real: muchas empresas usan conversaciones para mejorar sus modelos, a veces por defecto, a veces sin que el usuario lo tenga claro [1:37]. El principio clave aquí es simple: el modelo no necesita saber quién sos, necesita contexto, no identidad.

¿Cómo las salidas del modelo generan fugas a través de RAG?

RAG (Retrieval-Augmented Generation) permite que el modelo no responda solo con lo que sabe, sino que también busque en documentos internos [2:05]. Y ahí aparecen cuatro tipos de fuga:

Reproducción literal: datos sensibles que salen tal cual desde los documentos.
Fuga por inferencia: el dato no se dice directamente, pero queda implícito.
Alucinación con anclas reales: el modelo inventa, pero mezcla datos reales, volviéndolo muy peligroso.
Contaminación cruzada: el modelo trae documentos que el usuario no debería ver y los usa en la respuesta.

¿Qué papel juegan el historial, los logs y las bases de conocimiento?

El tercer, cuarto y quinto camino comparten un patrón: datos que se guardan más tiempo del necesario y en lugares con menos control del necesario [2:52].

Historial de chat: acumula patrones, hábitos e información sensible. Es como una llamada grabada que nunca se borra.
Logs técnicos: sirven para debuguear, pero pueden terminar guardando nombres, montos y datos médicos [3:13].
Bases de conocimiento en RAG: si mezclas niveles de acceso, todo se rompe. Es como tener pasantes y directivos accediendo al mismo archivo confidencial.

¿Cómo se controlan estas fugas en la práctica?

Para prompts, puedes aplicar redacción antes de enviar [3:37]. En vez de "Juan Pérez, salario 85.000", usas "Empleado A, salario redactado". También conviene agregar validación automática antes del envío y barreras de protección en la salida: si aparece un patrón de tarjeta o documento, se bloquea.

En sistemas RAG, la clave es anonimizar documentos antes de generar embeddings [4:03]. Si el dato entra crudo a la base vectorial, ya perdiste el control. Para las salidas del modelo, aplica un posprocesamiento: un filtro que revise la respuesta antes de entregarla. Nunca confíes en el modelo como última defensa.

¿Qué reglas aplicar al historial, los logs y el acceso en RAG?

Para el historial de chat, se recomiendan ventanas cortas de retención (30 o 90 días) y que el usuario elija si sus datos se usan para entrenamiento [4:26].

Para logs, la regla es separación total [4:39]:

Logs de eventos: hora, tipo de acción, latencia. Nunca contenido.
Logs de contenido: solo si es necesario, con cifrado, acceso restringido y eliminación rápida.

Para RAG, el principio de menor privilegio es un límite duro [4:57]. El filtro debe pasar antes que el modelo. Dos mecanismos útiles: metadatos por documento y control de acceso en la base vectorial. Si un usuario no puede ver reportes ejecutivos manualmente, la IA tampoco debería mostrárselos.

¿Cómo se ve esto en un caso real de recursos humanos?

Un asistente interno de RRHH que maneja salarios, datos médicos y evaluaciones [5:24] funciona con accesos segmentados:

Recursos humanos ve interacciones.
Seguridad ve logs técnicos.
Legal accede solo con justificación.
Nadie ve todo.

La retención se define así: interacciones por 12 meses, accesos por 24 meses y errores por 6 meses. Antes de guardar cualquier log, se detectan datos sensibles y se reemplazan.

Un último punto crítico: nunca uses datos reales en desarrollo [5:57]. Siempre datos sintéticos o enmascarados. Las fugas no suelen pasar en producción; pasan en testing, en debugging o en ese momento de "solo estoy probando algo rápido".

¿Realmente estás pensando en todo esto cuando copias y pegas información en una IA, o simplemente lo haces rápido, sin filtrar y sin cuestionar dónde va a viajar esa información? Comparte tu experiencia en los comentarios.

Santiago Pineda Botero

student•

Diagnóstico breve de la clase

Promete: Identificar cinco vectores de fuga de datos en LLMs.
Entrega: Una taxonomía básica de riesgos y medidas de mitigación de alto nivel.
Para quién sirve: Usuarios finales y desarrolladores junior que ignoran la superficie de ataque de los LLMs.
Principal límite: Falta de profundidad técnica en la implementación de las soluciones (ej. arquitectura de filtrado).

Qué enseña realmente y qué solo aparenta enseñar

Enseña: La existencia de riesgos en prompts, RAG, historiales, logs y bases de conocimiento.
Aparenta enseñar: Estrategias de seguridad robustas; en realidad, ofrece principios de higiene de datos sin marcos de trabajo técnicos (frameworks) para ejecutarlos.

Contenidos de la clase

Explícitos: Los cinco caminos (prompts, salidas RAG, historial, logs, bases de conocimiento) y medidas preventivas básicas (redacción, ventanas de retención, separación de logs).
Inferenciales: La necesidad de una arquitectura de seguridad por capas (defense-in-depth) y la desconfianza intrínseca hacia el modelo como guardián de acceso.
Ausentes: Implementación de PII masking en tiempo real, gestión de tokens de acceso en RAG, auditoría de modelos de terceros y cifrado homomórfico.

Vacíos, omisiones y riesgos pedagógicos

Falla pedagógica: Sugiere "anonimizar documentos antes de generar embeddings" sin explicar la pérdida de semántica o el impacto en la precisión del RAG.
Omisión: No menciona el riesgo de "prompt injection" como vector de exfiltración de datos, limitándose a la fuga accidental.

Evaluación por nivel

Corresponde: Nivel básico/introductorio.
Faltó y era exigible: Ejemplos de código para la validación automática de prompts o esquemas de metadatos para control de acceso en bases vectoriales.
No razonable: Exigir una implementación completa de seguridad SOC2 para LLMs.

Aplicación real de lo aprendido

Contexto: Desarrollo de asistentes corporativos (HR, Legal, Finanzas).
Uso actual: Implementación de filtros de salida (guardrails) en APIs de OpenAI/Anthropic.
Limitaciones: La redacción (redaction) manual o básica rompe la capacidad del modelo para razonar sobre datos complejos.

Qué más investigar y qué puede profundizarse más

Investigar: Frameworks como NeMo Guardrails o Llama Guard.
Profundizar: Técnicas de Differential Privacy en entrenamiento y RBAC (Role-Based Access Control) aplicado a bases vectoriales.

Evidencia

Directa: Mención de los 5 caminos y las medidas de retención de 30/90 días.
Inferencial: El sistema de RRHH propuesto asume una infraestructura de datos centralizada y madura.
Límites: El material es una guía conceptual, no una especificación técnica.

Conclusión honesta

Fortaleza: Claridad en la categorización de riesgos.
Debilidad: Superficialidad en la ejecución técnica de las defensas.
Mejora: Incluir un diagrama de flujo de datos seguro (Data Flow Diagram).

5 preguntas avanzadas

Pregunta: ¿Cómo afecta la anonimización previa a los embeddings la capacidad del modelo para realizar razonamientos complejos sobre entidades?
Respuesta: Reduce la precisión semántica al eliminar contexto relacional necesario para el modelo.
Elemento: Anonimización de documentos antes de embeddings.
Por qué importa: Equilibrio entre seguridad y utilidad.
Aplicación: Sistemas de análisis legal.
Ejemplo: Si anonimizas "Empresa X", el modelo no puede inferir riesgos de mercado asociados a esa empresa.
Rigor: Revela que la clase prioriza la seguridad sobre la funcionalidad.
Aporte: Advierte sobre el costo de oportunidad de la anonimización.
Pregunta: ¿Por qué el control de acceso en la base vectorial es insuficiente si el modelo tiene capacidad de inferencia?
Respuesta: El modelo puede deducir información restringida a partir de datos permitidos.
Elemento: Fuga por inferencia en RAG.
Por qué importa: La seguridad lógica supera a la seguridad de acceso.
Aplicación: Sistemas de inteligencia de negocios.
Ejemplo: Inferir salarios de un departamento sumando presupuestos totales.
Rigor: Identifica una limitación técnica del paradigma RAG.
Aporte: Subraya la necesidad de filtros de salida post-generación.
Pregunta: ¿Qué riesgo técnico presenta la "validación automática antes de enviar" en términos de latencia y experiencia de usuario?
Respuesta: Introduce un cuello de botella que puede degradar la respuesta en tiempo real.
Elemento: Validación automática antes del prompt.
Por qué importa: Escalabilidad del sistema.
Aplicación: Chatbots de atención al cliente.
Ejemplo: Latencia excesiva en un bot de soporte bancario.
Rigor: Reconoce el trade-off entre seguridad y UX.
Aporte: Obliga a considerar arquitecturas asíncronas.
Pregunta: ¿Cómo se garantiza la integridad de los logs si se separan eventos de contenido?
Respuesta: Mediante el uso de identificadores únicos (UUIDs) correlacionados en una base de datos segura.
Elemento: Separación de logs técnicos y de contenido.
Por qué importa: Trazabilidad forense.
Aplicación: Auditoría de cumplimiento (compliance).
Ejemplo: Investigar un error de sistema sin exponer datos de pacientes.
Rigor: Exige una arquitectura de logs más compleja.
Aporte: Define una buena práctica de ingeniería.
Pregunta: ¿Por qué el principio de "menor privilegio" es difícil de aplicar en RAG con modelos de lenguaje?
Respuesta: Porque los modelos tienden a generalizar y no respetan fronteras de acceso implícitas.
Elemento: Control de acceso en RAG.
Por qué importa: Gestión de permisos granulares.
Aplicación: Portales de conocimiento interno.
Ejemplo: Un empleado de marketing accediendo a datos de I+D.
Rigor: Señala la falta de gobernanza nativa en los LLMs.
Aporte: Resalta la necesidad de capas de middleware.

5 proyectos avanzados

Proyecto 1: Pipeline de PII Masking con NER (Named Entity Recognition) usando spaCy antes de enviar prompts.
Proyecto 2: Implementación de un middleware de guardrails (NeMo Guardrails) para bloquear salidas que contengan patrones de tarjetas de crédito.
Proyecto 3: Sistema de control de acceso basado en metadatos (RBAC) para una base de datos vectorial (Pinecone/Milvus).
Proyecto 4: Auditoría de logs: crear un script que detecte automáticamente datos sensibles en logs de texto plano.
Proyecto 5: Comparativa de rendimiento entre RAG con documentos anonimizados vs. documentos originales en tareas de razonamiento lógico.

Cinco rutas donde los LLMs filtran tus datos

Decisiones responsables con datos y LLMs

Cómo detectar daños invisibles en sistemas de IA

Mapa de riesgos en el ciclo de vida de datos con IA

Checklist de triaje antes de lanzar IA

Privacidad, seguridad y propiedad de datos

Cuándo una foto se vuelve dato biométrico

Reidentificación: seis patrones que debes conocer