Reidentificación: seis patrones que debes conocer

Clase 5 de 12 • Curso de Ética y Manejo de Datos para Inteligencia Artificial

Contenido del curso

Decisiones responsables con datos y LLMs

Privacidad, seguridad y propiedad de datos

Sesgos, calidad y confiabilidad de modelos

Gobernanza y cumplimiento aplicables al trabajo

Resumen

La anonimización no termina al borrar nombres y correos electrónicos. La identidad real de una persona es una combinación de detalles que, al cruzarse con otras fuentes, pueden apuntar directamente a un individuo. Comprender los mecanismos de reidentificación y las herramientas para mitigarlos es fundamental para cualquier profesional que trabaje con datos sensibles.

¿Cuáles son los seis patrones de reidentificación más peligrosos?

Existen seis formas predecibles en las que un data set supuestamente anonimizado puede volver a señalar a una persona concreta. Conocerlas es el primer paso para diseñar defensas reales.

¿Qué es la acumulación de cuasiidentificadores?

Un cuasiidentificador es un dato que parece inofensivo por sí solo, pero resulta peligroso en combinación [0:28]. Edad, código postal y carga laboral juntos pueden identificar a alguien entre miles. Un hospital publica registros con edad, barrio y diagnóstico; una aseguradora cruza esos datos con su base de clientes y el diagnóstico ya tiene nombre y apellido.

¿Cómo funciona el fingerprinting conductual y los datos escasos?

Fingerprinting conductual [1:03]: un servicio de streaming anonimiza IDs, pero publica historiales de visualización. Si alguien comparte en redes lo que ve y cuándo lo ve, la secuencia misma se convierte en una huella digital.
Datos escasos en poblaciones pequeñas [1:26]: en una zona rural, un estudiante con baja asistencia, cierto contexto familiar y ciertas condiciones ya es prácticamente identificable sin nombre.
Identificadores estables que no son nombres [1:41]: device IDs, direcciones IP y cookies hasheadas persisten entre data sets. Si otro conjunto de datos asocia ese mismo device ID a una persona, la reidentificación es completa.
Intersección temporal [2:03]: un registro dice acceso a un beneficio a las 10:14 y una historia de Instagram muestra a alguien entrando a su oficina a las diez. El tiempo conecta todo sin necesidad de un ID.
Agregación que revela outliers [2:22]: un informe indica que en un barrio pequeño tres personas recibieron cierto tratamiento médico. En comunidades chicas, eso ya alcanza para saber quiénes son.

El problema de fondo es que la reidentificación mejora con el tiempo [2:35]. Datos que hoy parecen seguros mañana pueden no serlo porque aparecen nuevas fuentes que completan los huecos.

¿Qué herramientas existen para proteger la privacidad de los datos?

La pregunta real no es si un data set está anonimizado o no, sino qué tan difícil es reidentificar hoy y mañana [2:49].

¿Qué diferencia hay entre k-anonimidad, l-diversidad y privacidad diferencial?

K-anonimidad [2:57] establece que cada registro debe ser indistinguible de al menos otros k-1 registros en sus cuasiidentificadores. Un mínimo razonable es k igual a 5 o 10. Sin embargo, si las 10 personas del grupo comparten la misma enfermedad, el dato sensible queda expuesto.

Por eso aparece la l-diversidad [3:29]: dentro de cada grupo, los valores sensibles deben variar. Y la técnica más robusta es la privacidad diferencial [3:38], que agrega ruido estadístico controlado. Un ejemplo simple: cada persona lanza una moneda; si sale cara, responde la verdad; si sale cruz, responde al azar. El resultado global sigue siendo útil, pero no se pueden inferir respuestas individuales.

Para aplicar estas técnicas de forma concreta:

Fechas: generalización (pasar de fecha exacta a rango) o desplazamiento consistente [4:04].
Ubicación: agregar a nivel de zona o región y eliminar ubicaciones raras, porque lo raro identifica [4:14].
Texto libre: usar NER para detectar entidades, regex para patrones, reemplazo sintético y revisión manual cuando el riesgo es alto [4:22].

¿Qué es la pseudonimización y por qué no equivale a anonimización?

La pseudonimización reemplaza identificadores directos por códigos como "usuario X7741" [4:39]. Funciona como un guardarropa: dejás tu bolsa, te dan un número, pero alguien tiene la tabla que conecta número con identidad. Si esa tabla se filtra, todo el sistema se cae [4:58]. Para seguimiento se usan métodos como HMAC: mismo input, mismo pseudónimo, pero con clave secreta [5:13]. Es fundamental entender que los cuasiidentificadores siguen presentes.

La minimización [5:27] completa el panorama: recolectar solo lo necesario. Para validar qué variables sobran, se recomienda la prueba de ablación [5:52]: se quitan variables una a una y si la métrica cae menos de un 2 o 3 %, ese dato sobra. Pero siempre hay que medir equidad, no solo precisión [6:04].

¿Cómo aplicar todo esto en un caso real de predicción de churn?

Para predecir la tasa de abandono de clientes [6:21], un data set suele contener nombre, documento, mail, teléfonos y fecha de nacimiento. La ruta ética sigue cuatro pasos:

Minimización: eliminar todo lo que no sea estrictamente necesario para el modelo [6:40].
Pseudonimización con HMAC: proteger las identidades [6:48].
Generalización: aplicar rangos en edades, montos y fechas [6:55].
Limpieza de texto libre: borrar datos filtrados en comentarios [7:02].

Si la métrica cae menos de un 5 % y la equidad del modelo se mantiene, el proceso fue exitoso [7:12]. Aun así, siempre queda algún camino de reidentificación: edad más género más zona, secuencia temporal de eventos o cruce con datos externos.

La anonimización no es un estado final, es un nivel de riesgo que se gestiona activamente [7:42]. Como capas finales se recomienda privacidad diferencial, control de acceso, auditoría y, sobre todo, documentación: qué técnica se usó, qué se perdió en utilidad, qué riesgo queda y quién lo aprobó [7:52]. ¿Cómo resolverías este problema en tu lugar de trabajo? Comparte tu análisis en los comentarios.

Comentarios

Santiago Pineda Botero

student•

1. Diagnóstico breve de la clase

Qué promete: Identificar los seis patrones de reidentificación de datos y presentar herramientas técnicas para mitigar riesgos.
Qué entrega realmente: Una taxonomía conceptual de riesgos de reidentificación y una introducción superficial a técnicas de anonimización y pseudonimización.
Para quién sirve: Perfiles técnicos junior o analistas de datos que desconocen los riesgos básicos de privacidad en conjuntos de datos.
Principal límite: La ausencia de implementación técnica real (código, librerías, configuraciones) y la falta de profundidad en la validación estadística de las técnicas presentadas.

2. Qué enseña realmente y qué solo aparenta enseñar

Enseña: La lógica detrás de la reidentificación (por qué borrar nombres no basta) y la distinción conceptual entre anonimización, pseudonimización y minimización.
Aparenta enseñar: Cómo implementar privacidad diferencial o k-anonimidad. Solo menciona el concepto y una analogía simplista (la moneda), pero no explica cómo parametrizar el ruido o calcular el presupuesto de privacidad ($\epsilon$).

3. Contenidos de la clase

Explícitos: Seis patrones de reidentificación (cuasiidentificadores, fingerprinting, datos escasos, identificadores estables, intersección temporal, outliers), herramientas (k-anonimidad, l-diversidad, privacidad diferencial, pseudonimización, minimización) y la prueba de ablación.
Inferenciales: La necesidad de un marco de gobernanza de datos, la gestión de claves para pseudonimización y el trade-off entre utilidad del modelo y privacidad.
Ausentes: Implementación práctica (Python/R), manejo de outliers en grandes volúmenes de datos, auditoría de modelos de ML, cumplimiento normativo (GDPR/LGPD) y gestión de data pipelines seguros.

4. Vacíos, omisiones y riesgos pedagógicos

Falla pedagógica: Se menciona la privacidad diferencial como "la técnica más robusta" pero no se advierte sobre la complejidad de su implementación ni el impacto devastador en la utilidad de los datos si el presupuesto de privacidad es mal gestionado.
Omisión: No se discute el riesgo de reidentificación en modelos de lenguaje (LLMs) o datos no estructurados complejos, limitándose a ejemplos tabulares básicos.

5. Evaluación por nivel

Qué sí corresponde: La taxonomía de riesgos y la importancia de la minimización.
Qué faltó y sí era exigible: Un ejemplo de código para aplicar una técnica de anonimización (ej. masking o generalization) y una explicación sobre cómo medir el riesgo de reidentificación (ej. re-identification probability).
Qué no sería razonable exigir: Una implementación completa de un sistema de privacidad diferencial a nivel de producción.

6. Aplicación real de lo aprendido

Contextos: Preparación de datasets para entrenamiento de modelos de ML, compartición de datos con terceros, cumplimiento de políticas internas de privacidad.
Limitaciones: Las técnicas presentadas son estáticas. En entornos de streaming o datos en tiempo real, la reidentificación es mucho más compleja y las técnicas de la clase son insuficientes.

7. Qué más investigar y qué puede profundizarse más

Investigar: Differential Privacy (bibliotecas como Google DP o PyDP), Synthetic Data Generation, Federated Learning, y el concepto de Privacy-Preserving Machine Learning.
Profundizar: El cálculo matemático de la k-anonimidad y el impacto de la curse of dimensionality en la reidentificación.

8. Evidencia

Evidencia directa: Mención de los 6 patrones y las 3 herramientas principales.
Inferencias: La clase asume que el usuario tiene acceso a los datos originales y capacidad de manipularlos antes de la ingesta.
Límites: El material es puramente teórico y descriptivo.

9. Conclusión honesta

Principal fortaleza: Claridad conceptual al explicar por qué la anonimización tradicional es insuficiente.
Principal debilidad: Falta de rigor técnico y ausencia de herramientas de implementación.
Mejora mínima indispensable: Incluir un bloque de código que demuestre la aplicación de una técnica de generalización o masking sobre un dataset real.

10. 5 preguntas avanzadas

Pregunta: ¿Cómo afecta la l-diversidad a la utilidad de un modelo de clasificación si los datos sensibles tienen una distribución altamente sesgada?
- Respuesta: Reduce drásticamente la utilidad al forzar la homogeneidad en grupos donde la varianza es necesaria para el aprendizaje.
- Elemento concreto: l-diversidad.
- Por qué importa: El sesgo en los datos es un problema de equidad.
- Aplicación: Modelos de riesgo crediticio.
- Ejemplo: Grupos minoritarios con alta tasa de impago.
- Rigor: Revela que la clase ignora el conflicto entre privacidad y equidad.
- Aporte: Alerta sobre el riesgo de sesgo inducido por técnicas de anonimización.
Pregunta: Si uso HMAC para pseudonimizar, ¿qué ocurre si la clave secreta es comprometida?
- Respuesta: Toda la base de datos se reidentifica instantáneamente.
- Elemento concreto: Pseudonimización con HMAC.
- Por qué importa: Convierte un problema de datos en un problema de gestión de claves (KMS).
- Aplicación: Sistemas de data warehousing.
- Ejemplo: Fuga de logs de auditoría.
- Rigor: La clase subestima la seguridad de la infraestructura.
- Aporte: Define la pseudonimización como un control de acceso, no de anonimato.
Pregunta: ¿Por qué la prueba de ablación es insuficiente para medir el riesgo de reidentificación?
- Respuesta: Solo mide la utilidad del modelo, no la probabilidad de cruce con fuentes externas.
- Elemento concreto: Prueba de ablación.
- Por qué importa: Confunde rendimiento con seguridad.
- Aplicación: Validación de modelos.
- Ejemplo: Un modelo preciso que filtra datos personales.
- Rigor: La clase confunde métricas de negocio con métricas de privacidad.
- Aporte: Separa la validación de utilidad de la validación de riesgo.
Pregunta: ¿Cómo se aplica la privacidad diferencial en datos de series temporales sin destruir la correlación temporal?
- Respuesta: Es extremadamente difícil; requiere técnicas de noise injection que preserven la estructura de la serie, a menudo perdiendo la capacidad de detectar eventos anómalos.
- Elemento concreto: Privacidad diferencial.
- Por qué importa: Las series temporales son altamente identificables.
- Aplicación: Monitoreo de sensores IoT.
- Ejemplo: Seguimiento de consumo energético.
- Rigor: La clase ignora la complejidad de los datos temporales.
- Aporte: Advierte sobre la degradación de utilidad en datos dinámicos.
Pregunta: ¿Qué sucede si el outlier es el dato más importante para el modelo?
- Respuesta: La técnica de agregación lo eliminaría, sesgando el modelo contra casos críticos.
- Elemento concreto: Agregación que revela outliers.
- Por qué importa: El valor de los datos suele estar en los extremos.
- Aplicación: Detección de fraude.
- Ejemplo: Transacciones inusuales de gran valor.
- Rigor: La clase no aborda el conflicto entre seguridad y valor de negocio.
- Aporte: Establece el límite de la anonimización en casos de uso de detección de anomalías.

11. 5 proyectos avanzados

Proyecto: Differential Privacy Sandbox. Objetivo: Implementar ruido de Laplace en un dataset. Base: Privacidad diferencial. Dificultad: Alta. Resultado: Medición del privacy budget vs. model accuracy.
Proyecto: HMAC Pipeline Auditor. Objetivo: Crear un flujo de pseudonimización con rotación de claves. Base: Pseudonimización. Dificultad: Media. Resultado: Sistema de ingesta seguro.
Proyecto: Re-identification Attack Simulator. Objetivo: Intentar reidentificar un dataset k-anonimizado cruzándolo con fuentes públicas. Base: k-anonimidad. Dificultad: Alta. Resultado: Informe de vulnerabilidad.
Proyecto: NER-based PII Scrubber. Objetivo: Automatizar la limpieza de texto libre usando modelos de lenguaje. Base: Limpieza de texto libre. Dificultad: Media. Resultado: Pipeline de limpieza de logs.
Proyecto: Ablation Study Framework. Objetivo: Automatizar la prueba de ablación para optimizar datasets. Base: Prueba de ablación. Dificultad: Baja. Resultado: Script de selección de variables.

Javier Ramos

student•

Y recuerden los pasos para preparar eticamente un dataset de churn

Descartar campos no esenciales para el modelo
Proteger identidades con tokens irreversibles
Convertir valores exactos en rangos amplios
Depurar menciones sensibles en campos abiertos

Carolina Ibarra

student•

Muy identificable.

Yo suprimiría el cp. y en segundo caso la fecha de nacimiento.

Esa es la intuición correcta: la generalización. Al eliminar o truncar esos datos, destruyes la capacidad del atacante para triangular la identidad. Pero cuidado, si eliminas demasiado, el dato pierde su valor analítico. Es un equilibrio constante.

Si suprimes esos datos, ¿cómo podrías seguir agrupando a tus usuarios para obtener información útil sin revelar quiénes son?

Carolina Ibarra

student•

depende para lo que vaya a usarlos

Esa es la clave: el propósito. Si el análisis es para tendencias de salud pública, no necesitas el código postal exacto, basta con una región amplia. Si es para marketing, quizás solo necesites rangos de edad.

Si ajustas la precisión de los datos según el objetivo, ¿qué te impide aplicar esa misma lógica de "necesidad estricta" a todo lo que recolectas?

Carolina Ibarra

student•

de donde sacas esos %?

Esos porcentajes no son leyes universales, son estimaciones de riesgo basadas en la singularidad de los datos. Latanya Sweeney, una pionera en esto, demostró que con solo tres datos (código postal, fecha de nacimiento y género), el 87% de la población de EE. UU. es identificable de forma única.

Si el 87% de las personas son identificables con solo tres datos, ¿qué tan seguro crees que es realmente un "dataset" que contiene diez o quince variables distintas?

Carolina Ibarra

student•

Porque creen que sus protocolos de seguridad son infalibles, o porque la ambición es mayor que la prevención.

Esa falsa sensación de invulnerabilidad es la trampa perfecta. Cuando la ambición dicta la estrategia, el dato deja de ser una responsabilidad y se convierte en una moneda de cambio, ignorando que cada registro extra es una puerta abierta para un atacante.

Si la seguridad es una ilusión, ¿qué métrica usarías para medir el riesgo real de una base de datos, más allá de cuántos firewalls tenga?

Carolina Ibarra

student•

la minimizacion para mi sigue siendo la mas efectiva

La minimización es el escudo más fuerte porque, simplemente, no puedes filtrar lo que nunca almacenaste. Es la única defensa que elimina el riesgo en su origen en lugar de intentar mitigarlo después.

Si la minimización es tan efectiva, ¿por qué crees que las empresas suelen resistirse a aplicarla y prefieren acumular datos "por si acaso"?

Carolina Ibarra

student•

ponerles cara, hacer uso de ellos y causar el daño

Exacto. Al cruzar los cuasiidentificadores, el atacante deja de ver números y empieza a ver personas reales. Ese es el momento en que la privacidad se rompe: el dato deja de ser estadístico y se vuelve una herramienta de extorsión, fraude o discriminación.

Si el daño ya es posible una vez que el atacante "pone cara", ¿qué medida de protección crees que sería la más efectiva para evitar que ese cruce ocurra?

Carolina Ibarra

student•

la llave de acceso

Esa "llave" es precisamente lo que llamamos cuasiidentificador. No es un dato único como un DNI, sino una combinación —edad, código postal, profesión— que, al cruzarse con otra base de datos, actúa como una cerradura que se abre sola.

Si el atacante ya tiene esa llave, ¿qué crees que le permite hacer con los datos que antes parecían "anónimos"?

Carolina Ibarra

student•

Porque con esa informacion puede tomar decisiones

Exacto. El analista no necesita saber si tú específicamente compraste ese producto, solo necesita saber si el grupo demográfico al que perteneces tiene esa tendencia para ajustar su estrategia. El ruido protege tu identidad, pero preserva la señal estadística que guía la decisión.

Si el analista ya tiene la tendencia general, ¿qué valor real le aporta intentar reidentificarte a ti, individualmente, en ese conjunto de datos?

Juan Camilo Mejía Rodríguez

student•

La frase que más me quedó grabada es que borrar nombres NO es anonimizar. Siempre asumimos que quitar el nombre de un dataset lo hace anónimo, pero la combinación de edad, ubicación, hábitos y otros atributos puede ser suficiente para reidentificar a una persona sin ningún dato obviamente personal. Los seis patrones de reidentificación son una guía práctica esencial antes de compartir cualquier dataset. Muy útil para equipos que trabajan con datos sensibles.

Reidentificación: seis patrones que debes conocer

Decisiones responsables con datos y LLMs

Cómo detectar daños invisibles en sistemas de IA

Mapa de riesgos en el ciclo de vida de datos con IA

Checklist de triaje antes de lanzar IA

Privacidad, seguridad y propiedad de datos

Cuándo una foto se vuelve dato biométrico