Entender qué son los datos personales es el primer paso para trabajar con ética en data science e inteligencia artificial. Si manejas información de personas, necesitas saber identificarla, clasificarla y protegerla antes de cualquier análisis. Esta guía te muestra los tipos, jerarquías y categorías que todo perfil técnico o curioso debería dominar.
¿Qué son los datos personales y cómo se identifican?
Los datos personales son aquella información que permite identificar de forma directa o indirecta a un individuo. La identificación directa ocurre cuando un dato te señala sin ambigüedad, como tu nombre. La indirecta aparece cuando el dato lo comparten varias personas, como tu nivel de ingresos, pero combinado con otros puede revelar quién eres.
En la práctica corporativa, esta distinción define cómo cuidas la información y qué análisis puedes ejecutar sin poner en riesgo a nadie [0:53].
¿Qué cuenta como dato personal? Cualquier información que identifique a una persona física, ya sea de forma directa (nombre, correo) o indirecta (ingresos, fecha de nacimiento combinada con ubicación).
¿Cómo se clasifican los datos personales por jerarquía de riesgo?
La jerarquía marca el nivel de cuidado que debes aplicar y la justificación que una empresa debe dar para recolectarlos [2:13]. Existen tres niveles:
- Datos ordinarios: nombre, dirección, finanzas personales. Son los más comunes y de menor sensibilidad relativa.
- Datos sensibles: origen étnico, preferencias políticas, religiosas y orientación sexual. Exigen rigor especial y justificación reforzada de uso.
- Datos especiales: genéticos, biométricos o de salud. Provienen de fuentes clínicas o técnicas, no de declaraciones conscientes del usuario.
Cada categoría implica un protocolo distinto de protección y un argumento sólido frente al titular sobre por qué se le pidió esa información.
¿Qué información no se considera dato personal?
No toda la información que pasa por tus modelos es personal, y hacer bien esta distinción te ahorra fricción en proyectos analíticos. Tres casos quedan fuera:
- Datos anonimizados, porque ya están protegidos y permiten estudios agregados sin identificar a nadie.
- Datos de personas jurídicas, ya que el concepto aplica solo a individuos.
- Datos generales que no permiten identificación de una persona específica.
Cuando un dataset cumple cualquiera de estas condiciones, puedes analizarlo con menos restricciones, aunque la buena práctica de documentar siempre se mantiene [3:54].
¿Anonimizar es lo mismo que cifrar? No. Anonimizar elimina la posibilidad de reidentificar a la persona; cifrar protege el acceso pero la información sigue siendo personal si se descifra.
¿Qué son los datos biométricos y cómo se clasifican?
Los datos biométricos son un subconjunto de los datos personales, no una categoría aparte. Incluyen el reconocimiento facial, el reconocimiento de retina, la firma, la escritura en teclado y el reconocimiento de voz [4:55].
Se clasifican de dos maneras complementarias: por su naturaleza y por sus características.
¿Cuál es la diferencia entre datos universales, únicos y permanentes?
Por su naturaleza, los datos biométricos pueden ser:
- Permanentes: no cambian con el tiempo. La huella dactilar es el ejemplo clásico; aunque sufra una quemadura, se regenera.
- Universales: los compartes con otras personas, como el grupo sanguíneo A positivo.
- Únicos: te pertenecen solo a ti, como un análisis clínico individual.
La voz es un caso interesante: cambia con la afonía o durante la pubertad, pero sigue siendo un dato biométrico válido y, por tanto, un dato personal.
¿Qué son los rasgos físicos y los rasgos de comportamiento?
Por sus características, los datos biométricos se dividen en rasgos físicos y rasgos de personalidad o comportamiento [6:21]:
- Rasgos físicos: observables a simple vista, como estatura o complexión.
- Rasgos de comportamiento: requieren interacción para identificarlos, como si la persona es alegre, inteligente o reservada.
La diferencia práctica está en cuántas observaciones necesitas para registrar el dato con confianza.
¿Por qué importa la ética en el manejo de datos para IA?
Cuando hablamos de ética, normatividad y privacidad aparecen conceptos como blockchain, anonimización, cookies y GDPR [6:54]. Todos forman el ecosistema que regula cómo recolectas, almacenas y analizas información de personas reales.
Dominar estos términos te permite usar los datos para el bien social, evitar dilemas éticos y justificar técnicamente cada decisión analítica que tomes en una empresa o institución.
¿Qué otro tipo de dato personal se te ocurre que no aparezca en esta clasificación? Compártelo en los comentarios e indica si lo consideras ordinario, sensible, especial o biométrico según lo que aprendiste.