Qué son los datos personales en Data Science

Resumen

Los datos personales son toda información que permite identificar a una persona de forma directa o indirecta, y entender su clasificación es el primer paso para hacer ciencia de datos con rigor ético. Si trabajas con datos, estás aprendiendo sobre IA o te interesa el impacto social de la tecnología, dominar esta base te ayuda a decidir qué analizar, qué proteger y cómo justificar el uso de cada dato.

¿Qué se considera un dato personal en ciencia de datos?

Un dato personal es cualquier información que apunta hacia un individuo. Algunos lo identifican de manera directa, como tu nombre, y otros de forma indirecta, como tu nivel de ingresos, que comparten varias personas pero suman pistas cuando se cruzan.

¿Qué son los datos personales? Información que identifica a una persona física, ya sea de forma directa (nombre, correo) o indirecta (ingresos, fecha de nacimiento). No aplica a empresas ni a datos anonimizados.

La distinción entre identificación directa e indirecta importa porque marca el riesgo de exposición. Tu nombre te apunta a ti sin ambigüedad. Tu rango salarial, en cambio, necesita combinarse con otros datos para señalarte.

¿Cómo se clasifican los datos personales por jerarquía de riesgo?

La jerarquía de riesgo define cuánto cuidado debes poner al guardarlos y qué tan sólida debe ser la justificación de la empresa que los recolecta. Se agrupan en tres niveles:

  • Datos ordinarios: nombre, dirección y finanzas personales.
  • Datos sensibles: origen étnico, preferencias políticas, creencias religiosas y orientación sexual. Exigen una justificación reforzada y medidas extra contra fugas.
  • Datos especiales: genéticos, biométricos o de salud. Provienen de fuentes clínicas y no de una declaración voluntaria del usuario.

Esta diferencia entre niveles no es un detalle burocrático. Es lo que separa un análisis legítimo de una violación de privacidad.

¿Qué datos no se consideran personales?

No todo lo que aparece en una base de datos es información protegida. En el día a día corporativo te vas a preguntar muchas veces si puedes analizar un campo sin restricciones, y la respuesta depende de tres condiciones.

  • Datos anonimizados, porque ya no permiten rastrear al individuo y habilitan estudios agregados.
  • Datos de personas jurídicas, es decir, de instituciones o empresas, no de individuos.
  • Datos generales que no permiten identificar a nadie en particular.

¿Un dato anonimizado sigue siendo personal? No. Si la anonimización elimina la posibilidad de reidentificar a la persona, el dato deja de ser personal y puede usarse en análisis agregados.

¿Qué son los datos biométricos y cómo se diferencian?

Aquí hay una confusión común: los datos biométricos no son una categoría aparte de los datos personales, son un subconjunto. Es decir, todo dato biométrico es personal, pero no todo dato personal es biométrico.

Algunos ejemplos que probablemente reconozcas:

  • Reconocimiento facial y de retina.
  • Firma manuscrita y escritura en teclado.
  • Reconocimiento de voz.
  • Huella dactilar.

¿Cómo se clasifican los datos biométricos por su naturaleza?

Se agrupan en tres tipos según cómo se comportan en el tiempo y entre individuos:

  • Permanentes: no cambian a lo largo de la vida. La huella dactilar es el ejemplo claro. Si te quemas el dedo, se regenera igual.
  • Universales: los compartes con otras personas. El grupo sanguíneo A positivo, por ejemplo, lo tienen millones.
  • Únicos: te pertenecen solo a ti, como un análisis clínico individual.

Hay un matiz importante: algunos rasgos biométricos varían. Tu voz cambia si estás afónico o atraviesas la pubertad, y aun así sigue siendo un dato biométrico y, por tanto, personal.

¿Qué diferencia hay entre rasgos físicos y rasgos de comportamiento?

Los biométricos también se clasifican por sus características observables. Los rasgos físicos se identifican a simple vista: alto, bajo, delgado. Los rasgos de comportamiento o personalidad requieren conocer a la persona: alegre, inteligente, triste. Estos últimos necesitan más de una interacción para registrarse, y eso cambia cómo se capturan en un sistema.

¿Por qué importa esta clasificación para tu trabajo con datos?

Cuando una empresa te pide construir un modelo o un análisis, vas a enfrentar la pregunta operativa: ¿puedo usar este campo?. La respuesta sale de cruzar tres cosas: si el dato identifica a un individuo, en qué nivel de jerarquía cae y si está anonimizado.

Conceptos como blockchain, cookies, GDPR, anonimización y protección de datos van a aparecer una y otra vez en tu carrera. Tenerlos claros te permite justificar ante una empresa o institución por qué recolectas cierta información y qué uso le vas a dar, que es exactamente lo que la normatividad exige.

¿Qué otro tipo de dato personal se te ocurre que no haya aparecido aquí? Compártelo en los comentarios e indica en qué categoría lo clasificarías según lo que acabas de leer.