1

Apuntes del Curso de Ética y Manejo de Datos para Data Science e Inteligencia Artificial

➡️¿Qué aprenderás en este curso?

En este curso vamos a hablar sobre diversos temas vinculados al uso y protección de datos, tales como:

  • Protección de datos personales
  • Protección de información
  • Normatividad
  • Uso adecuado de la información
  • Prevención de riesgos de fuga de información
  • Tipos de análisis de datos
  • Cómo los datos pueden ayudar para el bien de la sociedad

👥¿Para quién es este curso?

El curso está pensado para tres perfiles:

  • Personas expertas en análisis de datos que quieren implementar un conocimiento y reflexión ética en sus análisis.
  • Persona que todavía no sabe de inteligencia artificial y ciencia de datos, pero quiere recibir una introducción al conocimiento ético del manejo de datos para estar preparada cuando llegue a ser un experto en esas disciplinas.
  • Personas entusiastas de los cambios sociales a partir de los datos.

<h1>👥 Privacidad y ética de los datos</h1>

¿Qué son los datos personales?

Los datos personales son la información que permite identificar de una manera directa o indirecta a una persona.

  • Existen muchos tipos de datos personales, por ejemplo:
    • Edad
    • Teléfono
    • Domicilio
    • Correo electrónico
    • Documento nacional de identidad
    • Número de seguridad social
    • Ingresos
    • Fecha de nacimiento

  • La ciencia de datos es el campo de la ciencia que se ocupa del procesamiento y análisis de datos, para obtener información a partir de ellos con el fin de optimizar la toma de decisiones.

Clasificación de los datos personales

  • Una manera de identificarlos es Directo o Indirectos. Por Ejemplo: Los datos identificados anteriormente algunos son directos, como por ejemplo el nombre, ya que nadie más lo va a tener; en cambio, los ingresos sería una identificación indirecta porque probablemente otras personas pueden tenerlos.

  • Otra manera de clasificar los datos es en función a la importancia o riesgo de esta información. Esta clasificación tiene su fundamento en la importancia y cuidado que se debe tener en la preservación de la información.

    Es importante tener en cuenta que hay datos que son únicos y otros que nos permiten identificar a múltiples personas.

  • 🔰 Según este tipo de jerarquía tenemos:

    • Datos ordinarios: nombre, dirección y finanzas personales.
    • Datos sensibles: Estos tienen un rigor especial a la hora de preservarlos y una justificación adicional para mostrar el uso que se le van a dar. Aquí se incluyen, por ejemplo: los datos sobre el origen étnico, las preferencias políticas y religiosas, así como la orientación sexual.
    • Datos especiales. Se refiere a los datos genéticos, biométricos o de salud. Estos datos ya no son el producto de una manifestación voluntaria de las personas, sino que se generan a través de un análisis clínico.

  • ¿Qué datos NO son personales?

    Los datos que se consideran no personales son:

    • Información anonimizada. En este caso se puede realizar un análisis porque su estudio no va a permitir identificar y poner en riesgo la identidad de un individuo.
    • Datos de personas jurídicas o morales, es decir de empresas o instituciones.
    • Información que no permita la identificación.

  • ¿En qué se diferencian los datos biométricos?
    Los datos biométricos son un tipo de datos personales. Los datos biométricos permiten identificar digitalmente a una persona, por ejemplo:

  • Reconocimiento facial.

  • Reconocimiento de retina.

  • Reconocimiento vascular.

  • Reconocimiento de firma.

  • Reconocimiento de escritura.

  • Reconocimiento de voz.

  • Reconocimiento de escritura de teclado


    Clasificación de los datos biométricos

    1. Por su naturaleza.
      • Universal. Son aquellos que compartimos con otras personas, por ejemplo, el grupo sanguíneo.
      • Único. Por ejemplo, un análisis clínico, ya que solo le pertenecen a una persona.
      • Permanente, por ejemplo la huella digital.
    2. Según sus características:
      • Rasgos físicos y fisiológicos. Estos son los que podemos observar a simple vista: alto, bajo, delgado, etc.
      • Rasgos de comportamiento y personalidad. Estos implican un conocimiento más detallado de una persona y necesitan de más de una interacción para poder precisarlos, tales como si es alegre, inteligente, etc.

🗣️Escándalos históricos de uso de información

En el año 1940, en plena Segunda Guerra Mundial, el 1.5% de la población de Holanda era judía. Esta información fue recopilada mediante un censo y permanecía en los centros del país. El referido censo incluía información relacionada con nombres, apellidos, direcciones y origen de las personas.

Los nazis se apoderaron de las bases de datos de este censo y pudieron saber quiénes de la población eran de origen judío. Aunque esta población judía había permanecido por muchos años en Holanda, y habían adoptado las tradiciones y costumbres de la población holandesa, no fue impedimento para que los nazis cometieran el asesinato del 75% de la población judía que residía en Holanda.

Este fue un caso claro en el que la fuga de información conllevó a un delito. A partir de este acontecimiento histórico se empezó a poner especial relevancia a la recolección y custodia de la información.

El caso de Holanda y los sucesos más recientes sobre la fuga de datos dan contexto a los temas éticos sobre el tratamiento de la información.


📶 Interés creciente por la información

➡️Las empresas tienen más interés por los datos

La capacidad de procesar datos ha venido aumentando aceleradamente en los últimos años. Este procesamiento de datos ya no se limita a las tablas tradicionales de Excel, sino que ahora también podemos procesar tablas de imágenes, sonidos, vídeos, etc.

Eso ha hecho que las empresas y el sector público manifiesten un especial interés en los datos, ya que a través de estos se puede analizar cualquier aspecto que se encuentre en nuestro entorno.


Los límites de la información

La capacidad de recolección de datos ha llegado a límites muy precisos. Por ejemplo, cuando escuchas una canción en Spotify, se lleva registro de qué canción se trata, cuándo la empezaste a escuchar, cuándo la paraste, quién era el cantante, la frecuencia con la que escuchas esa canción, si la has seleccionado como favorita, etc. Todo eso se convierte en información y es de especial interés para la empresa que está detrás.

  • Las empresas se han dado cuenta de que la información recolectada les sirve para predecir y entender a sus usuarios, por qué consumen determinados productos y cuándo lo van a consumir en el futuro.

  • El interés por la recolección de datos ha hecho posible la implementación de herramientas y mecanismos cada vez más eficientes, que permiten que este proceso de recolección sea cada vez más económico.


Necesidad de crear regulaciones

La regulación de uso comprende mecanismos para controlar aspectos como el volumen máximo de información que puede tener una empresa, qué tipo de información puede recolectar, pues, las empresas no pueden recolectar la información por gusto, deben tener una explicación para ello, así como justificar el uso que le darán a esta información.

Todos estos factores han ido sentando las bases para crear normativas al respecto, dado que las personas necesitan garantías para que sus derechos no sean vulnerados.

⚠️ La importancia de los datos ha originado que algunas empresas incurran en actividades ilícitas al comprar o vender datos. Por este motivo, es urgente que los gobiernos impulsen la creación de normas para regular las actividades inherentes al menejo de los datos.

El mercado ilícito de datos se mueve con considerable dinamismo en las redes.


👻 Bias y GIGO en datos

  • Bias:es un anglicismo que significa sesgo.

    Este fenómeno sucede cuando deseamos estudiar una población y, para ello, partimos de una muestra que no es estadísticamente significativa.

  • GIGO:significa “basura entra, basura sale.

    Esta frase se fundamenta en el principio que dice “la calidad del resultado (output) depende de la calidad de la entrada (input)”.

🚨 Para que los datos representen las verdaderas características de la población estudiada se debe prestar especial atención a estos dos aspectos: Bias y GiGO.

  • De igual modo para que los resultados de un análisis de datos sean efectivos y permitan una correcta interpretación de la realidad que pretenden explicar, es muy importante la calidad de estos y que su recolección obedezca a criterios científicos.
  • Por consiguiente, es indispensable que estos datos realmente recojan las características de la población que se desea estudiar, es decir, que realmente sean representativos.

Bias o sesgo

En otras palabras, el sesgo se origina cuando se selecciona la información de manera errónea y se considera una muestra que no representa la totalidad de la población. En este caso, la muestra aleatoria no es representativa.


Garbage in Garbage out (GIGO)

Así pues, debemos asegurarnos de tener calidad en los datos y en la fuente de acceso, cantidad de datos suficientes, tipología de datos, entre otros, para que nuestros resultados sean de calidad.

Si no tenemos una fuente confiable para obtener nuestros datos, estos no van a permitir una conclusión relevante o fidedigna. Por lo tanto, se precisa recolectar un buen input para tener un buen output.


⚠️ Advertencias de uso en marketing

🚨 Se puede crear publicidad personalizada pero debe considerarse lo siguiente en cuanto lo que respecta advertencias…
(Es necesario usar la data con responsabilidad y ética)

  • Evitar Sesgos discriminatorios ⇒ Como evitar trato distinto dependiendo del tipo de usuarios en caso de no ser realmente necesario.
  • Evitar la manipulación de precios ⇒ Suele suceder cuando las empresas conocen datos sobre el poder adquisitivo del cliente.
  • Evitar la manipulación de campañas políticas.
  • Evitar fomentar conductas violentas, adictivas o ataques emocionales

⚠️ Advertencias de uso en campañas políticas

El panorama actual:

Actualmente, ya no existe bajo los mismos términos que sucedía en el pasado, ya que cometieron actos que en su momento no eran delitos, porque no había disposiciones legales que calificaran sus servicios como tales en términos legales, pero actualmente si han penalizado ese tipo de servicios.

Reglamentos:

Existen reglamentos para penalizar y para regular el uso de datos, así como el almacenaje y procesamiento de información.

  • Si en algún momento estás trabajando con datos, vas a tener que estudiar a profundidad sobre este tipo de normativas para hacer un uso adecuado de estos.

🛡️ La Ley Federal de Protección de Datos Personales en Posesión de Particulares.

Esta ley penaliza a aquellas empresas que no estén haciendo el uso adecuado de los datos de particulares. Recuerda que los datos personales son aquellos que nos ayudan a identificar a una persona, ya sea de manera directa o indirecta.

  • Las empresas tienen que justificar las razones por las cuales están recolectando esa información y se encuentran obligadas a hacer un uso adecuado, así como usarla solo en caso de que sea imprescindible.
  • Además, esta ley obliga a las empresas a dar un uso ético de la información y garantizar que todos los datos estén preservados. Es decir, regula su uso y exige que no puedan tener fugas de información.
  • Finalmente, es importante destacar que esta ley también sanciona la compra y venta de bases de datos de usuarios.
    <aside>

🛡️ Reglamento General de Protección de Datos (GDPR)

La ley general más reciente vigente en Europa es la GDPR que significa General Data Protection Regulation que tiene por objeto regular el uso de datos de los ciudadanos europeos.

  • Esta ley la están aplicando en otros países, porque su fundamento es que tanto los ciudadanos de la Unión Europea como los de la Unión Económica Europea puedan exigir la protección de su información. Esto aun cuando no estén en su país de origen, porque esta ley obliga a que fuera de la región permanezca protegida la información de sus ciudadanos.
  • Este reglamento pretende instrumentar mecanismos legales para proteger a los ciudadanos sobre sus datos, así como simplificar el entorno regulatorio.
  • Igualmente, este reglamento aplica para cualquier empresa del mundo que procese datos de personas residentes en la Unión Europea.

<h1>📈 Retos éticos en la actualidad</h1>

🚗 Ética y deep learning: vehículos autónomos

Los vehículos autónomos son automóviles capaces de imitar las capacidades de los seres humanos de conducir. Su tecnología está diseñada para hacer un reconocimiento de las imágenes que capta de su entorno a través técnicas complejas, sistemas de posicionamiento y visión computarizada. De esa manera el vehículo tiene dos órdenes: seguir avanzando o detener la marcha.

  • Los principales obstáculos que ha enfrentado esta tecnología es el referido a dilemas éticos que se fundamentan en la posibilidad de que su código sufra algún daño o que sea corrompido.

No obstante, los datos demuestran que esta tecnología es más segura que la capacidad humana para conducir autos.

🗿Ética y deep learning: reconocimiento facial

El reconocimiento facial se refiere al reconocimiento o identificación de la identidad de una persona mediante su rostro basada en datos biométricos. Estos datos son del rostro completo o de una imagen parcial del rostro como la retina del ojo.

  • Esta tecnología se apoya en el reconocimiento de vectores que identifican los rasgos de una persona.

📢 Sin duda esta tecnología tiene sus beneficios, sin embargo, debes detenerte a pensar que estás ofreciendo datos biométricos únicos de tu rostro y un mal uso de esta información puede significar una vulnerabilidad a tus datos sin dejar de mencionar los riesgos de una fuga de información.

Como usuario tienes el derecho de decidir a quién otorgarle tus datos biométricos.

🫂 Ética en las relaciones interpersonales

Ventajas y desventajas de la comunicación virtual

VENTAJASDESVENTAJAS
Permiten que la comunicación prevalezcaGeneran escándalos de fuga de información
Tiene features tecnológicas modernas para conectarseExiste un riesgo de gran exposición de datos y de clonación de identidad

📢 El dilema de otorgar permisos:

Ahora es pertinente hablar sobre la importancia de decidir si le otorgamos los permisos de acceso a los micrófonos de nuestros móviles a redes sociales como Instagram o Facebook, ya que mientras tengan dominio sobre los micrófonos también pueden tener acceso a lo que hablamos.

🤖Ética y Procesamiento de Lenguaje Natural (NLP)

El procesamiento del lenguaje natural, en inglés NLP o Natural Language Processing, es la interacción entre las computadoras y el lenguaje humano a partir de lenguas naturales.

  • Qué es la tecnología GPT-3
    La tecnología GPT-3 es un lenguaje autorregresivo que emplea el aprendizaje profundo (deep learning) para producir textos que simulan la redacción humana. Esta tecnología toma datos de un histórico y a partir de estos desarrolla un aprendizaje profundo o deep learning para entender lo que dicen los textos que se encuentran en la red.

    • También plantea un tipo de modelo con un dilema sobre si la máquina estaría mejorando la inteligencia y capacidades humanas.

<h1>👍 Data for good</h1>

¿Qué son las políticas públicas?

Las políticas públicas son acciones de la administración pública que tienen como objetivo satisfacer las necesidades o demandas de una comunidad o colectivo.

🗣️ Manuel Tamayo de la Universidad Complutense de Madrid señala queLas políticas públicas son el conjunto de objetivos, decisiones y acciones que lleva a cabo un gobierno para solucionar los problemas que en un momento determinado los ciudadanos y el propio gobierno consideran prioritarios

  • Objetivos de las políticas públicas

    Las políticas públicas persiguen varios objetivos, los cuales podemos resumir básicamente en los siguientes:

    • Atender desde el Estado los problemas de los ciudadanos.
    • Implementar a partir de normas, instituciones, prestaciones y servicios. Esto involucra toda acción para reparar una calle, creación de alumbrado, etc.
    • Ayudar a alcanzar principios éticos y a crear igualdad en las sociedades.
  • Tipos de políticas públicas

    Las políticas públicas pueden ser clasificadas en varias tipologías que conocerás a continuación.

    Política institucional

    Esta autoridad puede ser a nivel nacional, regional, municipal, local. Tenemos el caso de la pandemia de Covid-19 donde diferentes niveles de gobierno implementaron acciones para contrarrestar los efectos generados por esta enfermedad.

    Política según el sector

    Estos sectores pueden ser en el ámbito médico, medio ambiente, educación, seguridad, etc.

    Política según los destinatarios

    Se refiere a un tipo de política pública para personas con discapacidad, juventud, adultos mayores, etc.

    Política según la elaboración

    La elaboración puede depender exclusivamente por parte del Gobierno o puede haber participación de la ciudadanía.

    Política según la planificación

    Algunas políticas públicas se hacen de manera reactiva, es decir, para resolver un problema, implica la reacción a una situación, por ejemplo la pandemia. La otra opción es actuar de manera preventiva para evitar que suceda un problema o, por lo menos, evitar que el problema llegue a niveles mayores, por ejemplo, desarrollar campañas preventivas contra enfermedades.


Datos y prevención de crímenes 🕵️‍♂️

Data for Good se refiere a todo lo que involucra datos abiertos. Estos son los que se comparten con la comunidad y expertos como tú pueden empezar a procesarlos para predecir eventos.

Los datos tienen dos caras pues:

  • Nos encontramos los dilemas éticos que se derivan de su recolección y uso

  • Es indiscutible que los datos también pueden crear oportunidades y grandes beneficios para la sociedad.

  • Uso de datos con fines sociales

    Existe la importancia de los datos con fines sociales, lo cual inevitablemente está vinculado con las políticas públicas; por ejemplo, algo que se ha estado explorando mucho es el desarrollo de políticas y estrategias de prevención de crímenes a partir de la información.

Datos y salud 💙

El uso adecuado de los datos en cualquier área representa grandes oportunidades. El campo de la salud no es diferente, porque la información puede ayudar a predecir eventos que representan oportunidades importantes para la sociedad.

Gracias a la recolección de datos se sabe con meridiana certeza cómo evoluciona una enfermedad, posible curso que puede tomar, tasa de éxito de determinados tratamientos, índices de mortalidad, tiempo promedio de incubación, desarrollo y muerte de un virus, entre otros beneficios.

Datos y movilidad 🚲

Otro ejemplo sobre Data for Good o datos para el bien son los usos que se le pueden dar a la movilidad desde una ciudad. Es increíble cómo la red de transporte de una ciudad cuenta con tecnologías que tal vez ni conocías.

  • Ejemplos de vehículos

    El sistema de transporte en una ciudad en cualquier lugar del mundo puede dividirse en dos tipos de vehículos:

    • Vehículos motorizados
    • Vehículos libres (bicicletas, scooters, patines, motocicletas)
  • ¿Qué son las ciudades inteligentes?

    Las ciudades inteligentes o smart cities son lugares más sustentables y ecológicos que emplean los datos para el desarrollo de tecnologías en beneficio de los ciudadanos.

    🗣️ Según la Comisión Económica para Europa de Naciones Unidas (UNECE), la definición de ciudad inteligente incluye además elementos como la alta difusión de conectividad en los hogares y wifi en los espacios públicos, una infraestructura inteligente, medidores de electricidad inteligentes, información abierta y un gobierno electrónico.

    • Características de las smart cities
      • Cuenta con redes inteligentes de transporte urbano, instalaciones mejoradas para el suministro de agua y la eliminación de la basura.
      • Goza de un órgano administrativo para que la ciudad sea más interactiva y receptiva.
      • Utiliza las tecnologías de la información y la comunicación (TIC) para mejorar la calidad de la vida de los y las habitantes, la eficiencia y la competitividad.

Datos y educación 📘

Las escuelas online como Platzi realizan el monitoreo y evaluación de datos para conocer a las personas y hacer recomendaciones en función de esta información.

  • En el caso de que una persona reciba una sugerencia, esta es el resultado de algoritmos de recomendación que han recolectado información sobre los comportamiento de estudiantes.
  • Beneficios de los datos.
    • El uso de estos datos permite el acceso al mundo laboral de una manera más digital. El posicionamiento de los diplomas en las redes sociales como LinkedIn, o cualquier otra red social, facilita que las empresas y los contratadores puedan ubicar con mayor facilidad a personas que cumplan con ciertas habilidades y conocimientos.

Datos y medio ambiente 🍃

El uso de datos para el bien (data for good) tiene una gran importancia en el caso del medio ambiente. Los datos permiten mostrar información valiosa para la toma de decisiones en materia ambiental.

Por ejemplo, la polución en el aire se puede medir a partir de detectores y sensores que emiten alertas públicas y los gobiernos se ocupan de hacerlas llegar a la ciudadanía.


Escribe tu comentario
+ 2