Bias y garbage in, garbage out en datos

Clase 5 de 20 • Curso de Ética y Manejo de Datos para Data Science e Inteligencia Artificial

Contenido del curso

Privacidad y ética de los datos

Retos éticos en la actualidad

Data for good

Cierre

20
Qué sigue tras certificarte en ética de datos
01:16 min

Tomar examen

Resumen

Cuando analizas datos, dos errores pueden arruinar tus conclusiones antes de que llegues a la primera gráfica: el bias y el garbage in, garbage out. Entender estos dos fenómenos te ayuda a tomar decisiones más justas y basadas en información confiable, algo clave para cualquier persona que trabaje con datos en empresas o en el sector público.

¿Qué es el bias en análisis de datos?

El bias, o sesgo en español, aparece cuando tomas una muestra que no representa bien a la población total que quieres estudiar. Y aquí viene lo interesante: el problema no siempre es obvio.

Imagina que tu universo es la población de Medellín o de Madrid, o incluso un grupo más específico como las personas entre veinte y treinta años de esas ciudades. Esa población es tu denominador. De ahí extraes una muestra, que puede ser de veinte, mil o un millón de personas. La pregunta clave es si esa muestra es lo suficientemente grande y diversa para sacar conclusiones reales.

¿Qué significa que una muestra sea estadísticamente significativa? Que tiene el tamaño y la diversidad suficientes para representar al universo del que proviene. Veinte personas rara vez alcanzan; necesitas un número mayor y con representación equilibrada.

¿Cómo aparece el sesgo en casos reales como el reconocimiento facial?

Un ejemplo claro está en el reconocimiento facial. Históricamente, muchas empresas entrenaron sus sistemas con más muestras de personas blancas que de personas de raza negra. ¿El resultado? Sistemas que identifican mejor a unos que a otros.

En ese caso, el universo es el planeta entero y la muestra son las fotos recolectadas. Si esa extracción no refleja la diversidad del mundo, dejas fuera a poblaciones importantes y pones en riesgo la utilidad y la ética de tu análisis. Por eso necesitas asegurar representación ecuánime de múltiples grupos.

¿Qué es el garbage in, garbage out?

El segundo fenómeno es el famoso garbage in, garbage out: basura entra, basura sale. La idea es simple pero poderosa: la calidad de tu output depende directamente de la calidad de tu input.

Si tu fuente no es veraz, si tienes pocos datos o si la tipología de datos no es la adecuada, tu conclusión no va a ser relevante ni fidedigna. Por más sofisticado que sea tu análisis, los resultados van a estar contaminados desde el origen.

¿Cómo evito el garbage in, garbage out? Cuida tres cosas antes de analizar: la fuente de acceso, la cantidad de datos y la tipología de datos. Si esos tres pilares son sólidos, tu resultado tendrá una base confiable.

¿Qué debes revisar para tener un buen input?

Antes de empezar cualquier análisis, revisa estos puntos:

La fuente de los datos: verifica que sea veraz y confiable.
La cantidad de datos: asegúrate de que sea suficiente para sacar conclusiones.
La tipología de datos: confirma que el tipo de información encaja con la pregunta que quieres responder.
La representación: comprueba que distintos grupos estén incluidos de forma equilibrada.

Con esa base, tu análisis tiene mucho más sentido y tus decisiones se apoyan en algo sólido.

¿Qué otros sesgos existen al trabajar con datos?

Más allá del bias y del garbage in, garbage out, hay muchos otros errores en los que caen tanto empresas privadas como instituciones públicas. Piensa en sesgos de selección, de confirmación, de supervivencia o errores al recolectar datos en encuestas mal diseñadas.

Cuéntame en los comentarios qué otros tipos de sesgos o errores se te ocurren y anótalos también en tu guía de retos para llevar registro de lo que vas aprendiendo.

Comentarios

Valeria Alonso Peralta

student•

Yo en otro curso había visto de los sesgos, me pareció impresionante, porque nosotros en nuestra vida cotidiana también caemos en segos cognitivos, aquí les dejo un par de ejemplos de estos sesgos:

1.Aversión a la pérdida Consiste en considerar que es más importante la posibilidad de perder algo que la posibilidad de conseguir algo de igual valor. Debido a este sesgo, muchas personas consideran que perder tiene más impacto que ganar, incluso en aquellas circunstancias donde ganar o perder puede ocurrir con las mismas probabilidades.

2. Efecto Forer El efecto Forer es el sesgo cognitivo detrás del éxito de los horóscopos. Consiste en la tendencia de las personas a sentirse identificadas con descripciones ambiguas, que pueden encajar con casi cualquier persona.

3. Prejuicio de retrospectiva Cuando se produce este sesgo, las personas tienden a pensar que cosas que han ocurrido eran más previsibles de lo que eran antes de que ocurrieran.

4. Sesgo del punto ciego Trata sobre la tendencia de las personas a creer que ellos mismos son menos vulnerables ante los efectos de los sesgos cognitivos que otras personas.

Sandra Noelia Saucedo Díaz

student•

Wow! Cuál fue ese curso que tomaste?

Camilo E. Sánchez Sarria

student•

Qué excelente aporte!

Juan R Rossano

student•

Hay una pelicula que en Argentina se titula Prejuicio Cifrado (titulo original Coded Bias) sobre una estudiante del MIT que trata el tema. Como un caso especial en una conferencia sobre IA aplicada a salud en Argentina mencionaron que todos los datos que tenian para evaluar eran de una poblacion de cierto nivel economico que tenian acceso a instituciones de salud con recursos como para tener sistemas que recolecten informacion, pero la poblacion carenciada, los pueblos originarios y de lugares con baja poblacion que no tenian recursos informaticos son gente no evaluada y con un caso de sesgo (asi fue presentado)

Jorge Rafael Flores Meza

student•

muy recomendado comunidad

Juan Esteban Sanchez Cifuentes

student•

Gracias Juan. De algún modo serían "baches sociales". Personas excluídas del sistema. Invisibles.

Erick Rosero

student•

El mayor sesgo que pueden tener las empresas pequeñas es creer que publicar en redes sociales aumentará las ventas. Trabaje en el área de publicidad referente a data y literal las empresas se fijaban en el número de likes y comentarios en los post o perfiles empresariales para determinar que tanto iban a vender. Es difícil borrar ese sesgo de datos hasta que se les explica los KPI's. Pero la mejor forma es cuando revisan sus ventas y ven que no es lo esperado :/

Juan Pablo Cuenca Ludeña

student•

Vendrían a ser las llamadas métricas de vanidad. ¿no?

Aunque en lo personal, cuando trabajé en marketing para una empresa de ventas, la publicidad paga tuvo muy buenos resultados. Las publicaciones orgánicas tenían poca tracción, salvo unas pocas excepciones.

Jose Martin Rangel Espinoza

student•

Existe una paradoja donde a una persona de escasos recursos económicos desea solicitar un préstamo estudiantil para costear su educación, pero si hay un sesgo en un modelo de ML que evalúa el riesgo de dar crédito e identifique que esa persona por su situación no pueda pagarlo entonces esa persona le será más difícil salir de su situación si no tiene acceso a un crédito.

Melanie Daniela Ventura Jimenez

student•

Esa es una muestra de los grandes retos que nos presenta el desarrollo de la tecnología y la inteligencia artificial, necesitamos pensar maneras de que contribuyan a la disminución de la discriminación y las brechas, en lugar de profundizarlas.

Ricardo Gomez

student•

Eso ya esta sucediendo al interior de las entidades financieras, y es de nosotros colocar la queja Esto modelos no tiene en cuenta que tu puedes tener periodos muy buenos dentro de tu vida, y en ocasiones otros no tan buenos, además miran tu entorno familiar y no te dicen, algo totalmente incorrecto

Luis Enrique Chavarría Vázquez

student•

Resumen de la clase Bias (Sesgo) y GIGO

Bias

Tiene que ver con la recolección de datos de forma errónea de una muestra en donde no se representa a la totalidad de la población.

En algunos casos como el reconocimiento facial suele haber sesgos en donde no se toman en cuenta todas las personas y sus distintos rasgos.

GIGO (Garbage in / Garbage out)

Si metemos basura en nuestros análisis la conclusión no será buena y por tanto no obtendremos los resultados esperados. (Debe haber calidad en los datos y estos deben ser de valor según los requerimientos del proyecto/negocio)

Edward Tuanama

student•

Gracias

Alejandro Collado Valverde

student•

Si les interesa el tema de los sesgos tanto estadisticos como psicologicos les recomiendo el siguiente libro:

El autor es premio novel de economia y es uno de mis libros favoritos, no se arrepentiran de leerlo

Eduard Giraldo Martínez

student•

Hola, Alejandro 😃

Disculpa, pero no dejaste el nombre del libro y ya quedé con la duda 😣

👾

Bryan David Rosas Rojas

student•

Hola! me gustaría saber el nombre del libro, gracias.

Álvaro Ambiorix Marcelino Taveras

student•

++Otros tipos de Sesgos++

SESGO DE AFINIDAD “Ha estudiado en la misma universidad que yo”. Esta expresión se correspondería con el llamado “Sesgo de afinidad”. Es aquel que genera en nosotros/as una predisposición favorable hacia personas con las que compartimos orígenes o cualidades parecidas a las nuestras.

¿Cómo nos afecta? Nuestro cerebro percibe a esa persona como “reconocible” o “cercano” y nos resta visión sobre otros aspectos también importantes (capacidades, competencias, etc.) El predominio del “Sesgo de afinidad” en los procesos de contratación puede repercutir en que los equipos de trabajo sean menos diversos y/o creativos.

SESGO CULTURAL Consiste en la preferencia de un origen cultural sobre otros, que proviene de creencias muy arraigadas sobre roles y estereotipos culturales. Esto nos puede llevar a inclinarnos inconscientemente hacia una persona por su cultura y las cualidades que atribuimos a ella. Frecuentemente, conectamos con más facilidad con las personas de un mismo contexto cultural, porque compartimos constructos y experiencias similares.

La afinidad cultural con una persona puede convertirse en discriminatoria hacia personas de diversos orígenes, desperdiciando sus talentos y el aporte que otros bagajes culturales ofrecen a la empresa. Este sesgo, también puede propiciar el establecimiento y la continuidad de entornos laborales estáticos.

EFECTO ANCLAJE El efecto anclaje se produce cuando los datos que nos ofrece la primera impresión son los únicos que empleamos a la hora de tomar una decisión. Esta información nos posiciona, creando un punto de partida que descarta o condiciona el resto de la información que conocemos a posteriori sobre ella.

¿Esto en qué se traduce? Uno de los casos frecuentes en los entornos laborales, o procesos de selección, se produce en relación con la edad. Por ejemplo, podemos tener tendencia a considerar que personas de edad más avanzada tengan más dificultades de adaptación a las nuevas exigencias de mercado o a las nuevas tecnologías, restando valor a su experiencia, creatividad y otras competencias que posean, basándonos en datos de desempleo de mayores de 50 años aportados por un estudio del Banco de España.

EFECTO HALO Y EFECTO DIABLO El efecto halo y el efecto diablo están relacionados con los sesgos de afinidad y de confirmación. Estos efectos nos ocurren cuando nos centramos exclusivamente en una cualidad especialmente positiva (efecto halo) o negativa (efecto diablo) de una persona. Esta cualidad se convierte prácticamente en la única referencia desde la que la percibimos.

¿Cómo afecta a los entornos laborales? Los efectos halo y diablo distorsionan otras facetas de las personas, que tendemos a comparar con aquella cualidad que nos ha llamado la atención.

El efecto halo tiende a generar altas expectativas y predisposición al éxito. Por otro lado, en el efecto diablo se invierte la tendencia: se espera el fracaso y las expectativas disminuyen. En ambos casos, se emiten juicios de valor e incluso discriminatorios con base en sólo una cualidad y no valorando otras dimensiones, competencias y capacidades.

Eduardo Monzón

student•

Excelente, muchas gracias.

Braylin Alexander Jiménez Reynoso

student•

Sesgos económicos hay muchísimos y los economistas (soy estudiante de economía), se dan a la tarea de desmenuzarlos y exponerlos por lo que son, uno de los más conocidos es el sesgo de confirmación. El sesgo de confirmación hace que la persona es pos de buscar los resultados que confirmen su idea, solo buscan datos que estén de acuerdo con ellos. Gracias al método científico, la humanidad ya no es victima de este sesgo tan frecuentemente, de hecho, sigue siendo común hoy en día y en el pasado le paso a muchas personas famosos, por mencionar uno de ellos, Sigmund Freud.

Edgar Contreras

student•

Cherry Picking 🍒|

Existe el denominado Cherry Picking, éste se basa en la falacia de evidencia incompleta o, en otras palabras, es tomar en cuenta para nuestro estudio solo la información que confirme nuestro estudio o lo que queremos demostrar. Aunque puede suceder que se haga consciente o inconscientemente.

Alfonso Neil Jiménez Casallas

student•

corazoncito si eres de Colombia y te emocionaste cuando Silvia mencionó a Medellín

María José Martínez Contreras

student•

-Sesgo de disponibilidad: tomar decisiones sólo con la información disponible en nuestra base de datos sin enriquecerla. -Sesgo de confirmación: interpretar una información de tal manera que se vuela compatible con nuestras creencias.

Carlos Hernández

student•

En Datos económicos de los países creo que hay muchos sesgos, a veces no son buenas investigaciones y otras publican datos manipulados para no mostrar la verdadera realidad de una economía.

jabes nestor frias martinez

student•

justo estaba pensando en eso buen aporte

Johnny Ramirez

student•

Coded Bias es un documental en Netflix que justamente refleja como los sesgos pueden repercutir directamente en los resultados de los algoritmos de la IA cuando no tenemos una muestra significativa. Impactante como el reconocimiento facial tenia menos exactitud con personas de piel oscura respecto a piel clara y como esto llevo a un estudio generalizado de casos donde el sesgo repercutía en resultados diversos como selección de personal, seguridad nacional, salud. Verdaderamente esto no se puede tomar a la ligera y tenemos que ser responsables y éticos al querer iniciar trabajos en este mundo. Agradezco a Platzi por este contenido que hasta ahora me era desconocido.

Julieth Pineda Parra

student•

Aquí el vídeo viral que ejemplifica el sesgo que nos comentaba la profesora, en el que para crear y probar tecnología se usan sujetos blancos. https://www.youtube.com/shorts/87QwWpzVy7I

Julio Cesar Godinez

student•

En el estudio: De ratones y ratonas: un sesgo metodológico peligroso Leandro Giri y Federico Bernabé Blach analizan un sesgo metodológico en la investigación en ciencias de la vida sobre la selección de especímenes para modelado a partir de animales. Se trata de un sesgo sexual ubicuo, y consiste en el uso abrumadoramente mayoritario de especímenes macho para modelar seres humanos, tanto hombres como mujeres. En este estudio se analiza el motivo de este sesgo y se revela una serie de problemas sociales y tecnológicos derivados del uso de conocimiento científico inválido obtenido a partir de investigaciones efectuadas mediante la práctica sesgada. Aquí la liga al estudio:

(https://repositorio.uca.edu.ar/bitstream/123456789/5642/1/de-ratones-ratonas-sesgo-metodologico.pdf)

Jackeline Vanessa Perilla

student•

Que interesante! y simpático! nunca se me habría ocurrido que existe eso! pero tiene mucho sentido...

Jean Carlos D Lucca Suarez

student•

++RETO DE LA CLASE++ Sesgo de selección Este es un tipo de sesgo en el que hay un error en la selección de elementos de la población de datos. Por ejemplo, si se planea establecer la estatura promedio de personas españolas, pero los datos se recogen de una muestra desequilibrada. En este caso, el sesgo de selección sería ir a coger jugadores de baloncesto esperando que sean una muestra representativa de la altura española, cuando es evidente que no sería asertivo.

En definitiva, este sesgo es un error sistemático que no depende del azar, por lo que es necesario identificarlo y tratar de neutraliza su efecto.

Sesgo del superviviente El sesgo del superviviente es uno de los tipos de sesgo en estadística Big Data que se encuentra dentro del sesgo de selección, es decir, también hace referencia a un error sistemático.

Este tipo de sesgo se produce ya que muchas veces los datos que se disponen no representan una parte fiable de la población que se quiera medir, sino una parte de aquellos que han superado ciertos filtros.

Como, por ejemplo, pretender estudiar cuál es el alcance académico de una provincia con base a los estudiantes que ya han superado una gran de pruebas académicas, sin considerar la población que no ha podido acceder a ningún nivel de educación.

Sesgo por omisión de variable Este sesgo en estadística Big Data ocurre cuando se crea un modelo incorrecto porque no se han tenido en cuenta las variables más importantes.

Por ejemplo: considerar la brecha de género presentada en el salario. Un estudio llevado a cabo en 2007 en EEUU por el departamento de trabajo, calculó que la brecha de género respecto al salario entre hombres y mujeres era de un 20.4%. Es decir, las mujeres en media ganan un 20.4% menos que los hombres. Pero si tenemos en cuenta variables ocultas como: interrupción de la carrera profesional, edad, número de hijos, estudios… En ese caso, la brecha de género podría estar entre el 4.8% y el 7.1%.

Jackeline Vanessa Perilla

student•

Excelente la info! muchas gracias!

Miguel Ramirez

student•

En mi trabajo anterior como Gerente de Inteligencia comercial, se cayo en un sesgo que casi quiebra a la empresa. Para realizar la planeación de compras, se tomaba el histórico de ventas que le hacíamos a los principales clientes. Esto durante cuatro años hizo que triplicaramos las ventas. Porque siempre había material disponible del que mas se vendia.

Sin embargo, en 2021 la hija del dueño tomo la dirección comercial de la compañía, y para la palneación de compras, desde su punto de vista, no se hacía de la manera correcta, y decidió que ahora el cliente seria el que nos diría que vamos a comprar.

Si se ve de manera objetiva esto no es malo, lo malo fue el sesgo que se creo, al solo preguntarle a las 3 gerentes de compras de los 3 principales clientes, en vez de preguntarle al equipo de ventas de los principales clientes.

Este sesgo provoco que no se tuviera certeza del mercado, se compraron productos que estaban saliendo de tendencia a sobrestock, y los productos en auge se liquidaron.

Llego un momento en el que de tener siempre mes y medio de stock de los productos de alta rotación, el stock paso a 9 meses de algunos productos y a cero en otros.

Jonathan Aguilar Cabrera

student•

una vez el DANE, el departamento de estadisticas en colombia, me acuerdo un dia que estaban haciendo el censo y al momento de preguntar por la raza dejaron a la libertad de la persona la eleccion del color de piel, osea que este posible Bias de alguna manera es aceptado de manera conciente en un censo por las instituciones?

Gabriel José Chiong Hernández

student•

Probablemente no diria de manera "conciente" (dandole el beneficio de la duda a esta institución) me parece que mucho de estos "errores" ocurren porque no se instruye de manera adecuada al personal de las empresas, motivo por el cual cursos como este a pesar de que son "pesados" en texto y no en la "practica" por asi decirlo, son realmente importanetes, ayudaria a multiples personas a darle la importancia debida al manejo y manipulación de la data.

LUIS EDUARDO TUNJANO BELLO

student•

3. Prejuicio de retrospectiva Cuando se produce este sesgo, las personas tienden a pensar que cosas que han ocurrido eran más previsibles de lo que eran antes de que ocurrieran.

4. Sesgo del punto ciego Trata sobre la tendencia de las personas a creer que ellos mismos son menos vulnerables ante los efectos de los sesgos cognitivos que otras personas.

edgar vergara

student•

Existe un sesgo en el sistema de crédito financiero, es: Si no estás bancarizado quiere decir que no tienes dinero para pagar un préstamos o una tarjeta de crédito. Hay gente que simplemente le gusta manejar el efectivo y nunca se ha interesado por ese tipo de entidades.

Jorge Eliu Orozco Cárdenas

student•

Esto es un sesgo muy común, al igual que en Colombia se tiene una base de Datos para señalar a las personas que tiene mala calificación en manejo de finanzas, pero le aseguro que muchos AAA han caido allí y eso no sería un dato definitivo para decir que han manejado mal sus finanzas, pues muchos fueron presas de asaltos y robos.

Bias y garbage in, garbage out en datos

Privacidad y ética de los datos

Qué son los datos personales en IA

Reflexiones y Retos en Ciencia de Datos

Escándalos históricos que moldearon la ética de datos

Por qué las empresas recolectan tus datos