Sesgo y garbage in garbage out en datos

Curso de Ética y Manejo de Datos para Data Science e Inteligencia Artificial

Contenido del curso

Privacidad y ética de los datos

Retos éticos en la actualidad

Data for good

Cierre

20
Qué hacer al terminar el curso de ética en datos
01:12 min

Tomar examen

Sesgo y garbage in garbage out en datos

Resumen

Trabajar con datos sin cuidar la fuente o el tamaño de la muestra es uno de los errores más caros en análisis. Aquí vas a entender qué es el sesgo en datos (bias) y por qué el principio garbage in, garbage out define la calidad de cualquier conclusión que saques, sea en una empresa privada o en el sector público.

¿Qué es el sesgo o bias en análisis de datos?

El bias, que en inglés significa sesgo, ocurre cuando partes de una población y tomas una muestra que no es estadísticamente significativa. Y aquí viene lo importante: ese pequeño detalle puede invalidar todo tu estudio.

Para entenderlo, separa dos conceptos:

Población o universo: el total sobre el que quieres concluir algo. Por ejemplo, toda la gente de Medellín, toda la gente de Madrid, o un segmento como las personas entre 20 y 30 años de esas ciudades. Es tu denominador.
Muestra: el extracto que tomas de esa población. Pueden ser 20 personas, 1.000 o un millón.
Significancia estadística: que ese número sea lo suficientemente grande para representar al universo.

Si entrevistas a 20 personas y pretendes describir cómo se comporta toda Medellín, probablemente te quedes corto. Necesitas un número de referencia más grande y, sobre todo, representativo.

¿Qué es el sesgo en datos? Es el error que aparece cuando tu muestra no representa bien a la población que quieres estudiar, ya sea por tamaño insuficiente o por falta de diversidad.

¿Cómo se ve el sesgo en un caso real como el reconocimiento facial?

Un ejemplo claro está en reconocimiento facial. Históricamente, varias empresas dedicadas a esta tecnología entrenaron sus sistemas con más muestras de personas blancas que de personas de raza negra.

El resultado fue un sesgo evidente: los sistemas identificaban con más precisión a personas blancas y fallaban al reconocer a personas de raza negra. Eso pone en riesgo información crítica, porque deja fuera a una parte importante de la población mundial.

En ese caso, el universo es el planeta Tierra y la muestra son las fotos recolectadas para entrenar el modelo. La regla es simple: tu muestra debe tener representación ecuánime, o al menos representación similar de múltiples grupos.

¿Qué significa garbage in, garbage out en datos?

El segundo fenómeno se llama garbage in, garbage out, que traduce literalmente como "basura entra, basura sale". La idea es directa: la calidad del resultado, tu output, depende de la calidad de tu entrada, tu input.

Si metes datos malos, vas a obtener conclusiones malas. No hay modelo, dashboard ni algoritmo que te salve de una fuente deficiente.

¿Qué es garbage in, garbage out? Es el principio que dice que un análisis solo puede ser tan bueno como los datos que lo alimentan. Datos pobres producen conclusiones pobres.

¿Qué debes revisar para tener un buen input de datos?

Para que tu output sea confiable, asegura tres dimensiones de tus datos de entrada:

Fuente de acceso: que sea veraz y verificable. Sin una fuente confiable no hay conclusión fidedigna.
Cantidad de datos: suficiente volumen para que los patrones sean reales y no coincidencias.
Tipología de datos: que el tipo de dato corresponda a lo que quieres medir y no introduzca distorsiones.

Cuando cuidas estos tres puntos, tu análisis gana solidez. Cuando los descuidas, ningún esfuerzo posterior compensa la mala materia prima.

¿Cómo aplicar esto en tus propios proyectos?

Antes de tirar líneas de código o abrir una hoja de cálculo, hazte estas preguntas: ¿cuál es mi universo?, ¿mi muestra es lo suficientemente grande?, ¿estoy representando a todos los grupos relevantes?, ¿la fuente de mis datos es confiable?

Ese chequeo rápido te ahorra horas de trabajo y, lo más importante, evita que tomes decisiones sobre conclusiones falsas. Piensa también en otros sesgos o errores que cometen las empresas y el sector público al manejar datos, y compártelos en los comentarios para sumar a la conversación.

Álvaro Ambiorix Marcelino Taveras

Estudiante

++Otros tipos de Sesgos++

SESGO DE AFINIDAD “Ha estudiado en la misma universidad que yo”. Esta expresión se correspondería con el llamado “Sesgo de afinidad”. Es aquel que genera en nosotros/as una predisposición favorable hacia personas con las que compartimos orígenes o cualidades parecidas a las nuestras.

¿Cómo nos afecta? Nuestro cerebro percibe a esa persona como “reconocible” o “cercano” y nos resta visión sobre otros aspectos también importantes (capacidades, competencias, etc.) El predominio del “Sesgo de afinidad” en los procesos de contratación puede repercutir en que los equipos de trabajo sean menos diversos y/o creativos.

SESGO CULTURAL Consiste en la preferencia de un origen cultural sobre otros, que proviene de creencias muy arraigadas sobre roles y estereotipos culturales. Esto nos puede llevar a inclinarnos inconscientemente hacia una persona por su cultura y las cualidades que atribuimos a ella. Frecuentemente, conectamos con más facilidad con las personas de un mismo contexto cultural, porque compartimos constructos y experiencias similares.

La afinidad cultural con una persona puede convertirse en discriminatoria hacia personas de diversos orígenes, desperdiciando sus talentos y el aporte que otros bagajes culturales ofrecen a la empresa. Este sesgo, también puede propiciar el establecimiento y la continuidad de entornos laborales estáticos.

EFECTO ANCLAJE El efecto anclaje se produce cuando los datos que nos ofrece la primera impresión son los únicos que empleamos a la hora de tomar una decisión. Esta información nos posiciona, creando un punto de partida que descarta o condiciona el resto de la información que conocemos a posteriori sobre ella.

¿Esto en qué se traduce? Uno de los casos frecuentes en los entornos laborales, o procesos de selección, se produce en relación con la edad. Por ejemplo, podemos tener tendencia a considerar que personas de edad más avanzada tengan más dificultades de adaptación a las nuevas exigencias de mercado o a las nuevas tecnologías, restando valor a su experiencia, creatividad y otras competencias que posean, basándonos en datos de desempleo de mayores de 50 años aportados por un estudio del Banco de España.

EFECTO HALO Y EFECTO DIABLO El efecto halo y el efecto diablo están relacionados con los sesgos de afinidad y de confirmación. Estos efectos nos ocurren cuando nos centramos exclusivamente en una cualidad especialmente positiva (efecto halo) o negativa (efecto diablo) de una persona. Esta cualidad se convierte prácticamente en la única referencia desde la que la percibimos.

¿Cómo afecta a los entornos laborales? Los efectos halo y diablo distorsionan otras facetas de las personas, que tendemos a comparar con aquella cualidad que nos ha llamado la atención.

El efecto halo tiende a generar altas expectativas y predisposición al éxito. Por otro lado, en el efecto diablo se invierte la tendencia: se espera el fracaso y las expectativas disminuyen. En ambos casos, se emiten juicios de valor e incluso discriminatorios con base en sólo una cualidad y no valorando otras dimensiones, competencias y capacidades.

Eduardo Monzón

Estudiante

Excelente, muchas gracias.

Valeria Alonso Peralta

Sandra Noelia Saucedo Díaz

Camilo E. Sánchez Sarria

Juan R Rossano

Jorge Rafael Flores Meza

Juan Esteban Sanchez Cifuentes

Erick Rosero

Juan Pablo Cuenca Ludeña

Jose Martin Rangel Espinoza

Melanie Daniela Ventura Jimenez

Ricardo Gomez

Luis Enrique Chavarría Vázquez

Edward Tuanama

Alejandro Collado Valverde

Eduard Giraldo Martínez

Bryan David Rosas Rojas

Braylin Alexander Jiménez Reynoso

Edgar Contreras

Alfonso Neil Jiménez Casallas

María José Martínez Contreras

Carlos Hernández

jabes nestor frias martinez

Johnny Ramirez

Julieth Pineda Parra

Julio Cesar Godinez

Jackeline Vanessa Perilla

Jean Carlos D Lucca Suarez

Miguel Ramirez

Jonathan Aguilar Cabrera

Gabriel José Chiong Hernández

LUIS EDUARDO TUNJANO BELLO

edgar vergara

Jorge Eliu Orozco Cárdenas

Sesgo y garbage in garbage out en datos

Privacidad y ética de los datos

Qué son los datos personales en Data Science

Reflexiones y Retos en Ciencia de Datos

Escándalos históricos de fuga de datos

Por qué las empresas recolectan tus datos