No tienes acceso a esta clase

¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera

Bias y GIGO en datos

5/20
Recursos

Bias es un anglicismo que significa sesgo. Este fenómeno sucede cuando deseamos estudiar una población y, para ello, partimos de una muestra que no es estadísticamente significativa.

De otro modo, la expresión GIGO significa “basura entra, basura sale”. Esta frase se fundamenta en el principio que dice “la calidad del resultado (output) depende de la calidad de la entrada (input)”.

Para que los datos representen las verdaderas características de la población estudiada se debe prestar especial atención a estos dos aspectos: Bias y GiGO.

De igual modo para que los resultados de un análisis de datos sean efectivos y permitan una correcta interpretación de la realidad que pretenden explicar, es muy importante la calidad de estos y que su recolección obedezca a criterios científicos. Por consiguiente, es indispensable que estos datos realmente recojan las características de la población que se desea estudiar, es decir, que realmente sean representativos.

Bias o sesgo

En otras palabras, el sesgo se origina cuando se selecciona la información de manera errónea y se considera una muestra que no representa la totalidad de la población. En este caso, la muestra aleatoria no es representativa.

Ejemplo de estudio

Supongamos que queremos estudiar el comportamiento de la población de Medellín en determinados aspectos. Para ello, seleccionamos 100 personas, distribuidas en 80 hombres y 20 mujeres.

Ahora bien. según los datos del censo 2018, el Departamento Administrativo Nacional de Estadística -DANE- de Colombia, indica que esta ciudad tiene una población cercana a los 2.5 millones de habitantes, distribuidos en 47% hombres y 53% mujeres, lo que la hace la segunda ciudad más poblada de Colombia.

Surge la siguiente pregunta ¿Si Medellín tiene aproximadamente 2.5 millones de habitantes de los cuales 47% son hombres y 53% son mujeres, piensas que los datos de 100 personas seleccionadas al azar donde 80% son hombres y 20% son mujeres realmente son representativos? Seguramente tu respuesta a esta interrogante es que no es representativa.

Por esta razón, debemos asegurarnos de que el número de datos que poseemos sea significativamente grande y correctamente distribuida para sacar conclusiones de cómo se comporta la población en Medellín.

Esta situación ha sucedido en ejemplos prácticos sobre todo en reconocimiento facial. Históricamente las empresas que se han dedicado al reconocimiento facial han tenido más muestras de personas blancas que de personas de piel oscura, por tal motivo se ha creado un sesgo. Eso pone en riesgo la información, porque no podemos identificar a una población importante dentro del mundo.

Garbage in Garbage out (GIGO)

Así pues, debemos asegurarnos de tener calidad en los datos y en la fuente de acceso, cantidad de datos suficientes, tipología de datos, entre otros, para que nuestros resultados sean de calidad.

Si no tenemos una fuente confiable para obtener nuestros datos, estos no van a permitir una conclusión relevante o fidedigna. Por lo tanto, se precisa recolectar un buen input para tener un buen output.

Reto

Además de estos dos fenómenos que se han comentado, te invito a que pienses en otros tipos de sesgos y errores que incurren las empresas y el sector público. No olvides compartir tus conclusiones y también escríbelo en tu guía de retos.

Contribución creada por Avilio Muñoz Vilchez

Aportes 37

Preguntas 2

Ordenar por:

Los aportes, preguntas y respuestas son vitales para aprender en comunidad. Regístrate o inicia sesión para participar.

Hay una pelicula que en Argentina se titula Prejuicio Cifrado (titulo original Coded Bias) sobre una estudiante del MIT que trata el tema. Como un caso especial en una conferencia sobre IA aplicada a salud en Argentina mencionaron que todos los datos que tenian para evaluar eran de una poblacion de cierto nivel economico que tenian acceso a instituciones de salud con recursos como para tener sistemas que recolecten informacion, pero la poblacion carenciada, los pueblos originarios y de lugares con baja poblacion que no tenian recursos informaticos son gente no evaluada y con un caso de sesgo (asi fue presentado)

Existe una paradoja donde a una persona de escasos recursos económicos desea solicitar un préstamo estudiantil para costear su educación, pero si hay un sesgo en un modelo de ML que evalúa el riesgo de dar crédito e identifique que esa persona por su situación no pueda pagarlo entonces esa persona le será más difícil salir de su situación si no tiene acceso a un crédito.

El mayor sesgo que pueden tener las empresas pequeñas es creer que publicar en redes sociales aumentará las ventas.
Trabaje en el área de publicidad referente a data y literal las empresas se fijaban en el número de likes y comentarios en los post o perfiles empresariales para determinar que tanto iban a vender. Es difícil borrar ese sesgo de datos hasta que se les explica los KPI’s. Pero la mejor forma es cuando revisan sus ventas y ven que no es lo esperado 😕

Resumen de la clase Bias (Sesgo) y GIGO

Bias

Tiene que ver con la recolección de datos de forma errónea de una muestra en donde no se representa a la totalidad de la población.

En algunos casos como el reconocimiento facial suele haber sesgos en donde no se toman en cuenta todas las personas y sus distintos rasgos.

GIGO (Garbage in / Garbage out)

Si metemos basura en nuestros análisis la conclusión no será buena y por tanto no obtendremos los resultados esperados. (Debe haber calidad en los datos y estos deben ser de valor según los requerimientos del proyecto/negocio)

Yo en otro curso había visto de los sesgos, me pareció impresionante, porque nosotros en nuestra vida cotidiana también caemos en segos cognitivos, aquí les dejo un par de ejemplos de estos sesgos:

1.Aversión a la pérdida
Consiste en considerar que es más importante la posibilidad de perder algo que la posibilidad de conseguir algo de igual valor. Debido a este sesgo, muchas personas consideran que perder tiene más impacto que ganar, incluso en aquellas circunstancias donde ganar o perder puede ocurrir con las mismas probabilidades.

2. Efecto Forer
El efecto Forer es el sesgo cognitivo detrás del éxito de los horóscopos. Consiste en la tendencia de las personas a sentirse identificadas con descripciones ambiguas, que pueden encajar con casi cualquier persona.

3. Prejuicio de retrospectiva
Cuando se produce este sesgo, las personas tienden a pensar que cosas que han ocurrido eran más previsibles de lo que eran antes de que ocurrieran.

4. Sesgo del punto ciego
Trata sobre la tendencia de las personas a creer que ellos mismos son menos vulnerables ante los efectos de los sesgos cognitivos que otras personas.

Si les interesa el tema de los sesgos tanto estadisticos como psicologicos les recomiendo el siguiente libro:

El autor es premio novel de economia y es uno de mis libros favoritos, no se arrepentiran de leerlo

Sesgos económicos hay muchísimos y los economistas (soy estudiante de economía), se dan a la tarea de desmenuzarlos y exponerlos por lo que son, uno de los más conocidos es el sesgo de confirmación.
El sesgo de confirmación hace que la persona es pos de buscar los resultados que confirmen su idea, solo buscan datos que estén de acuerdo con ellos. Gracias al método científico, la humanidad ya no es victima de este sesgo tan frecuentemente, de hecho, sigue siendo común hoy en día y en el pasado le paso a muchas personas famosos, por mencionar uno de ellos, Sigmund Freud.

corazoncito si eres de Colombia y te emocionaste cuando Silvia mencionó a Medellín

En Datos económicos de los países creo que hay muchos sesgos, a veces no son buenas investigaciones y otras publican datos manipulados para no mostrar la verdadera realidad de una economía.

Mas que sesgos pienso que es el uso errado o mal interpretado de la información obtenida

Uno de los sesgos que tienen las empresas hoy es la oportunidad, la calidad y el estándar de la información financiera. Las actuales herramientas utilizadas en los procesos de registro de información financiera (contabilidad), aunque son muy potentes, son subutilizados o usado de forma incorrecta y no se logra entender de forma objetiva la mejor forma de aprovecharlos.

Constantemente distintas entidades se tienen que enfrentar a una baja calidad de la información financiera, en especial en PYMES, quienes ante distintas situaciones y retos que trae el emprendimiento ponderan muy por debajo el beneficio de contar con información de valor que entrega resultados relevantes y terminan desacreditando las capacidades de las fuentes de información como las que estamos mencionando.

La solución a todo este problema es la simplicidad. Se debe hacer simple hasta el punto en que cualquiera lo pueda usar y entender y que a partir de allí encuentren el real valor de la información.

Creo que un sesgo de puede ser muy comun en ambos ambitos, creer que “tu producto” solo sera usado por un grupo de personas de cierta edad puede ser desastrozo.

sesgo políticos, en los momentos en que realizan encuestas
Sesgos geográficos, Cuando realizan encuestas
Sesgos de causa: Cuando formulas una pregunta y esta incide en la forma como te responden

Error de especificación de la población: Un error de especificación de población ocurre cuando los investigadores no saben exactamente a quién encuestar.

Por ejemplo, imagina un estudio de investigación sobre ropa de niños. ¿Quién es la persona correcta para encuestar? Pueden ser ambos padres, sólo la madre o el niño. Los padres toman decisiones de compra, pero los niños pueden influir en su elección.

Error en el marco de la muestra: Los errores del marco de muestreo surgen cuando los investigadores apuntan a la subpoblación erróneamente al seleccionar la muestra.

Por ejemplo, elegir un marco de muestreo de la guía telefónica puede ser un error porque la gente cambia de ciudad. Las exclusiones erróneas se producen cuando las personas prefieren eliminar sus números de la lista. Existen hogares que pueden tener más de una línea telefónica, lo que conduce a múltiples inclusiones.

Error de selección: Un error de selección ocurre cuando los encuestados se auto-seleccionan para participar en el estudio. Sólo los interesados responden.

Cherry Picking 🍒

Existe el denominado Cherry Picking, éste se basa en la falacia de evidencia incompleta o, en otras palabras, es tomar en cuenta para nuestro estudio solo la información que confirme nuestro estudio o lo que queremos demostrar.
Aunque puede suceder que se haga consciente o inconscientemente.

Entre nacionalidades se crean sesgos enormes, por un error de pocos nos pueden llamar narco traficantes, ladrones o violadores. Todo por no tener toda la información clara.

-Sesgo de disponibilidad: tomar decisiones sólo con la información disponible en nuestra base de datos sin enriquecerla.
-Sesgo de confirmación: interpretar una información de tal manera que se vuela compatible con nuestras creencias.

Un modelo sesgado generará un resultado poco preciso de la realidad.

-sesgo de condiciones omitidas, suponer relaciones causales cuando no se esta controlando por otras características de los individuos, de lo contrario nuestros resultados tendrían sesgos provocados de la relación entre condiciones no estimadas.

-establecer modelos con características altamente relacionadas disminuyendo la confianza en inferencia estadística.

-este no es un sesgo pero muchas personas lo cometen, suponer que correlación implica causalidad,

El sesgo de selección: Es el más habitual en estadística. Normalmente tiene que ver con la elección de los grupos. Lo más frecuente es que no se haya tomado la decisión con base en métodos de muestreo objetivos. Por ejemplo, que se elija la muestra por afinidad a un candidato en un sondeo.
Sesgo de información: Estamos ante un sesgo debido a una información deficiente. Por tanto, no podemos comparar los grupos porque tenemos información demasiado limitada de ellos.
Sesgo de confusión: En este caso existe una variable llamada así, de confusión, que es la que provoca el sesgo. Suele ser difícil encontrar dónde está el problema.

https://economipedia.com/definiciones/sesgo-estadistico.html

Otros tipos de Sesgos

SESGO DE AFINIDAD
“Ha estudiado en la misma universidad que yo”. Esta expresión se correspondería con el llamado “Sesgo de afinidad”. Es aquel que genera en nosotros/as una predisposición favorable hacia personas con las que compartimos orígenes o cualidades parecidas a las nuestras.

¿Cómo nos afecta? Nuestro cerebro percibe a esa persona como “reconocible” o “cercano” y nos resta visión sobre otros aspectos también importantes (capacidades, competencias, etc.) El predominio del “Sesgo de afinidad” en los procesos de contratación puede repercutir en que los equipos de trabajo sean menos diversos y/o creativos.

SESGO CULTURAL
Consiste en la preferencia de un origen cultural sobre otros, que proviene de creencias muy arraigadas sobre roles y estereotipos culturales. Esto nos puede llevar a inclinarnos inconscientemente hacia una persona por su cultura y las cualidades que atribuimos a ella. Frecuentemente, conectamos con más facilidad con las personas de un mismo contexto cultural, porque compartimos constructos y experiencias similares.

La afinidad cultural con una persona puede convertirse en discriminatoria hacia personas de diversos orígenes, desperdiciando sus talentos y el aporte que otros bagajes culturales ofrecen a la empresa. Este sesgo, también puede propiciar el establecimiento y la continuidad de entornos laborales estáticos.

EFECTO ANCLAJE
El efecto anclaje se produce cuando los datos que nos ofrece la primera impresión son los únicos que empleamos a la hora de tomar una decisión. Esta información nos posiciona, creando un punto de partida que descarta o condiciona el resto de la información que conocemos a posteriori sobre ella.

¿Esto en qué se traduce? Uno de los casos frecuentes en los entornos laborales, o procesos de selección, se produce en relación con la edad. Por ejemplo, podemos tener tendencia a considerar que personas de edad más avanzada tengan más dificultades de adaptación a las nuevas exigencias de mercado o a las nuevas tecnologías, restando valor a su experiencia, creatividad y otras competencias que posean, basándonos en datos de desempleo de mayores de 50 años aportados por un estudio del Banco de España.

EFECTO HALO Y EFECTO DIABLO
El efecto halo y el efecto diablo están relacionados con los sesgos de afinidad y de confirmación. Estos efectos nos ocurren cuando nos centramos exclusivamente en una cualidad especialmente positiva (efecto halo) o negativa (efecto diablo) de una persona. Esta cualidad se convierte prácticamente en la única referencia desde la que la percibimos.

¿Cómo afecta a los entornos laborales? Los efectos halo y diablo distorsionan otras facetas de las personas, que tendemos a comparar con aquella cualidad que nos ha llamado la atención.

El efecto halo tiende a generar altas expectativas y predisposición al éxito. Por otro lado, en el efecto diablo se invierte la tendencia: se espera el fracaso y las expectativas disminuyen. En ambos casos, se emiten juicios de valor e incluso discriminatorios con base en sólo una cualidad y no valorando otras dimensiones, competencias y capacidades.

Comparto la sección de un artículo:

La publicación revela que hay un sesgo estructural en la investigación sobre el cáncer: se ha focalizado mayoritariamente en poblaciones caucásicas y anglosajonas. A esa conclusión llegaron luego de analizar durante un año 689 muestras in vitro de cáncer, 19 biobancos internacionales y seis millones de muestras en bases de datos de proyectos de genómica internacional.
[…]
La publicación encontró que los estudios a nivel mundial minimizan las poblaciones hispanas y asiáticas, cuando se sabe que el cáncer se comporta en forma diferente en estos grupos.
Por ejemplo, en las mujeres hispanas o afrodescendientes, el cáncer de mama provoca mayor riesgo de muerte con relación a mujeres europeas. Pacientes asiáticos con cáncer de pulmón, en cambio, responden mejor al tratamiento farmacológico que otros grupos.
“En Japón, al analizar sus propios genes, detectaron que las vacunas del virus del papiloma humano, no sirven en esa población. En ese país se aplica la medicina personalizada, que no se orienta a personas en realidad sino a grupos étnicos”.

Artículo completo

siempre he relacionado mucho los sesgos con los sesgos cognitivos, es decir, que de alguna manera los resultados del análisis del estudio se vea afectado sobre la ideología o creencia de su autor.

Las empresas por lo general obvian la percepción de los empleados, quienes en muchos casos son principales consumidores, además uno de los errores frecuentes en la etapa de recoleccion de informacion, es que las preguntas están orientadas a dar razón a sus hipótesis y no brindan un campo real de la situación, es decir que desde esta etapa se encuentra nuestro “garbage in”.

  • También cuando hacen estudios Sectoriales el Gobierno, por ejemplo cuando sacan el índice de precios al consumidor, esos Datos que dan parece que tomaran el precio de las zonas mas pobres del país y dicen esos son los precios, cuando la mayoría de la población no compra en esos supuestos Precios.

He visto un Tipo de sesgos en las empresas cuando hacen contrataciones y sacan licitaciones. Muchas veces no le dan el contrato a la empresa que demuestra tener mejores precios ni buenas referencias. Por el contrario ejecutan eso bajo unas premisas que no validan.

Un sesgo es el conocimiento empírico no certificable, aquellas ideas que se consideran correctas porque siempre se han realizado de esa forma.

No sé cómo se llama, pero un caso que me parece bastante antiético es cuando se incluyen en la muestra únicamente los datos que van a generar el resultado que se desea ver al final, dejando deliberadamente por fuera los datos que van a dificultar el resultado deseado.

El sesgo que hace nuestro cerebro al ver un patrón de comportamientos, los asociamos a una experiencia pasada y le atribuimos otras características, así este no las tenga.

Los más comunes son en épocas electorales con las famosas encuestadoras de intención de voto, donde las muestras no son representativas y a veces las visualizaciones de los datos están viciadas para engañar al electorado.

Pueden ser distintos por ideologías políticas (preferentes) no se tomen en cuenta a toda la empresa, tomar decisiones o aprobación de leyes solo teniendo en cuenta una porción de la población.

La edad y apellido

Típico sesgo del sector público: orientación ideológica.

Uno de los sesgos que podemos encontrar es al analizar el sentimiento de las personas (especialmente en campañas políticas) de acuerdo a la actividad en una red social.

En el presente las edades se encuentran un poco divididas entre redes sociales como Facebook, Instagram y Twitter, también las ideologías.

Lo que hace que, una muestra del sentimiento de una población en una única red social pueda ser errónea.

Otro tipo de sesgo son los estudios que incluyen sesgos desde el inicio de la investigación en sus instrumentos de recopilación de datos. Por ejemplo, una encuesta dirigida a una determinada población en la cual uno de los ítems sea la identidad sexual y únicamente coloquen las opciones binarias “femenino” y “masculino”, sin tomar en consideración otras identidades, como “no binario”.

La brecha tecnológica y digital en países, multilingües y multiculturales, como Guatemala ofrece un sesgo sobre la opinión digital de la población o “sociedad” guatemalteca porque no es representativa de las áreas demográficas rurales.

Sesgos en cuanto a la edad de la población o incluso el género son posibles ejemplos.