No tienes acceso a esta clase

¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera

Bias y GIGO en datos

5/20
Recursos

Bias es un anglicismo que significa sesgo. Este fenómeno sucede cuando deseamos estudiar una población y, para ello, partimos de una muestra que no es estadísticamente significativa.

De otro modo, la expresión GIGO significa “basura entra, basura sale”. Esta frase se fundamenta en el principio que dice “la calidad del resultado (output) depende de la calidad de la entrada (input)”.

Para que los datos representen las verdaderas características de la población estudiada se debe prestar especial atención a estos dos aspectos: Bias y GiGO.

De igual modo para que los resultados de un análisis de datos sean efectivos y permitan una correcta interpretación de la realidad que pretenden explicar, es muy importante la calidad de estos y que su recolección obedezca a criterios científicos. Por consiguiente, es indispensable que estos datos realmente recojan las características de la población que se desea estudiar, es decir, que realmente sean representativos.

Bias o sesgo

En otras palabras, el sesgo se origina cuando se selecciona la información de manera errónea y se considera una muestra que no representa la totalidad de la población. En este caso, la muestra aleatoria no es representativa.

Ejemplo de estudio

Supongamos que queremos estudiar el comportamiento de la población de Medellín en determinados aspectos. Para ello, seleccionamos 100 personas, distribuidas en 80 hombres y 20 mujeres.

Ahora bien. según los datos del censo 2018, el Departamento Administrativo Nacional de Estadística -DANE- de Colombia, indica que esta ciudad tiene una población cercana a los 2.5 millones de habitantes, distribuidos en 47% hombres y 53% mujeres, lo que la hace la segunda ciudad más poblada de Colombia.

Surge la siguiente pregunta ¿Si Medellín tiene aproximadamente 2.5 millones de habitantes de los cuales 47% son hombres y 53% son mujeres, piensas que los datos de 100 personas seleccionadas al azar donde 80% son hombres y 20% son mujeres realmente son representativos? Seguramente tu respuesta a esta interrogante es que no es representativa.

Por esta razón, debemos asegurarnos de que el número de datos que poseemos sea significativamente grande y correctamente distribuida para sacar conclusiones de cómo se comporta la población en Medellín.

Esta situación ha sucedido en ejemplos prácticos sobre todo en reconocimiento facial. Históricamente las empresas que se han dedicado al reconocimiento facial han tenido más muestras de personas blancas que de personas de piel oscura, por tal motivo se ha creado un sesgo. Eso pone en riesgo la información, porque no podemos identificar a una población importante dentro del mundo.

Garbage in Garbage out (GIGO)

Así pues, debemos asegurarnos de tener calidad en los datos y en la fuente de acceso, cantidad de datos suficientes, tipología de datos, entre otros, para que nuestros resultados sean de calidad.

Si no tenemos una fuente confiable para obtener nuestros datos, estos no van a permitir una conclusión relevante o fidedigna. Por lo tanto, se precisa recolectar un buen input para tener un buen output.

Reto

Además de estos dos fenómenos que se han comentado, te invito a que pienses en otros tipos de sesgos y errores que incurren las empresas y el sector público. No olvides compartir tus conclusiones y también escríbelo en tu guía de retos.

Contribución creada por Avilio Muñoz Vilchez

Aportes 186

Preguntas 6

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad?

Yo en otro curso había visto de los sesgos, me pareció impresionante, porque nosotros en nuestra vida cotidiana también caemos en segos cognitivos, aquí les dejo un par de ejemplos de estos sesgos:

1.Aversión a la pérdida
Consiste en considerar que es más importante la posibilidad de perder algo que la posibilidad de conseguir algo de igual valor. Debido a este sesgo, muchas personas consideran que perder tiene más impacto que ganar, incluso en aquellas circunstancias donde ganar o perder puede ocurrir con las mismas probabilidades.

2. Efecto Forer
El efecto Forer es el sesgo cognitivo detrás del éxito de los horóscopos. Consiste en la tendencia de las personas a sentirse identificadas con descripciones ambiguas, que pueden encajar con casi cualquier persona.

3. Prejuicio de retrospectiva
Cuando se produce este sesgo, las personas tienden a pensar que cosas que han ocurrido eran más previsibles de lo que eran antes de que ocurrieran.

4. Sesgo del punto ciego
Trata sobre la tendencia de las personas a creer que ellos mismos son menos vulnerables ante los efectos de los sesgos cognitivos que otras personas.

Hay una pelicula que en Argentina se titula Prejuicio Cifrado (titulo original Coded Bias) sobre una estudiante del MIT que trata el tema. Como un caso especial en una conferencia sobre IA aplicada a salud en Argentina mencionaron que todos los datos que tenian para evaluar eran de una poblacion de cierto nivel economico que tenian acceso a instituciones de salud con recursos como para tener sistemas que recolecten informacion, pero la poblacion carenciada, los pueblos originarios y de lugares con baja poblacion que no tenian recursos informaticos son gente no evaluada y con un caso de sesgo (asi fue presentado)

El mayor sesgo que pueden tener las empresas pequeñas es creer que publicar en redes sociales aumentará las ventas.
Trabaje en el área de publicidad referente a data y literal las empresas se fijaban en el número de likes y comentarios en los post o perfiles empresariales para determinar que tanto iban a vender. Es difícil borrar ese sesgo de datos hasta que se les explica los KPI’s. Pero la mejor forma es cuando revisan sus ventas y ven que no es lo esperado 😕

Existe una paradoja donde a una persona de escasos recursos económicos desea solicitar un préstamo estudiantil para costear su educación, pero si hay un sesgo en un modelo de ML que evalúa el riesgo de dar crédito e identifique que esa persona por su situación no pueda pagarlo entonces esa persona le será más difícil salir de su situación si no tiene acceso a un crédito.

Resumen de la clase Bias (Sesgo) y GIGO

Bias

Tiene que ver con la recolección de datos de forma errónea de una muestra en donde no se representa a la totalidad de la población.

En algunos casos como el reconocimiento facial suele haber sesgos en donde no se toman en cuenta todas las personas y sus distintos rasgos.

GIGO (Garbage in / Garbage out)

Si metemos basura en nuestros análisis la conclusión no será buena y por tanto no obtendremos los resultados esperados. (Debe haber calidad en los datos y estos deben ser de valor según los requerimientos del proyecto/negocio)

Si les interesa el tema de los sesgos tanto estadisticos como psicologicos les recomiendo el siguiente libro:

El autor es premio novel de economia y es uno de mis libros favoritos, no se arrepentiran de leerlo

Otros tipos de Sesgos

SESGO DE AFINIDAD
“Ha estudiado en la misma universidad que yo”. Esta expresión se correspondería con el llamado “Sesgo de afinidad”. Es aquel que genera en nosotros/as una predisposición favorable hacia personas con las que compartimos orígenes o cualidades parecidas a las nuestras.

¿Cómo nos afecta? Nuestro cerebro percibe a esa persona como “reconocible” o “cercano” y nos resta visión sobre otros aspectos también importantes (capacidades, competencias, etc.) El predominio del “Sesgo de afinidad” en los procesos de contratación puede repercutir en que los equipos de trabajo sean menos diversos y/o creativos.

SESGO CULTURAL
Consiste en la preferencia de un origen cultural sobre otros, que proviene de creencias muy arraigadas sobre roles y estereotipos culturales. Esto nos puede llevar a inclinarnos inconscientemente hacia una persona por su cultura y las cualidades que atribuimos a ella. Frecuentemente, conectamos con más facilidad con las personas de un mismo contexto cultural, porque compartimos constructos y experiencias similares.

La afinidad cultural con una persona puede convertirse en discriminatoria hacia personas de diversos orígenes, desperdiciando sus talentos y el aporte que otros bagajes culturales ofrecen a la empresa. Este sesgo, también puede propiciar el establecimiento y la continuidad de entornos laborales estáticos.

EFECTO ANCLAJE
El efecto anclaje se produce cuando los datos que nos ofrece la primera impresión son los únicos que empleamos a la hora de tomar una decisión. Esta información nos posiciona, creando un punto de partida que descarta o condiciona el resto de la información que conocemos a posteriori sobre ella.

¿Esto en qué se traduce? Uno de los casos frecuentes en los entornos laborales, o procesos de selección, se produce en relación con la edad. Por ejemplo, podemos tener tendencia a considerar que personas de edad más avanzada tengan más dificultades de adaptación a las nuevas exigencias de mercado o a las nuevas tecnologías, restando valor a su experiencia, creatividad y otras competencias que posean, basándonos en datos de desempleo de mayores de 50 años aportados por un estudio del Banco de España.

EFECTO HALO Y EFECTO DIABLO
El efecto halo y el efecto diablo están relacionados con los sesgos de afinidad y de confirmación. Estos efectos nos ocurren cuando nos centramos exclusivamente en una cualidad especialmente positiva (efecto halo) o negativa (efecto diablo) de una persona. Esta cualidad se convierte prácticamente en la única referencia desde la que la percibimos.

¿Cómo afecta a los entornos laborales? Los efectos halo y diablo distorsionan otras facetas de las personas, que tendemos a comparar con aquella cualidad que nos ha llamado la atención.

El efecto halo tiende a generar altas expectativas y predisposición al éxito. Por otro lado, en el efecto diablo se invierte la tendencia: se espera el fracaso y las expectativas disminuyen. En ambos casos, se emiten juicios de valor e incluso discriminatorios con base en sólo una cualidad y no valorando otras dimensiones, competencias y capacidades.

Sesgos económicos hay muchísimos y los economistas (soy estudiante de economía), se dan a la tarea de desmenuzarlos y exponerlos por lo que son, uno de los más conocidos es el sesgo de confirmación.
El sesgo de confirmación hace que la persona es pos de buscar los resultados que confirmen su idea, solo buscan datos que estén de acuerdo con ellos. Gracias al método científico, la humanidad ya no es victima de este sesgo tan frecuentemente, de hecho, sigue siendo común hoy en día y en el pasado le paso a muchas personas famosos, por mencionar uno de ellos, Sigmund Freud.

Cherry Picking 🍒

Existe el denominado Cherry Picking, éste se basa en la falacia de evidencia incompleta o, en otras palabras, es tomar en cuenta para nuestro estudio solo la información que confirme nuestro estudio o lo que queremos demostrar.
Aunque puede suceder que se haga consciente o inconscientemente.

corazoncito si eres de Colombia y te emocionaste cuando Silvia mencionó a Medellín

En Datos económicos de los países creo que hay muchos sesgos, a veces no son buenas investigaciones y otras publican datos manipulados para no mostrar la verdadera realidad de una economía.

-Sesgo de disponibilidad: tomar decisiones sólo con la información disponible en nuestra base de datos sin enriquecerla.
-Sesgo de confirmación: interpretar una información de tal manera que se vuela compatible con nuestras creencias.

Coded Bias es un documental en Netflix que justamente refleja como los sesgos pueden repercutir directamente en los resultados de los algoritmos de la IA cuando no tenemos una muestra significativa. Impactante como el reconocimiento facial tenia menos exactitud con personas de piel oscura respecto a piel clara y como esto llevo a un estudio generalizado de casos donde el sesgo repercutía en resultados diversos como selección de personal, seguridad nacional, salud. Verdaderamente esto no se puede tomar a la ligera y tenemos que ser responsables y éticos al querer iniciar trabajos en este mundo. Agradezco a Platzi por este contenido que hasta ahora me era desconocido.

Aquí el vídeo viral que ejemplifica el sesgo que nos comentaba la profesora, en el que para crear y probar tecnología se usan sujetos blancos.
https://www.youtube.com/shorts/87QwWpzVy7I

En el estudio:
De ratones y ratonas: un sesgo metodológico peligroso
Leandro Giri y Federico Bernabé Blach analizan un sesgo metodológico en la investigación en ciencias de la vida sobre la selección de especímenes para modelado a partir de animales.
Se trata de un sesgo sexual ubicuo, y consiste en el uso abrumadoramente mayoritario de especímenes macho para modelar seres humanos, tanto hombres como mujeres.
En este estudio se analiza el motivo de este sesgo y se revela una serie de problemas sociales y tecnológicos derivados del uso de conocimiento científico inválido obtenido a partir de investigaciones efectuadas mediante la práctica sesgada.
Aquí la liga al estudio:

(https://repositorio.uca.edu.ar/bitstream/123456789/5642/1/de-ratones-ratonas-sesgo-metodologico.pdf)

RETO DE LA CLASE
Sesgo de selección
Este es un tipo de sesgo en el que hay un error en la selección de elementos de la población de datos. Por ejemplo, si se planea establecer la estatura promedio de personas españolas, pero los datos se recogen de una muestra desequilibrada. En este caso, el sesgo de selección sería ir a coger jugadores de baloncesto esperando que sean una muestra representativa de la altura española, cuando es evidente que no sería asertivo.

En definitiva, este sesgo es un error sistemático que no depende del azar, por lo que es necesario identificarlo y tratar de neutraliza su efecto.

Sesgo del superviviente
El sesgo del superviviente es uno de los tipos de sesgo en estadística Big Data que se encuentra dentro del sesgo de selección, es decir, también hace referencia a un error sistemático.

Este tipo de sesgo se produce ya que muchas veces los datos que se disponen no representan una parte fiable de la población que se quiera medir, sino una parte de aquellos que han superado ciertos filtros.

Como, por ejemplo, pretender estudiar cuál es el alcance académico de una provincia con base a los estudiantes que ya han superado una gran de pruebas académicas, sin considerar la población que no ha podido acceder a ningún nivel de educación.

Sesgo por omisión de variable
Este sesgo en estadística Big Data ocurre cuando se crea un modelo incorrecto porque no se han tenido en cuenta las variables más importantes.

Por ejemplo: considerar la brecha de género presentada en el salario.
Un estudio llevado a cabo en 2007 en EEUU por el departamento de trabajo, calculó que la brecha de género respecto al salario entre hombres y mujeres era de un 20.4%. Es decir, las mujeres en media ganan un 20.4% menos que los hombres. Pero si tenemos en cuenta variables ocultas como: interrupción de la carrera profesional, edad, número de hijos, estudios… En ese caso, la brecha de género podría estar entre el 4.8% y el 7.1%.

En mi trabajo anterior como Gerente de Inteligencia comercial, se cayo en un sesgo que casi quiebra a la empresa. Para realizar la planeación de compras, se tomaba el histórico de ventas que le hacíamos a los principales clientes. Esto durante cuatro años hizo que triplicaramos las ventas. Porque siempre había material disponible del que mas se vendia.

Sin embargo, en 2021 la hija del dueño tomo la dirección comercial de la compañía, y para la palneación de compras, desde su punto de vista, no se hacía de la manera correcta, y decidió que ahora el cliente seria el que nos diría que vamos a comprar.

Si se ve de manera objetiva esto no es malo, lo malo fue el sesgo que se creo, al solo preguntarle a las 3 gerentes de compras de los 3 principales clientes, en vez de preguntarle al equipo de ventas de los principales clientes.

Este sesgo provoco que no se tuviera certeza del mercado, se compraron productos que estaban saliendo de tendencia a sobrestock, y los productos en auge se liquidaron.

Llego un momento en el que de tener siempre mes y medio de stock de los productos de alta rotación, el stock paso a 9 meses de algunos productos y a cero en otros.

Yo en otro curso había visto de los sesgos, me pareció impresionante, porque nosotros en nuestra vida cotidiana también caemos en segos cognitivos, aquí les dejo un par de ejemplos de estos sesgos: **1.Aversión a la pérdida** Consiste en considerar que es más importante la posibilidad de perder algo que la posibilidad de conseguir algo de igual valor. Debido a este sesgo, muchas personas consideran que perder tiene más impacto que ganar, incluso en aquellas circunstancias donde ganar o perder puede ocurrir con las mismas probabilidades. **2. Efecto Forer** El efecto Forer es el sesgo cognitivo detrás del éxito de los horóscopos. Consiste en la tendencia de las personas a sentirse identificadas con descripciones ambiguas, que pueden encajar con casi cualquier persona. **3. Prejuicio de retrospectiva** Cuando se produce este sesgo, las personas tienden a pensar que cosas que han ocurrido eran más previsibles de lo que eran antes de que ocurrieran. **4. Sesgo del punto ciego** Trata sobre la tendencia de las personas a creer que ellos mismos son menos vulnerables ante los efectos de los sesgos cognitivos que otras personas.

Existe un sesgo en el sistema de crédito financiero, es: Si no estás bancarizado quiere decir que no tienes dinero para pagar un préstamos o una tarjeta de crédito. Hay gente que simplemente le gusta manejar el efectivo y nunca se ha interesado por ese tipo de entidades.

El concepto de “bias” o sesgo y la expresión “Garbage in, Garbage out” (GIGO) son fundamentales en el ámbito de la ciencia de datos y la toma de decisiones basadas en datos. Aquí se explica en detalle cada uno de estos conceptos:

Bias o Sesgo:
El sesgo se refiere a la distorsión sistemática en una muestra de datos que causa que los resultados no sean representativos de la población de interés. En otras palabras, cuando se selecciona una muestra que no es estadísticamente significativa o que no refleja adecuadamente la población en estudio, se introduce un sesgo en los resultados. Algunos puntos clave sobre el sesgo incluyen:

El sesgo puede surgir por diversas razones, como una selección inadecuada de la muestra, sesgos de respuesta en encuestas, o factores culturales y sociales.

Es esencial evitar el sesgo en la recopilación de datos para que los resultados sean confiables y generalizables a la población en su conjunto.

En el ejemplo de Medellín, la muestra de 100 personas seleccionadas no refleja la proporción real de hombres y mujeres en la población, lo que introduce un sesgo en los resultados.

El sesgo puede afectar la calidad de los análisis y las decisiones basadas en datos, por lo que es importante minimizarlo o corregirlo cuando sea posible.

Garbage in, Garbage out (GIGO):
La expresión “Garbage in, Garbage out” (basura entra, basura sale) se refiere al principio de que la calidad de los resultados (output) de un proceso depende de la calidad de la entrada (input). En el contexto de la ciencia de datos y el análisis de datos, esto significa que si los datos de entrada no son precisos, confiables o representativos, los resultados y conclusiones que se obtengan serán igualmente deficientes o poco confiables. Algunos aspectos importantes relacionados con GIGO incluyen:

Los datos de baja calidad, incorrectos o incompletos pueden conducir a análisis erróneos y decisiones incorrectas.

Es crucial garantizar que los datos de entrada sean precisos, estén bien estructurados y sean representativos de la población o fenómeno que se está estudiando.

La limpieza y preprocesamiento de datos son etapas críticas en la ciencia de datos que buscan garantizar que los datos de entrada sean confiables y adecuados para el análisis.

La calidad de los datos es esencial en aplicaciones de aprendizaje automático y modelos predictivos, ya que los modelos solo pueden aprender de la información que se les proporciona.

En resumen, tanto el sesgo como el principio GIGO subrayan la importancia de la calidad y representatividad de los datos en cualquier análisis o proceso que involucre el uso de datos. La toma de decisiones basadas en datos sólidos y la obtención de resultados confiables dependen en gran medida de la calidad de los datos de entrada y la minimización de sesgos.

Dentro de lo que he leido, otros tipos de sesgos que me parecen interesantes son los siguientes:
-Sesgo de confirmación: Se espera que el resultado de la información esté acorde a nuestros conocimientos y se minimizan o ignoran aquelos datos que son opuestos.

-Sesgo de selección: Va relacionado con la inadeculada selelcción de la muestra de análisis. Sea por convenencia, criterio o error la muestra no representa la población y los resultados obtenidos no muestran la realidad.

-Sesgo de precipitación: Cuando se quiere dar un respuesta rápida para tomar una desición, hace no se profundize se analicen datos limitados dejando por fuera información representativa.

-Sesgo de disponibilidad: En este caso se tiene en cuenta los datos mas disponibles, de mayor facilidad de acceso y no se profundiza para obtener una mejor muestra con un panorama general.

-Sesgo de anclaje: Ocurre cuando no se esta familiarizado con el tema, para esto hay que detenerse, reflexionar, formular las preguntas necesarias para conocer el tema o area de investigación.

Las definiciones compartidas fueron tomadas como referencia de la siguiente página: https://tudashboard.com/sesgo-en-el-analisis-de-datos/

El sesgo del optimismo

El sesgo del exceso de optimismo transforma esa cualidad positiva en incapacidad para medir el riesgo. Se parece al de exceso de seguridad: la tendencia a sobrevalorar nuestras capacidades, intuiciones o conocimientos y por tanto a infravalorar las de los demás. Puede conducir a la ilusión de control o a exagerar nuestra influencia real en los resultados. Esa tendencia recuerda al efecto Dunning-Kruger, que nos enseña que las personas con menos habilidades y conocimientos tienden a sobrestimar sus capacidades.

Otro ejemplo en el que las empresas podrían estar incurriendo es en los sesgos tienen que ver con los estereotipos de género y lo que se asume de cada uno, en el curso de Diversidad e inclusión para empresas (recomendado), la profe nos ponía el ejemplo de un Banco que creó un producto dirigido a mujeres llamado Banca Cristal, en el que decoraban las sucursales del banco de rosado y promovían la compra de productos de belleza, hogar, maternidad, etc. y esto resulto en pérdidas de más de seis millones de dólares.

En las entidades del gobierno siempre suele tener sesgos, al tomas candidatos sin tener en cuentas sus capacidades y aprendizaje y solo por tener en cuenta que es de la familia amigos y demás no por sus competencias

El sesgo algorítmico es uno de los mayores riesgos porque compromete y pone en duda la totalidad del propósito del Machine Learning. Este sesgo, a menudo pasado por alto, puede conducir a errores costosos y, de no controlarse de manera adecuada, puede llevar a proyectos y organizaciones enteras a tomar decisiones en direcciones erróneas, independientemente del paradigma en el que nuestras herramientas se hayan desarrollado.

Sesgo de Confirmación
A menudo las organizaciones y personas iniciamos una investigación a partir de una idea o hipotesis que queremos validar. Cuando esto ocurre es normal caer en un tipo sesgo que consiste en recopilar información selectiva que permita validar dicha idea, descartando o ignorando aquella información que la refute.

Mas que sesgos pienso que es el uso errado o mal interpretado de la información obtenida

Uno de los sesgos que tienen las empresas hoy es la oportunidad, la calidad y el estándar de la información financiera. Las actuales herramientas utilizadas en los procesos de registro de información financiera (contabilidad), aunque son muy potentes, son subutilizados o usado de forma incorrecta y no se logra entender de forma objetiva la mejor forma de aprovecharlos.

Constantemente distintas entidades se tienen que enfrentar a una baja calidad de la información financiera, en especial en PYMES, quienes ante distintas situaciones y retos que trae el emprendimiento ponderan muy por debajo el beneficio de contar con información de valor que entrega resultados relevantes y terminan desacreditando las capacidades de las fuentes de información como las que estamos mencionando.

La solución a todo este problema es la simplicidad. Se debe hacer simple hasta el punto en que cualquiera lo pueda usar y entender y que a partir de allí encuentren el real valor de la información.

Creo que un sesgo bastante presente es entrevistar a una mayor poblacion masculina que femenina.
*El sesgo de confirmaciòn, que sucede cuando se analizan datos buscando una confirmación que se tiene apriori, y de manera consciente o inconsciente se priorizan ciertos datos que validan la confirmación, pero pueden pasarse por alto datos que de hecho confirmarán lo contrario.*
**Sesgo del observador (o sesgo del investigador):** Se produce cuando el investigador influye involuntariamente en los resultados debido a sus expectativas o preferencias.
Bien desde mi punto, entiendo que los sesgos (Bias) se pueden utilizar a favor como en contra, para el caso de una empresa que realiza publicidad de solo personal joven y sexis para hacer que los productos que vendes dan esta apariencia a las personas que los compran; otro es el sesgo a la perdida donde las empresas lanzan promociones que solo hasta cierta cantidad para que las personas compren antes que se se acabe.

En las encuestas para elecciones presidenciales vez el sesgo para influenciar el voto según la orientación política del medio de comunicación. El mismo dato puede ser interpretado hacia la izquierda, derecha o de manera imparcial. El titular cambia y la gente vota. La visualización de datos además de útil para reducir la carga cognitiva también puede tener sesgos que llevana tomar decisiones o pocisiones equivocadas.

Un dato curioso *Sesgo del observador: Cuando el observador está predispuesto a realizar el estudio con cierta actitud no imparcial y su juicio nubla su razón y el resultado estadístico.* Un ejemplo de esto fue una prueba con ratas realizada en la década de 1960, en la que dos grupos de estudiantes hicieron pruebas a ratas, que estaban clasificadas como “brillantes” y “sosas”. Los estudiantes que tenían las ratas “sosas” las trataron mal y redujeron sus posibilidades de completar el laberinto, lo que finalmente afectó a los resultados del estudio.
Apuntes cortos: ### BIAS(Sesgo) Partimos de una población que no representa la totalidad de la población ### Garbaje in, garbage out(GIGO) La calidad del resultado(output) depende de la calidad de la entrada (input)
Además del sesgo (Bias) y el principio de “basura entra, basura sale” (GIGO), hay varios errores comunes que pueden ocurrir durante la recolección de datos: 1. **Errores de Cobertura**: Esto sucede cuando algunos miembros de la población no tienen la oportunidad de ser incluidos en la muestra. 2. **Errores de No Respuesta**: Ocurren cuando los individuos seleccionados para la muestra no responden o no están disponibles. 3. **Errores de Medición**: Estos errores se dan cuando hay una recolección incorrecta de datos debido a preguntas mal formuladas, errores del entrevistador o respuestas inexactas de los encuestados. 4. **Errores de Procesamiento**: Incluyen errores en la codificación, entrada de datos y manipulación de datos durante el análisis. 5. **Falta de Unicidad de los Registros**: Se refiere a la duplicación de registros, lo que puede llevar a contar múltiples veces la misma entidad. 6. **Falta de Restricciones de Validación**: Sin restricciones adecuadas, los datos pueden ser inválidos o irrazonables, afectando la calidad general de los datos. Estos errores pueden tener un impacto significativo en la calidad y la confiabilidad de los datos recopilados, por lo que es crucial implementar prácticas rigurosas de gestión de datos para minimizarlos.
*Considero que otro tipo de sesgos puede estar relacionado con el género, algunos tipos de enfermedades, estado social y/o económico, nivel educativo entre otros que se deben también considerar en el manejo de datos.*
Esta es mi opinión, también la brecha que esta habiendo con los avances tecnológicos a pasos agigantados, en no muy cerca con los avances de la IA, la robótica y el IoT, el caso de la implementación de chips en el cuerpo humano (Neuralink de Elon Musk) u otro tipo de mejora sea por la parte biotecnológica, podríamos hablar de un sesgo de entre humanos que usen algún tipo de mejora tecnología de otros que no y que haya algún tipo de segregación.
Uno de los sesgos que he escuchado son los siguientes: \- Sesgo por confirmación: Donde respaldamos ideas y les damos más valor con respecto a nuestras creencias personales: \- Sesgo por emociones a corto plazo: Tales como la aversión a la pérdida o emociones fundamentadas en ira o afecto \- Sesgo por arrastre: En donde nos dejamos llevar y asumimos veracidad, porque muchas personas creen lo mismo
## Otros tipos de sesgos en las empresas: **1. Sesgo de género:** * **Discriminación en la contratación, promoción o remuneración de las mujeres.** * **Estereotipos de género que limitan las oportunidades de las mujeres.** * **Falta de mujeres en puestos de liderazgo.** **2. Sesgo racial y étnico:** * **Discriminación en la contratación, promoción o remuneración de las personas de color.** * **Estereotipos raciales y étnicos que limitan las oportunidades de las personas de color.** * **Falta de diversidad en la fuerza laboral.** **3. Sesgo de edad:** * **Discriminación en la contratación, promoción o remuneración de las personas mayores.** * **Estereotipos de edad que limitan las oportunidades de las personas mayores.** * **Falta de flexibilidad en las políticas laborales para las personas mayores.** **4. Sesgo de orientación sexual:** * **Discriminación en la contratación, promoción o remuneración de las personas LGBTQ+.** * **Estereotipos de orientación sexual que limitan las oportunidades de las personas LGBTQ+.** * **Falta de inclusión en el entorno laboral.** **5. Sesgo de discapacidad:** * **Discriminación en la contratación, promoción o remuneración de las personas con discapacidad.** * **Estereotipos de discapacidad que limitan las oportunidades de las personas con discapacidad.** * **Falta de accesibilidad en el entorno laboral.** **6. Sesgo de clase social:** * **Discriminación en la contratación, promoción o remuneración de las personas de clase baja.** * **Estereotipos de clase social que limitan las oportunidades de las personas de clase baja.** * **Falta de oportunidades de desarrollo profesional para las personas de clase baja.** **7. Sesgo de confirmación:** * **Tendencia a buscar información que confirme nuestras creencias preexistentes.** * **Dificultad para aceptar información que contradiga nuestras creencias.** * **Toma de decisiones basada en información sesgada.** **8. Sesgo de anclaje:** * **Tendencia a dar demasiado peso a la primera información que recibimos.** * **Dificultad para ajustar nuestras creencias a nueva información.** * **Toma de decisiones basada en información incompleta.** **9. Sesgo de efecto halo:** * **Tendencia a formar una impresión general de una persona basada en una sola característica.** * **Dificultad para evaluar a las personas de manera objetiva.** * **Toma de decisiones basada en estereotipos.** **10. Sesgo de grupo:** * **Tendencia a favorecer a nuestro propio grupo.** * **Dificultad para ser imparciales en situaciones que involucran a nuestro propio grupo.** * **Toma de decisiones discriminatorias.**
Es genial el planteamiento de Daniel Kahneman en su libro Pensar rápido, pensar despacio, porque combate el exceso de confianza y de optimismo, incentivando el SER más racionales para evitar errores en las decisiones importantes que tomamos en la vida.
**Sesgo de confirmación**: Este sesgo ocurre cuando las empresas o el sector público buscan o interpretan información de manera selectiva para confirmar sus creencias o hipótesis preexistentes, ignorando evidencia que podría contradecirlas. Esto puede conducir a decisiones erróneas o a la falta de consideración de perspectivas alternativas.
Hola
Sesgo de Confirmación: Este sesgo ocurre cuando las personas buscan, interpretan o recuerdan información de manera selectiva para confirmar sus creencias preexistentes. En el ámbito empresarial, puede llevar a la toma de decisiones basada en información que respalda opiniones previas, ignorando evidencia contraria. Sesgo de Atribución: Se refiere a la tendencia de atribuir éxitos propios a habilidades y esfuerzo, mientras que los fracasos se atribuyen a factores externos. En el entorno empresarial, esto puede afectar la evaluación del desempeño, la promoción y la toma de decisiones relacionadas con el personal. Sesgo de Semejanza: Ocurre cuando las personas prefieren asociarse o contratar a individuos que se parecen a ellas en términos de antecedentes, intereses o características personales. Esto puede conducir a equipos homogéneos y limitar la diversidad de pensamiento y perspectivas en la empresa. Sesgo de Grupo: Refiere a la tendencia de favorecer a miembros del propio grupo sobre aquellos que están fuera del grupo. Puede influir en la toma de decisiones de contratación, promoción y asignación de responsabilidades. Sesgo de Optimismo: Implica la sobrevaloración de las propias habilidades y la subestimación de los riesgos asociados con las decisiones. Puede llevar a una planificación deficiente y a la toma de riesgos no fundamentados en la gestión empresarial. Sesgo de Recencia: Sucede cuando las decisiones se basan excesivamente en información reciente en lugar de considerar datos más históricos o a largo plazo. Esto puede afectar la planificación estratégica y la evaluación del rendimiento. Sesgo de Estereotipo: Se refiere a la aplicación de estereotipos preconcebidos sobre género, raza, edad u otras características personales en la toma de decisiones empresariales, como la selección de candidatos para empleo o la asignación de responsabilidades. Sesgo de Ancoraje: Ocurre cuando las personas se basan de manera excesiva en la primera información que reciben (el "ancla") al tomar decisiones, incluso si esa información inicial es incorrecta o no representativa.
La importancia de los datos para predecir eventos es impresionante 🤯 y con la ayuda de los avances tecnológicos 🚀 el interés por parte de las empresas y del Gobierno en recolectar información de las personas es cada vez mayor. 📈 ## Las empresas tienen más interés por los datos 💰 * La capacidad de procesar datos ha venido aumentando aceleradamente en los últimos años. 🚀 Este procesamiento de datos ya no se limita a las tablas tradicionales de Excel, sino que ahora también podemos procesar tablas de imágenes, sonidos, vídeos, etc. 🎨🎵🎥 * Eso ha hecho que las empresas y el sector público manifiesten un especial interés en los datos, ya que a través de estos se puede analizar cualquier aspecto que se encuentre en nuestro entorno. 🔎 * Es algo muy común que actualmente las empresas se preocupen por tener datos de sus clientes, desean saber por qué les compran, qué productos, a qué precio, medios de pago, edad y sexo de sus clientes, así como cualquier otra información. 🛒👥 * Toda transacción que hacemos se puede recolectar y se puede transformar en puntos de datos, la cual es registrada como filas y columnas de datos, tanto la información numérica como la categórica. 📊 * Estos datos se pueden usar para segmentar a los clientes, personalizar las ofertas, optimizar los procesos, mejorar la calidad, innovar los productos, entre otras ventajas competitivas. 🏆 ## Los límites de la información 🛑 * La capacidad de recolección de datos ha llegado a límites muy precisos. 🎯 Por ejemplo, cuando escuchas una canción en Spotify, se lleva registro de qué canción se trata, cuándo la empezaste a escuchar, cuándo la paraste, quién era el cantante, la frecuencia con la que escuchas esa canción, si la has seleccionado como favorita, etc. 🎧 Todo eso se convierte en información y es de especial interés para la empresa que está detrás. 🎶 * Las empresas se han dado cuenta de que la información recolectada les sirve para predecir y entender a sus usuarios, por qué consumen determinados productos y cuándo lo van a consumir en el futuro. 🔮 Esto le ha dado un gran valor a la información. 💎 Por este motivo se han preocupado para seguir recolectando, procesando y analizando datos con el fin de predecir con fundamento a esta información. 🧠 * El interés por la recolección de datos ha hecho posible la implementación de herramientas y mecanismos cada vez más eficientes, que permiten que este proceso de recolección sea cada vez más económico. 💸 * Sin embargo, también hay riesgos y desafíos asociados a la recolección de datos, como la privacidad, la seguridad, la ética, la calidad, la veracidad, la confiabilidad, entre otros. 🚨 ## Necesidad de crear regulaciones 📜 * En general, cada vez hay mayores incentivos por tener acceso a la información. 🧲 Este interés no solo es característico del sector privado, pues, el sector público también ha mostrado interés por ello. 🏛️ En consecuencia, la necesidad de regular este proceso es cada vez más urgente. ⏳ * La regulación de uso comprende mecanismos para controlar aspectos como el volumen máximo de información que puede tener una empresa, qué tipo de información puede recolectar, pues, las empresas no pueden recolectar la información por gusto, deben tener una explicación para ello, así como justificar el uso que le darán a esta información. 📝 * Todos estos factores han ido sentando las bases para crear normativas al respecto, dado que las personas necesitan garantías para que sus derechos no sean vulnerados. 🛡️ * Algunos ejemplos de regulaciones existentes son el Reglamento General de Protección de Datos (RGPD) de la Unión Europea, la Ley de Protección de Datos Personales y Garantía de los Derechos Digitales (LOPDGDD) de España, la Ley Estatutaria 1581 de 2012 de Colombia, entre otras. 🌎 ## El mercado ilícito de datos 🕵️‍♂️ * La importancia de los datos ha originado que algunas empresas incurran en actividades ilícitas al comprar o vender datos. 🚫 Por este motivo, es urgente que los gobiernos impulsen la creación de normas para regular las actividades inherentes al manejo de los datos. 🚔 * El mercado ilícito de datos se mueve con considerable dinamismo en las redes. 🕸️ Por ejemplo, empresas de viajes pueden comprar datos de personas que han buscado recientemente información sobre París, porque probablemente esta persona está interesada en viajar a París, de esta manera la empresa trata de ofrecer promociones de viaje a esas personas. 🗼 Sin embargo, esta práctica de compra de bases de datos está empezando a ser penalizada. ⚖️ * Otras formas de obtener datos de forma ilegal son el robo de identidad, el phishing, el malware, el hacking, entre otras. 🦹‍♂️ Estas acciones pueden tener consecuencias graves para las víctimas, como el fraude, el acoso, la extorsión, el chantaje, entre otras. 😱 * Por eso, es importante que las personas se protejan de estas amenazas, usando contraseñas seguras, antivirus, cifrado, redes privadas, entre otras medidas. 🛡️ También es importante que las personas conozcan sus derechos y los ejerzan, como el derecho al olvido, el derecho a la portabilidad, el derecho a la rectificación, entre otros. 🙋‍♂️
Sesgo por Edad
Este artículo que he encontrado explora 15 errores comunes que podemos cometer al trabajar con datos, y me gustaría destacar dos de ellos: 1. Tener un resultado preconcebido en mente. Este enfoque afecta la imparcialidad en el manejo de datos, ya que podría influir en la interpretación y el análisis. 2. Seleccionar los datos de manera conveniente. Esto implica elegir selectivamente los datos que nos favorecen y no considerar la totalidad de la información disponible, lo cual es crucial para realizar un análisis detallado y comprensivo de la realidad. Para obtener más detalles, les invito a leer el artículo completo: [15 falacias y sesgos del manejo de datos (derechoenzapatillas.com)](https://www.derechoenzapatillas.com/2019/15-falacias-y-sesgos-del-manejo-de-datos/#:~:text=15%20falacias%20y%20sesgos%20del%20manejo%20de%20datos,informaci%C3%B3n%20para%20contrastar%20distintas%20hip%C3%B3tesis.%20...%20M%C3%A1s%20elementos)
Sesgos por valores maximos y minimos. A veces estos valores ayudaran a diferir la informacion por lo cual se pueden utilizar herramientas de variabilidad como Percentiles e IQR, etc.
Los sesgos de datos en una empresa pueden afectar la calidad y la objetividad de las decisiones. Algunos tipos de sesgos comunes son: * **Sesgo de selección,** ocurre cuando solo se dirige a una parte y no a un todo. * **Sesgo de muestreos,** puede producirse cuando se recolectan datos de una parte que no representa a la población. * **Sesgo de respuesta,** ocurre cuando un cuestionario se ve influenciado por una mala formulación de las preguntas, la ubicación o el momento en el que se realiza la encuesta. * **Sesgo de datos faltantes,** se evidencia cuando ciertos datos relevantes no están disponibles en el conjunto de datos.
¿Qué otros tipos de sesgos incurren en la empresas o el sector público? * En el lenguaje humano cotidiano donde los modelos de lenguaje pueden aprender y reflejar los prejuicios presentes en el lenguaje cotidiano como estereotipos culturales on lingüisticos que perpetuan sesgos y discriminación. * Sesgos en las decisiones automatizadas en el análisis de textos como por ejemplo en la selección de un CV o sistema de evaluación de riesgos financieros. * Falta de representación diversa si la información tomada no representa la diversidad de perspectivas y experiencias humanas, el modelo puede tener dificultades para comprender y procesar de manera justa los datos.
LA CALIDAD DEL RESULTADO (OUTPUT) DEPENDE DE LA CALIDAD DE LA ENTRADA (INPUT). NECESITAMOS ASEGURARNOS EN : * LA CALIDAD DE LOS DATOS * FUENTE DE ACCESO * CANTIDAD DE DATOS * COMO TIPOLOGIA DE DATOS PARA QUE EL RESULTADO SEA DE CALIDAD
Sesgo de enmarque: Que basado en la información presentada, te determina que la mejor decisión es la indicada. Por ejemplo, cuando vas a comprar en Prime Day de Amazon, te indica el valor original tachado y abajo el valor que comprarías en descuento, esto para que creas que es una oferta la que te llevas, cuando no necesariamente es el caso.
Sesgos en estadísticas. Les dejo el link para mayor detalle. Incluye el caso del chatbot lanzado por Microsoft en 2016 que usaba tecnología de IA para crear contenido y publicarlo en Twitter, que después de un tiempo comenzó a realizar comentarios de naturaleza discriminatoria. <https://mailchimp.com/es/resources/data-bias-causes-effects/> ![](https://static.platzi.com/media/user_upload/image-3e765aee-b0e6-48ce-82a9-5f130776bf5b.jpg)![]()
EN la pelicula Elysium el sistema de salud estaba totalmente sesgado, pues solo curaba a los habitantes de Elysium y solo cuando cambiaron su programacion e incluyeron a todos los habitantes de la tierrra el sistema se libero y empezo a curar a todos sin ningún Sesgo <https://www.youtube.com/watch?v=vSAS79fBVxs>
## Ser influencer. Este es el sesgo más frecuente que he notado en la población latina. Creer que por hacer bailes en TikTok uno consigue una forma de vivir, sin considerar el trabajo pesado que en realidad es ser un creador. Dejo el ignite de la última conferencia de Platzi que se dio en Bogóta <https://platzi.com/new-home/clases/8220-platziconf2023bog/65430-ignite-sebastian-sarmiento/>
Hablemos de instituciones o universidades, específicamente cuando un estudiante quiere su título universitario, al menos en mi país, para obtenerlo necesitamos 3 cosas, de las cuales una es vinculación con la sociedad, y es que aquí es un problema porque solo te la otorgan dependiendo de tu nivel y si tu nivel no es apto no te la dan. Este proceso de hace en base a algoritmos... y lo irónico es que un estudiante de menor nivel la dan y a uno mayor no..
**Sesgo de estatus:** Puede ocurrir cuando se da un trato preferencial a personas con un estatus o posición jerárquica superior en la organización, lo que puede llevar a decisiones sesgadas en beneficio de ciertos individuos o grupos.

Considero que otro tipo de bias (sesgos) que tienen suceden en las empresas es la baja tasa de informacion de gusto. Ejemplo al crear facebook no se basan en mostrarte la informacion que te gusta, sino la informacion que ellos consideran por tu edad ingresada al registro

Algunos sesgos en los que incurren las empresas:


.

  1. Sesgos algorítmicos
    Si las empresas utilizan algoritmos de inteligencia artificial o aprendizaje automático para tomar decisiones, estos algoritmos pueden verse afectados por sesgos inherentes en los datos de entrenamiento o en el diseño del algoritmo. Esto puede llevar a resultados discriminatorios o injustos, especialmente en áreas como la selección de personal, la concesión de préstamos o la toma de decisiones legales.
    .
  2. Sesgos de disponibilidad
    En vez de buscar datos de una amplia gama de fuentes, hay empresas que optan por seleccionar los datos provenientes de fuentes fáciles de acceder pero que no aportan variedad y amplitud al muestreo y recolección de datos.
    .
  3. Sesgo de confirmación
    Las empresas pueden tener una tendencia a buscar o interpretar datos de manera selectiva para confirmar sus creencias preexistentes o hipótesis, mientras ignoran o descartan información que contradiga esas creencias. Esto puede llevar a una visión sesgada y a decisiones basadas en suposiciones incorrectas.

Al aparecer siempre va a ver un sesgo así sea mínimo.

Creo que el principal sesgo que se debe atacar es que las empresas no reconozcan o subestimen la importancia de los sesgos en el análisis de datos. Los gobiernos y las empresas podrían no reconocer potenciales sesgos y obtener resultados errados.

Lo segundo a tener en cuenta es contar con datos incompletos cuando se realicen análisis, por ejemplo, si un gobierno necesita atacar el desempleo y toma decisiones en base a datos incompletos o no representativos, podría resultas en decisiones ineficaces.

También se deben seleccionar los datos de forma aleatoria y no de manera selectiva, si una compañía sólo analiza a sus usuarios que estén más felices con sus productos, podría subestimar el desencanto real de sus clientes.

Sesgo de variable omitida
La falta de una variable afecta a la legitimidad de la estadística. Por ejemplo, un estudio sobre coches que no incluya el año o el kilometraje puede proporcionar resultados inexactos.

Al mirar datos, asegúrate de que tengan en cuenta todas las variables relevantes.

Sesgo de financiacion
Hace referencia a la probabilidad de que un estudio favorezca a la persona que lo financió.

El sesgo de financiación es especialmente popular en las comparaciones de productos. Si Bounty paga una comparación de papel de cocina, es mucho más probable que esa comparación favorezca a Bounty que a otra marca.

tipo de sesgo que se me ocurre en este momento, ya que estamos en elecciones en argentina, es las predicciones de encuestadoras privadas que hace muchos años vienen con pronósticos errados, ya que la encuestas dependen mucho de la zona donde se toma, por que aquí todavía hay mucho fanatismo partidario por zona, entonces si los encuestados son solo de una misma zona el restado es erróneo

Otro tipo de sesgo es cuando desde el inicio no fórmulas bien el objetivo de tu análisis y está basado más en tu opinión que en un objetivo independiente de lo q creas.

Sesgo de codificación: Este tipo de sesgo ocurre cuando los datos se codifican de manera inexacta o sesgada. Por ejemplo, si una empresa codifica la edad de sus clientes como “18-24”, pero algunos clientes tienen más de 24 años, los datos pueden estar sesgados hacia los clientes más jóvenes.

Sesgo algoritmico: Cuando en un modelo de inteligencia artificial se favorecen ciertas características o patrones. Sesgo de confirmación: Cuando solo se busca evidencia que confirme nuestras hipótesis y suposiciones previas y descartamos información contradictoriad aunque pueda ser verdadera.

promediar el IQ de las personas cuando no todas las personas se someten a examenes de IQ

Gracias

Además de los sesgos y el problema de GIGO (Garbage In, Garbage Out), que se refiere a la idea de que si los datos de entrada son de mala calidad o incorrectos, los resultados y las conclusiones también serán poco confiables, existen otros problemas y desafíos asociados con los datos. Algunos de ellos incluyen:

  1. Falta de representatividad: Los datos pueden no ser representativos de la población o fenómeno que se está estudiando, lo que puede conducir a conclusiones inexactas o sesgadas. Esto puede ocurrir si los datos se obtienen de una muestra no representativa o si ciertos grupos o características están subrepresentados en los datos.

  2. Falta de integridad y exactitud: Los datos pueden contener errores, valores atípicos o información incompleta. Esto puede afectar la calidad y confiabilidad de los análisis y resultados derivados de esos datos.

  3. Sesgo de selección: El sesgo de selección ocurre cuando hay una selección no aleatoria de datos, lo que puede distorsionar los resultados. Por ejemplo, si se excluyen ciertos grupos o variables de interés en el proceso de selección de datos, se puede generar un sesgo en los resultados.

  4. Sesgo de respuesta: El sesgo de respuesta ocurre en las encuestas o estudios de opinión cuando las personas seleccionadas para participar no responden de manera representativa o cuando hay sesgos en las respuestas proporcionadas. Esto puede conducir a una distorsión en los resultados y conclusiones basadas en esos datos.

  5. Sesgo temporal: El sesgo temporal se refiere a la falta de representatividad de los datos a lo largo del tiempo. Los cambios en las circunstancias, el contexto o las condiciones pueden hacer que los datos antiguos no sean aplicables o relevantes en el presente.

  6. Sesgo de confirmación: El sesgo de confirmación ocurre cuando se busca, interpreta o se da más peso a la información que respalda las creencias o hipótesis preexistentes, mientras que se pasa por alto o se descarta la información que no las respalda. Esto puede llevar a conclusiones erróneas o parciales basadas en datos limitados.

  7. Sesgo de muestreo: El sesgo de muestreo se produce cuando la selección de la muestra no es aleatoria o cuando ciertos grupos o características tienen más probabilidad de ser seleccionados. Esto puede introducir sesgos sistemáticos en los resultados del análisis.

Estos son solo algunos ejemplos de problemas y desafíos asociados con los datos. Es importante tener en cuenta estos factores al realizar análisis y sacar conclusiones basadas en datos, y aplicar técnicas adecuadas de manejo y análisis de datos para mitigar estos sesgos y garantizar resultados más precisos y confiables.

¿Podría ser este? Leo sus opiniones

Efecto halo y Efecto diablo

El efecto halo y el efecto diablo están relacionados con los sesgos de afinidad y de confirmación. Estos efectos nos ocurren cuando nos centramos exclusivamente en una cualidad especialmente positiva (efecto halo) o negativa (efecto diablo) de una persona. Esta cualidad se convierte prácticamente en la única referencia desde la que la percibimos.

¿Cómo se aplicaría esto en una empresa?
La empresa, a pesar de haber hecho ya un análisis previo da datos sobre sus clientes, se da cuenta de que la recolección que hizo no fue suficiente para poder tomar una decisión, sin embargo, ya no hay tiempo para hacer otra recolección y repetir el proceso, por lo que en base a esos pocos datos empieza a tomar decisiones.

Aquí puede existir un sesgo debido a que solo se basan en algunas características de las personas y no en características generales.

  • Sesgo de selección: Ocurre cuando los datos utilizados para el análisis están sesgados debido a la forma en que se recopilaron o seleccionaron. Esto puede conducir a conclusiones incorrectas o inexactas si no se tiene en cuenta el sesgo en la muestra de datos.

  • Sesgo temporal: Ocurre cuando los datos analizados se ven afectados por cambios en el tiempo.

  • Sesgo cultural o geográfico: Ocurre cuando los datos analizados se ven afectados por diferencias culturales o geográficas que pueden influir en los resultados.

El sesgo de supervivencia siempre me ha llamado mucho la atención. Es aquel en el que nos enfocamos en los resultados positivos y descartamos los fallos, pudiendo estos últimos enseñarnos más que los primeros. En una empresa podría pasarle al enfocarse en aprender sobre sus consumidores en base a sus productos exitosos más que en los que no tuvieron éxtio.

Sesgo de supervivencia: En algunos casos, las empresas pueden basar sus análisis de datos únicamente en los datos disponibles de aquellos que han continuado utilizando sus servicios o productos, excluyendo a aquellos que dejaron de ser clientes. Esto puede llevar a conclusiones sesgadas sobre la satisfacción del cliente o el éxito del negocio.

Sesgos. A nivel de las organizaciones encontramos varios casos de sesgos que en ocasiones pueden limitar el manejo de datos y que no permiten llegar a impactar grandes grupos de personas. Ejemplos:

  • Temas de índole racial
  • Niveles de pobreza
  • Factores regionales o culturales
  • Ideología de género
  •   Criterios personales en lugar de criterios univelsales
    

Estos ejemplos hacen que en ciertas organizaciones, por alguno de estos tópicos limiten los dados en su recolección, tratamiento y posterior entrega para consumo. En conclusión, aplicando estos sesos la información que se obtiene es parcial y no general para una analisis completo.

Cuando en marketing no se calculan bien los muestreos dentro del universo a analizar se produce un bias super grande, por otro lado, cuando se optimizan algoritmos de machine learning para la detección de cáncer y no se divide bien la base inicial de datos para el muestreo, experimentación y luego la validación

podria ser por ejemplo cuando se generaliza las personas por el mes en que nace y se piensa que todos los nacidos en noviembre son igual

Otros tipos de sesgos:
Sesgo de confirmación: se produce cuando los datos recopilados o analizados se utilizan para confirmar una hipótesis preconcebida, en lugar de buscar la verdad objetiva.
Sesgo de supervivencia: se produce cuando los datos utilizados sólo contienen información de los sujetos o elementos que han sobrevivido a un proceso o evento, ignorando la información de aquellos que no sobrevivieron.
Sesgo de memoria: se produce cuando los sujetos o encuestados no recuerdan o no reportan información precisa sobre eventos o situaciones pasadas.
Sesgo de respuesta socialmente deseable: se produce cuando los sujetos o encuestados dan respuestas que creen que son socialmente aceptables o deseables, en lugar de respuestas verdaderas y honestas.
Sesgo de atribución: se produce cuando se atribuyen causas incorrectas a los resultados o eventos observados.
Sesgo de punto de referencia: se produce cuando se utiliza un punto de referencia inapropiado o incorrecto en el análisis de los resultados.
Sesgo de confirmación de la hipótesis nula: se produce cuando se acepta la hipótesis nula sin una evaluación cuidadosa, lo que lleva a la interpretación errónea de los resultados.

Los principales tipos de sesgo de información son el sesgo de clasificación errónea, el sesgo de recuerdo, el sesgo del entrevistador, el sesgo de respuesta, el sesgo de reporte, el sesgo del observador, el sesgo de comprobación y el sesgo de confirmación

Un sesgo que he visto es pensar que por pagar publicidad en RRSS (redes sociales) vas a hacer que nuevos clientes te pongan en la mira, cuando no necesariamente se da así, esto debido a que depende tu mercado el que haya potenciales clientes allí.
Por ejemplo; a una pequeña tienda de ropa que hace delivery le es mucho más rentable pagar por posicionamiento que una empresa que vende maquinaria industrial.

Otras clases de sesgos:

a) Sesgos de selección. Se presentan cuando no están definidos de forma clara los criterios de selección de quienes vayan a participar en una investigación

b) Sesgos de información o ejecución. Se presenta, luego de que se ha seleccionado al o los participantes, y la calidad de la información y/o datos recolectados, los cuales no se pueden estandarizar.

c) Sesgos de confusión: Estos sesgos se presentan durante el análisis e interpretación de los datos, ya que se puede llegar a inferencias erróneas o espurias.

¿Qué tipos de sesgos inconscientes podemos encontrarnos en nuestro día a día en la oficina?
Para ser capaces de identificarlos, a continuación dejamos cinco de los más comunes, aunque habría muchísimos más:

1. Sesgo de afinidad: “¡Es de mi pueblo!”. El sesgo de afinidad es aquel por el que cuando te presentan a una persona con creencias, aficiones o procedencia similares a las nuestras la consideras de partida mejor que a cualquier otra persona. Es decir, cuando evaluamos de mejor manera a aquellas personas que son similares o afines a nosotros.

2. Sesgo de confirmación: “¡Lo sabía!”. El sesgo de confirmación o “profecía autocumplida” ocurre cuando sólo tenemos en cuenta aquella información respecto a una persona que confirma la idea preconcebida que tenemos de ella. El resto de información que la contradice, la ignoramos.

3.Efecto anclaje: “¡No viste adecuadamente, no es profesional!” El sesgo o efecto anclaje se da cuando usamos la información inicial de una persona o sólo aquella de la que disponemos, para emitir juicios posteriores.

4. Sesgo de aversión a la pérdida: “¿Cómo vamos a arriesgarnos a eso?”. Cuantos más recursos inviertes en un proyecto, más te atas a él emocionalmente y más te cuesta abandonarlo. El miedo a la incertidumbre también propicia este sesgo, que es la tendencia a rechazar lo nuevo y los cambios en general sobre lo ya establecido, lo que propicia entornos laborales fosilizados.

5. Meta-sesgo: “¡Yo no tengo sesgos!”. Se trata de la tendencia a no darse cuenta de los propios sesgos cognitivos y de verse como menos sesgado que los demás.

https://fundacionadecco.org/azimut/los-principales-sesgos-inconscientes-en-el-entorno-laboral-y-como-trabajarlos/

Evitar estos fenómenos en análisis de datos

Tratar de que los números sean suficientemente grandes.

Asegurar que la representación sea ecuánime.

Garbage in, garbage out

La calidad del resultado (output) depende de la calidad de la entrada (input).

Sesgo de confirmación, disponibilidad, observador, de atribución, de memoria.

  1. Sesgo de confirmación: este tipo de sesgo ocurre cuando se seleccionan o interpretan datos de manera que confirmen las creencias o hipótesis preconcebidas, en lugar de considerar la evidencia en su totalidad. Por ejemplo, una empresa puede seleccionar solo aquellos datos que respalden su producto o idea, en lugar de considerar todos los datos disponibles.
  2. Sesgo de selección de muestra: este sesgo ocurre cuando se selecciona una muestra que no es representativa de la población completa. Esto puede suceder por diversas razones, como la falta de acceso a ciertos grupos o la selección de una muestra que es demasiado pequeña o sesgada para representar adecuadamente a la población completa.
  3. Sesgo de supervivencia: este sesgo ocurre cuando se basan los análisis solo en los datos disponibles y se ignoran los datos que faltan. Por ejemplo, una empresa puede realizar un análisis de datos sobre los clientes que han comprado sus productos, pero ignorar a aquellos clientes que no han comprado.
  4. Sesgo de atribución: este sesgo ocurre cuando se atribuyen causas a los resultados de un análisis de datos sin considerar otros factores relevantes. Por ejemplo, una empresa puede atribuir un aumento en las ventas a una nueva campaña publicitaria, sin considerar otros factores que también podrían haber contribuido al aumento.
  5. Error de medición: este error ocurre cuando se miden los datos de manera incorrecta o imprecisa, lo que puede afectar la calidad de los análisis posteriores. Por ejemplo, una empresa puede medir la satisfacción del cliente utilizando una escala de calificación que no es clara o que no mide lo que realmente importa para los clientes.

De acuerdo a los tipos de Sesgos, considero que puede incurrir en una basta mayoría, acorde al tipo de decisión o evaluación que se esté realizando en la empresa. Como por ejemplo, el sesgo de anclaje, ya que en las empresas en ocasiones sucede que se toman decisiones basado en la primera información que se obtiene, esto partiendo de unos supuestos o anclajes, con los cuales se hará ajustes para lograr tener una estimación.
El sesgo de confirmación, donde las empresas se centran en buscar, interpretar, validar la información que favorece los planteamientos o hipótesis que se tienen, y dando una menor importancia a lo contradictorio. Lo cual puede llevar a productos que no favorecen a la población tanto como se pensaba, o que incluso pueden causar efectos negativos importantes que no se tuvieron en cuenta

Otros tipos de sesgos

Además de los sesgos y errores que mencionamos anteriormente (bias y GIGO), existen otros tipos de sesgos y errores que pueden ocurrir en la recolección y análisis de datos. Algunos de ellos son:

  1. Sesgos de selección: Ocurren cuando los datos recopilados no representan adecuadamente la población objetivo. Esto puede deberse a que las muestras se seleccionan de manera sesgada o a que se omiten ciertos grupos de la población en la recolección de datos.
  2. Sesgos de respuesta: Ocurren cuando las respuestas de los encuestados están sesgadas debido a la forma en que se formulan las preguntas o a las opciones de respuesta proporcionadas.
  3. Sesgos de confirmación: Ocurren cuando se buscan activamente datos que confirmen una hipótesis preconcebida, en lugar de buscar datos que puedan refutarla.
  4. Sesgos culturales: Ocurren cuando los valores y creencias de una cultura influyen en la recopilación y análisis de datos, lo que puede llevar a interpretaciones incorrectas.
  5. Errores de medición: Ocurren cuando los datos recopilados no miden con precisión lo que se pretendía medir, debido a errores en la formulación de preguntas, en la codificación de las respuestas o en la interpretación de los datos.
  6. Errores de procesamiento: Ocurren cuando se cometen errores en la manipulación y análisis de los datos, por ejemplo, debido a errores en la programación de los algoritmos utilizados para el análisis.

Es importante que las empresas y el sector público sean conscientes de estos sesgos y errores para tratar de minimizarlos y mejorar la calidad de los datos utilizados en la toma de decisiones.

La importancia de evitar el bias y GIGO en la recolección y uso de datos

Es importante que las empresas y organizaciones que recolectan y utilizan datos tomen en cuenta dos conceptos fundamentales: el bias y el GIGO (garbage in, garbage out).

El bias se refiere a la tendencia de los datos a estar sesgados hacia ciertos grupos o perspectivas. Esto puede ocurrir debido a factores como la falta de diversidad en los equipos de recolección de datos, la falta de representación de ciertos grupos en la muestra de datos, o la manipulación intencional de los datos para respaldar ciertas agendas.

El bias puede llevar a decisiones injustas o incorrectas que afectan a individuos o grupos enteros, por lo que es importante tomar medidas para evitarlo. Esto puede incluir la creación de equipos de recolección de datos más diversos, la inclusión de una mayor variedad de perspectivas en la muestra de datos, o la verificación constante de los datos para detectar posibles sesgos.

El GIGO, por otro lado, se refiere a la idea de que los datos incorrectos o incompletos que se ingresan en un sistema de análisis pueden llevar a resultados inexactos o inútiles. Esto puede ser el resultado de errores humanos, problemas con los dispositivos de recolección de datos, o incluso problemas con el software de análisis utilizado.

El GIGO es problemático porque puede llevar a decisiones incorrectas o ineficaces que pueden tener graves consecuencias. Es importante asegurarse de que los datos ingresados en un sistema de análisis sean precisos y completos, y de realizar controles de calidad regulares para garantizar que los datos sean lo más precisos posible.

En general, es importante tener en cuenta tanto el bias como el GIGO al recolectar y utilizar datos. Al hacerlo, se puede asegurar que los datos se utilicen de manera justa y eficaz para informar las decisiones y mejorar los resultados.

Por aca incluyo algo para complementar , https://www.statice.ai/post/data-bias-types.

Un sesgo que ocurre con mucha frecuencia en mi país, es el considerar datos obtenidos de población que si cuenta con el medio para transmitirla a quien lo necesita, obviando así a los ciudadanos que se encuentran en poblaciones alejadas. Creo que es la base de lo que se denomina finalmente como “centralismo”.

Los algoritmos con sesgo racial y de género son un problema que venimos arrastrando desde los años 80:

https://www.xataka.com/inteligencia-artificial/algoritmos-sesgo-racial-genero-problema-que-venimos-arrastrando-anos-80

¿Qué otros tipos de sesgos suceden en las empresas?

  • Aversión a la pérdida
  • Efecto Forer
  • Sesgo de confirmación
  • Sesgo retrospectivo
  • Sesgo del punto ciego
  • Sesgo de disponibilidad

https://deepnote.com/@mazzaroli/Etica-y-Manejo-de-Datos-para-Data-Science-e-Inteligencia-Artificial-6fbe98ba-5e1c-48ea-8b7b-42e98f6b2bac

En las empresas, también pueden ocurrir diversos tipos de sesgos en cuanto a los datos que recopilan y cómo los utilizan. Algunos de los sesgos más comunes incluyen:

  1. Sesgo de selección de datos: Es la tendencia a seleccionar datos que respaldan una hipótesis o suposición, en lugar de considerar toda la información disponible. Esto puede llevar a la toma de decisiones basadas en información incompleta o sesgada.

  2. Sesgo de muestreo: Es la tendencia a recopilar datos de una muestra que no representa adecuadamente la población en cuestión, lo que puede llevar a conclusiones erróneas y decisiones incorrectas.

  3. Sesgo de confirmación de hipótesis: Es la tendencia a buscar evidencia que respalde una hipótesis preconcebida, en lugar de considerar todas las posibles explicaciones. Esto puede llevar a la toma de decisiones sesgadas y a la exclusión de información relevante.

  4. Sesgo de disponibilidad de datos: Es la tendencia a utilizar datos que están fácilmente disponibles en lugar de buscar o recopilar datos más completos o precisos. Esto puede llevar a decisiones basadas en información limitada o incompleta.

  5. Sesgo de omisión: Es la tendencia a no recopilar ciertos tipos de datos, lo que puede llevar a decisiones basadas en información incompleta o sesgada.

Es importante que las empresas reconozcan la existencia de estos sesgos en la recopilación y uso de datos y tomen medidas para minimizar su impacto. Esto puede incluir la implementación de políticas y prácticas que promuevan la objetividad y la revisión crítica de la información disponible, así como la diversificación de las fuentes de datos y la evaluación cuidadosa de la representatividad de los datos recopilados.

  • Sesgo político y comunitario:
    En el sector público hay casos donde se quiere llevar cobertura a los corregimientos donde el acceso al internet es nulo, un corregimiento de un municipio “x” puede haber o tener 2 mil habitantes y muchos de estos no poseen computadores portátiles y smarthphone para hacer un uso adecuado de los recursos tecnológicos en la población.

Otros tipos de sesgos:

  • Genero.

  • Económicos.

  • Religiosos.

  • Culturales.

TIPOS DE SESGOS

  • Sesgo de selección: puede ocurrir cuando la selección de los datos se basa en criterios limitados o preconcebidos, lo que puede llevar a conclusiones inexactas o limitadas. Por ejemplo, una empresa que se enfoca únicamente en la información de clientes frecuentes puede estar perdiendo datos valiosos sobre clientes potenciales.

  • Sesgo de confirmación: puede ocurrir cuando se seleccionan y analizan datos que respaldan preconcepciones previas, mientras se ignoran los datos que no los respaldan. Esto puede llevar a decisiones sesgadas y limitadas en lugar de una visión completa y equilibrada.

  • Sesgo de disponibilidad: puede ocurrir cuando se basan las conclusiones en los datos que están fácilmente disponibles, en lugar de buscar datos más completos y precisos. Esto puede llevar a conclusiones inexactas o incompletas.

  • Sesgo de muestra: puede ocurrir cuando la muestra de datos utilizada para el análisis no es representativa de la población total, lo que puede llevar a conclusiones inexactas. Por ejemplo, una empresa que se basa en una muestra de clientes que no representa adecuadamente la diversidad de su base de clientes puede tomar decisiones inexactas y limitadas.

  • Sesgo de atribución: puede ocurrir cuando se atribuyen causas o motivos incorrectos a los datos, lo que puede llevar a conclusiones inexactas. Por ejemplo, una empresa puede atribuir la baja tasa de conversión de ventas a la falta de interés del cliente, cuando en realidad puede ser un problema con el diseño del sitio web.

  • Sesgo cultural: puede ocurrir cuando las prácticas de recopilación y análisis de datos están influenciadas por los prejuicios culturales o sociales, lo que puede llevar a conclusiones inexactas o limitadas. Por ejemplo, una empresa que no tiene en cuenta las diferencias culturales en su base de clientes puede perder información importante.

Sesgo de confirmación: Este sesgo se produce cuando las personas buscan y dan más peso a la información que confirma sus creencias preexistentes, mientras que descartan o ignoran la información que contradice esas creencias.

sesgos politicos
sesgos de consumo
sesgos de edad
sesgos de nivel economico

-En el 2008 en Estados Unidos la banca tuvo el sesgo (Ceguera por falta de atención), al vender hipotecas a personas que posiblemente no podrían pagarlas y eso causo la gran burbuja inmobiliaria.
-Diferentes estudios globales de biodiversidad a partir de las predicciones generadas por diferentes modelos de nicho ecológico. Habitualmente, estos modelos se calibran con datos procedentes de bases de datos de libre acceso. Sin embargo, a pesar de la facilidad de descarga y de la accesibilidad de los datos, la información almacenada sobre las localidades donde están presentes las especies suele tener sesgos y errores.
(Utilizar información de fácil descarga)

creo que los sesgos más comunes son los relacionados a las preconcepciones humanas, las cuales son influenciadas por la cultura local, de tal manera una empresa en una región costera puede tener segos relacionados al estilo de vida de las personas que viven en la regiones montañosas, y así cuando una de estas solicite un servicio a esta no posea la capacidad de suplir sus necesidades.