Sesgos invisibles que arruinan tus datos

Curso de Ciencia de Datos para Análisis de Negocio

Contenido del curso

No sé dónde empezar

Fundamentos y Estrategía

Cultura y Gobernanza

Herramientas y Roles

Análisis de Negocio

Machine Learning y Operación

Tomar examen

Sesgos invisibles que arruinan tus datos

Resumen

Los sesgos en los datos son distorsiones invisibles que afectan modelos, decisiones y sistemas, incluso cuando los resultados parecen precisos. Identificarlos te permite construir proyectos más justos, inclusivos y relevantes para el mundo real, sobre todo si trabajas con analítica, machine learning o productos digitales.

Un modelo puede ser muy preciso y, al mismo tiempo, profundamente injusto. Puede darte métricas espectaculares en promedio y dejar fuera a grupos enteros. Ahí está el problema que casi nadie levanta la mano para señalar.

¿Qué tipos de sesgos existen en un proyecto de datos?

Los sesgos aparecen en distintas etapas del ciclo de vida de los datos, y reconocerlos por nombre te ayuda a detectarlos antes de que escalen.

Sesgo de muestreo: ocurre cuando los datos no representan a toda la población. Por ejemplo, hacer una encuesta de satisfacción solo a quienes ya te compraron.
Sesgo de etiquetado: aparece cuando quienes etiquetan los datos lo hacen con sus propios prejuicios o sin contexto suficiente.
Sesgo de medición: surge cuando el instrumento de recolección tiene errores, como un formulario mal diseñado que empuja hacia ciertas respuestas.
Sesgo de automatización: confiar ciegamente en lo que dice el sistema, aunque claramente esté equivocado.

¿Qué es el sesgo de muestreo? Es cuando los datos que usas no representan a toda la población. Si solo encuestas a clientes activos, ignoras a quienes se fueron o nunca llegaron, y tus conclusiones quedan cojas.

¿Por qué los sesgos no están solo en los datos?

Aquí viene lo interesante. Los sesgos no viven únicamente en las bases de datos ni en los modelos. También están en el diseño de los sistemas y en los casos de uso que decidimos construir [02:13].

¿Cómo se cuela el sesgo en los datos mismos?

En los datos puedes encontrar lenguaje que excluye, palabras poco inclusivas o demasiado regionales. También es frecuente que la información venga solo de ciudades grandes e ignore contextos rurales o industrias primarias como la agricultura o la pesca. Y entonces te preguntas: ¿cómo tomas decisiones para todo un país si gran parte ni siquiera está siendo considerada?

¿Y en el diseño de las interfaces?

Hay interfaces que asumen que todos tienen Internet superrápido o un smartphone actualizado. Hay bancos que suponen que todo el mundo tiene un contrato laboral formal, algo que no aplica para millones de personas en Latinoamérica. El sesgo arranca antes de escribir una sola línea de código.

¿Qué pasa con los casos de uso?

El problema se agrava cuando se desarrollan sistemas pensados para el norte global y se exportan a países con dinámicas completamente diferentes. Usar reconocimiento facial en zonas con discriminación sistemática previa, o llevar soluciones que ignoran realidades locales, amplifica desigualdades en lugar de resolverlas.

¿Cómo prevenir sesgos con el Data Ethics Canvas?

Una de las herramientas más útiles para trabajar estos temas es el Data Ethics Canvas [03:42]. Funciona como una plantilla con preguntas que te obligan a pensar antes de lanzar un proyecto. No te dice qué hacer, pero te empuja a cuestionarte lo correcto.

¿Quién podría salir perjudicado con esta herramienta o solución?.
¿A quién estamos dejando fuera del análisis o del producto?.
¿Hay datos que necesitamos recolectar mejor o de otra forma?.
¿Cómo sabemos si el sistema se está comportando de manera justa?.

Este tipo de ejercicios no solo mejora el proyecto, también empuja al equipo a pensar más allá de lo funcional. Más allá de si la herramienta sirve, si el flujo quedó como lo planearon o si la métrica subió.

¿Qué es el Data Ethics Canvas? Es una plantilla con preguntas guía que te ayuda a evaluar el impacto ético de un proyecto de datos antes de ejecutarlo. Sirve para anticipar exclusiones, riesgos y vacíos en la recolección.

¿Cómo abrir la conversación sobre sesgos en tu equipo?

No necesitas el rol oficial de encargado de la ética. Solo necesitas curiosidad y ganas de hacer las cosas mejor. Lleva estas tres acciones a tu próxima reunión.

Muestra el esquema con los tres orígenes del sesgo: datos, diseño y uso.
Pide a cada persona que elija un ejemplo y lo relacione con algo que haya hecho o visto en el trabajo.
Pongan sobre la mesa la pregunta clave: ¿qué estamos asumiendo que podría estar excluyendo a alguien sin querer?.

No hace falta resolverlo todo en una sola sesión. Si logras abrir esa conversación, ya diste el primer paso para construir sistemas más justos, más humanos y más relevantes para el mundo real.

¿Cómo identificar sesgos en mi equipo de datos? Reúne al equipo, revisa los tres orígenes (datos, diseño, uso) y pregunten qué supuestos están haciendo que podrían excluir personas. La conversación abierta detecta más sesgos que cualquier auditoría técnica.

Todo lo que viste en este recorrido sobre privacidad, calidad, ética y sesgos es la base para crear soluciones con impacto verdadero, no solo técnicamente correctas. ¿Qué sesgo crees que está pasando desapercibido en tu proyecto actual? Cuéntamelo en los comentarios.

Comentarios23

Gabriel Obregón

Estudiante

📌Sesgos en Datos, Modelos y Decisiones

🎯 Idea central

✨ Un sistema puede ser preciso en promedio pero injusto en la práctica.

💡 La causa: sesgos invisibles que aparecen en datos, diseño y uso.

⚠️ Sesgos más comunes

🔹 Muestreo → datos que no representan a toda la población.

👉 Ejemplo: encuestas solo a clientes habituales.

🔹 Etiquetado → prejuicios o falta de contexto de quienes clasifican.

🔹 Medición → instrumentos o formularios mal diseñados.

👉 Ejemplo: opciones de respuesta limitadas.

🔹 Automatización → confianza ciega en “lo que dice el sistema”.

🕵️ Dónde se esconden los sesgos

🗣️ Lenguaje → expresiones excluyentes o muy locales.

🌆 Cobertura → datos solo de ciudades grandes, se ignoran zonas rurales.

📱 Interfaces → se asume internet rápido y smartphones modernos.

💳 Supuestos financieros → contrato laboral formal como regla general.

🌍 Modelos importados → diseñados para el norte global, no encajan en contextos locales.

🧭 Ética más allá del algoritmo

🔑 Los sesgos nacen antes de los datos y del modelo. 🛠️ Herramienta: Data Ethics Canvas → activa preguntas críticas sobre consecuencias, exclusiones y supuestos.

❓ Preguntas del Data Ethics Canvas

👥 ¿Quién podría salir perjudicado?
🚪 ¿A quién estamos dejando fuera y por qué?
📊 ¿Qué dato necesitamos recolectar mejor y cómo?
⚖️ ¿Cómo sabremos si el sistema es justo?

💬 Cómo iniciar la conversación en el equipo

1️⃣ Muestra ejemplos de sesgos en datos, diseño o uso.

2️⃣ Relaciona un ejemplo con experiencias propias.

3️⃣ Formula la pregunta clave:

🔎 “¿Qué estamos asumiendo que podría excluir a alguien sin querer?”

4️⃣ Mantén la conversación activa: más importante que resolver todo en una sesión.

IVAN CARAPIA BARAJAS

Estudiante

Sesgo de muestreo: los datos no representan a toda la población (ej. solo medir estrés en jóvenes y generalizar a todos).
Sesgo de selección: se eligen casos que favorecen cierto resultado.
Sesgo de confirmación: solo se buscan datos que respalden una hipótesis previa.
Sesgo de medición: errores en la recolección (sensores defectuosos, encuestas mal diseñadas).
Sesgo de supervivencia: analizar solo a quienes “sobrevivieron” a un proceso, ignorando a los que quedaron fuera.
Sesgo cultural o contextual: interpretaciones influenciadas por normas sociales, idioma o región.
Sesgo de exclusión: cuando se eliminan datos “atípicos” que en realidad son relevantes.
Sesgo algorítmico: modelos entrenados con datos desbalanceados que perpetúan discriminación.
Sesgo temporal: usar datos de un periodo que no refleja cambios actuales.
Sesgo de disponibilidad: sobrevalorar datos fáciles de obtener y subestimar los difíciles.

Aaron Mainero

Estudiante

Jackssuriss Tatiana Herrera Florez

Estudiante

Los tipos de sesgos mencionados en la clase son:

Sesgo de muestreo: Datos no representativos de toda la población.
Sesgo de etiquetado: Etiquetas influenciadas por prejuicios o falta de contexto.
Sesgo de medición: Errores en los instrumentos de recolección de datos.
Sesgo de automatización: Confianza ciega en los sistemas sin cuestionar su precisión.

Estos sesgos pueden afectar la toma de decisiones y perpetuar desigualdades.

Esteban Bastías B.

Estudiante

Karen Lizeth Quiñones

Estudiante

¿Cuándo debo usar el Data Ethics Canvas?

Debes implementar esta herramienta antes de escribir la primera línea de código o recolectar el primer dato. Piensa en el Data Ethics Canvas como los planos arquitectónicos de un edificio: no esperas a construir el décimo piso para preguntarte si los cimientos soportarán el peso. Úsalo durante la fase de ideación y diseño de tu proyecto para mapear proactivamente los riesgos. Reúne a tu equipo, preferiblemente con perfiles diversos, y utilicen este lienzo para responder preguntas incómodas pero necesarias. Por ejemplo, evalúen si la solución asume que todos los usuarios tienen acceso a Internet de alta velocidad o si penaliza indirectamente a personas de zonas rurales. Al aplicarlo en las etapas tempranas, transformas la ética de un simple "requisito legal" de última hora en una ventaja competitiva que garantiza que tu producto sea verdaderamente inclusivo, robusto y preparado para el mundo real.

Eduardo Alfredo Mora Morales

Estudiante

sesgos

Carlos Andres Prieto Garavito

Estudiante

Marvin Alexander Pop Cahuec

Estudiante

eso se basa en la teoria de las cavernas del mundo interior y el exterior'

Es una analogía brillante, Marvin. En la caverna de Platón, los prisioneros confunden las sombras proyectadas en la pared con la realidad misma, porque es lo único que conocen.

Los sesgos en la IA funcionan igual: si el modelo solo ha visto "sombras" de una realidad específica, asume que eso es todo lo que existe. ¿Cómo crees que podríamos empezar a "salir de la caverna" para que los modelos vean la realidad completa y no solo la proyección que les dimos?

Claudia Suárez

Estudiante

¿Qué pasa si ignoramos el contexto local?

Si importas una solución tecnológica diseñada para una realidad y la aplicas en otra sin ajustes, corres el riesgo de crear un sistema inútil o, peor aún, peligroso. Imagina implementar un sistema de reconocimiento de voz entrenado exclusivamente con acentos de grandes capitales en una región con fuerte presencia de dialectos locales o lenguas indígenas. El sistema simplemente fallará, frustrando a los usuarios y bloqueando su acceso a servicios básicos. En el mundo de los datos, el contexto lo es todo. Las variables económicas, culturales y de infraestructura cambian drásticamente entre distintas regiones del mundo. Ignorar esto significa que tus modelos podrían asumir que todos tienen un contrato laboral formal o una dirección postal estandarizada, excluyendo automáticamente a millones de personas que operan en la economía informal. Adaptar tus soluciones al entorno local asegura que la tecnología resuelva problemas reales en lugar de amplificar barreras existentes.

Felipe Martínez

Estudiante

Muchos análisis y modelos asumen que las personas tienen ingresos estables, contratos formales y comportamiento financiero predecible. Sin embargo, en entornos como el latinoamericano, gran parte de la población trabaja en la informalidad, con ingresos variables y sin historial crediticio tradicional. Esto genera sesgos en modelos que, aunque precisos en promedio, excluyen a quienes no encajan en ese patrón. Me surge la duda de hasta qué punto estamos diseñando soluciones para una minoría “visible” en los datos y dejando por fuera a una mayoría real, y cómo incorporar mejor esas realidades sin comprometer la calidad técnica de los modelos.

Elias Echeverri

Estudiante

muchos priorizaron que la edad temprana esta excluida de la muestra por ética de datos con permisos parentales

Jhon Freyman Ramírez Cortés

Estudiante

¿Cómo evito caer en sesgos de automatización?

El antídoto principal contra el sesgo de automatización es mantener siempre un "humano en el bucle" (Human-in-the-loop). Este sesgo ocurre cuando apagamos nuestro sentido crítico y aceptamos una decisión de la máquina como una verdad absoluta, similar a cuando sigues ciegamente el GPS y terminas en un lago. Para evitarlo en tus proyectos, debes diseñar procesos donde la inteligencia artificial actúe como un copiloto que sugiere, no como un dictador que ejecuta. Establece umbrales de confianza: si el modelo está seguro al 99% de una decisión rutinaria, permítele actuar; pero si la confianza baja al 70% o la decisión afecta la vida, salud o finanzas de una persona, el sistema debe pausarse y requerir la revisión obligatoria de un experto humano. Además, fomenta una cultura de equipo donde cuestionar a la máquina sea premiado, realizando auditorías aleatorias a las predicciones del sistema para asegurar que el sentido común siga al mando.

Jhon Freyman Ramírez Cortés

Estudiante

¿Por qué un modelo preciso resulta injusto?

Imagina que creas un algoritmo para predecir el éxito financiero y acierta el 95% de las veces. Sin embargo, si lo entrenaste únicamente con perfiles de personas que heredaron grandes fortunas, el modelo será altamente preciso para ese grupo específico, pero profundamente injusto para emprendedores que empezaron desde cero. La precisión matemática solo mide qué tan bien el sistema aprende los patrones de los datos que le entregas. Si esos datos históricos ya contienen desigualdades, prejuicios o exclusiones, la inteligencia artificial simplemente optimizará y escalará esa discriminación. En la práctica, esto significa que podrías estar denegando créditos bancarios, oportunidades laborales o diagnósticos médicos a poblaciones enteras, creyendo erróneamente que el sistema es "objetivo" solo porque arroja números exactos. La clave está en auditar no solo el resultado final, sino la representatividad de la información con la que alimentas el motor.

María Ermensy Ochoa Vanegas

Estudiante

Me parece importantísimo este tema. además lo explicas muy bien. hay mucho desconocimiento con el manejo de los datos actualmente

José Eder Guzmán Mendoza

Estudiante

Los sesgos en datos e inteligencia artificial son invisibles pero influyen directamente en la justicia y calidad de las decisiones. Un modelo puede ser altamente preciso en promedio y, aun así, perjudicar a ciertos grupos si los datos o supuestos no los representan adecuadamente. Por eso, no basta con evaluar métricas globales: es necesario preguntarse a quién podría estar excluyendo el sistema.

Los sesgos más comunes incluyen el sesgo de muestreo (datos no representativos), etiquetado (prejuicios humanos al clasificar), medición (instrumentos mal diseñados) y automatización (confianza excesiva en el sistema). Además, pueden surgir desde el diseño: lenguaje excluyente, falta de cobertura en contextos rurales, suposiciones tecnológicas o modelos importados que no reflejan realidades locales.

Para abordar estos riesgos, se requiere ampliar la mirada más allá del algoritmo. Herramientas como el Data Ethics Canvas ayudan a cuestionar supuestos clave: quién podría verse afectado, qué datos faltan y cómo evaluar la equidad del sistema.

En síntesis, construir soluciones justas implica integrar la ética desde el inicio, mantener conversaciones abiertas en los equipos y reconocer que los sesgos no son fallas técnicas aisladas, sino reflejos de decisiones humanas que deben revisarse de forma crítica y continua.

Diego Jurado

Estudiante

Etiquedato!

Edgardo Cuello

Estudiante

sesgos invisibles. interesante concepto

Edgardo Cuello

Estudiante

de datos estar informados

John Felipe Vélez

Estudiante

Sesgos invisibles que arruinan tus datos

Fundamentos y Estrategía

Ciencia de datos para negocios sin programar

Diferencias entre Business Intelligence, Data Science y Machine Learning

Palancas de valor con análisis de datos

Las 5 V del big data explicadas

Cómo construir un árbol de KPIs eficaz

Diferencias entre BI, Analytics y Big Data para empresas

Cultura y Gobernanza

Cómo construir una cultura orientada al dato

Calidad y gobernanza de datos en tu empresa

Minimización y consentimiento en datos personales