Identificación y prevención de la falacia del francotirador

Clase 11 de 24Curso de Introducción al Pensamiento Probabilístico

Contenido del curso

Resumen

Cuando analizamos datos sin considerar la aleatoriedad, corremos el riesgo de encontrar patrones donde no los hay. Esta es precisamente la trampa que plantea la falacia del francotirador de Texas, un error lógico que aparece con frecuencia en ciencia de datos, inversiones y hasta en estudios científicos publicados. Comprender cómo funciona es fundamental para construir conclusiones válidas a partir de evidencia real.

¿Qué es la falacia del francotirador de Texas?

La imagen que da nombre a esta falacia es tan memorable como ilustrativa [0:42]: un hombre dispara múltiples veces contra un establo sin apuntar a ningún blanco. Después de disparar, pinta la diana alrededor del grupo de impactos más cercano y se declara un tirador experto. El problema es evidente: la hipótesis no existía antes de observar los datos.

Esta falacia consiste en no tomar la aleatoriedad en consideración [0:04]. También ocurre cuando nos enfocamos demasiado en las similitudes entre datos sin verificar que nuestra muestra sea suficientemente amplia para afirmar que esas similitudes son relevantes.

Un ejemplo claro es observar la explosión de un volcán o una estrella y concluir que el universo está repleto de energía explosiva a gran escala [0:18]. En realidad, la mayor parte del universo está vacío. La muestra no contempló un panorama suficientemente amplio ni consideró la distribución aleatoria de la energía.

¿Por qué recolectar datos antes de tener una hipótesis es un error?

Una forma muy común de caer en esta falacia es comenzar a recolectar datos antes de formular una hipótesis [1:00]. En el mundo de data science, muchas compañías acumulan enormes cantidades de información esperando que los científicos de datos encuentren patrones después de ver los datos. Este enfoque es problemático porque la hipótesis se construye ad hoc, es decir, se adecúa directamente a los datos disponibles en lugar de plantearse de forma independiente antes de la recolección.

El segundo error es no preguntarse cuál es la probabilidad de que, simplemente por azar, los datos muestren ese patrón [1:28]. Si no evaluamos la randomness, cualquier agrupación puede parecer significativa.

¿Dónde aparece este error en la vida real?

Los ejemplos son más cotidianos de lo que parece [1:40]:

  • Emprendedores seriales que se enfocan únicamente en las empresas que les funcionaron e ignoran las que fracasaron. Después de varios intentos, señalan el éxito y se declaran grandes emprendedores.
  • Portafolios de inversión donde la gente tiende a destacar las decisiones acertadas del gestor del fondo y a pasar por alto las decisiones que resultaron mal.
  • Ambas perspectivas —lo que funcionó y lo que no— deben entrar en la ecuación para construir conclusiones válidas.

¿Qué enseña el estudio de Suecia sobre cables de luz y cáncer?

En Suecia se realizó un estudio amplio que buscaba determinar si los cables de luz estaban relacionados con el cáncer [2:08]. Los investigadores encontraron un clúster, un grupo geográfico donde había alrededor de ochocientas personas con cáncer cerca de ciertos cables. El número parecía alarmante.

Sin embargo, el estudio falló al no considerar cuál era la probabilidad de que, aleatoriamente, existieran ochocientas personas con cáncer en esa área [2:36]. Al correr los números, la probabilidad resultó ser aproximadamente del cincuenta por ciento, lo cual significa que era prácticamente aleatorio. Un número en lo abstracto, sin contexto poblacional, no permite llegar a ninguna conclusión sólida [2:25].

Este caso ilustra perfectamente que entender la población total es indispensable antes de extraer conclusiones.

¿Cómo evitar caer en la falacia del francotirador?

Para que las conclusiones sean correctas y estadísticamente válidas, es necesario cumplir con dos condiciones fundamentales [3:00]:

  • Extraer muestras aleatorias.
  • Asegurarse de que sean muestras representativas.

Si fallamos en cualquiera de estos criterios, probablemente estemos frente a un error de prejuicio o frente al sharpshooter fallacy. La clave está en formular la hipótesis primero, recolectar datos después y siempre evaluar si el patrón encontrado podría explicarse simplemente por el azar.

¿Conoces algún caso donde alguien vio datos y saltó a una conclusión sin hipótesis previa? Comparte tu historia en los comentarios.