Causalidad vs correlación en datos de salud mental

Resumen

Diferenciar causalidad y correlación es una de las habilidades más importantes cuando analizas datos de comportamiento, sobre todo si trabajas con métricas sensibles como las de salud mental. Aquí verás cómo validar si una intervención realmente funciona, qué errores estadísticos evitar y cómo aplicarlo a un caso real de la plataforma Sanamente.

¿Cómo se demuestra la causalidad con grupos de tratamiento y control?

La forma más sólida de probar que algo causa un efecto es diseñar un experimento. En Sanamente identificamos un grupo amplio de usuarios con trastornos de depresión y ansiedad, y para validar si un programa personalizado podía ayudarles, dividimos a la población en dos grupos.

  • Grupo de tratamiento: recibe el programa personalizado.
  • Grupo de control: tiene los mismos síntomas, pero no recibe el tratamiento.
  • Ventana de medición: monitoreamos cambios de conducta durante un mes.

Después de ese mes, el grupo de tratamiento mejoró considerablemente sus conductas, mientras que el grupo de control no mostró cambios. Ahí sí puedes hablar de un evento de causa y efecto: la causa es implementar el programa y el efecto es la mejora en las métricas de salud mental.

¿Qué es un grupo de control en un experimento? Es el grupo al que no se le aplica el tratamiento. Sirve como punto de comparación para confirmar que los cambios observados en el grupo de tratamiento se deben realmente a la intervención y no a otros factores.

¿Qué diferencia hay entre correlación y causalidad?

La correlación describe que dos variables numéricas se mueven juntas, pero no que una provoque a la otra. En Sanamente, al revisar los promedios de actividad física, vimos que cuando estas tendencias son elevadas, los índices de estrés bajan.

Eso es una correlación inversa: a mayor deporte, menor estrés. Pero no podemos afirmar que el deporte por sí solo cause la reducción del estrés; eso requeriría un análisis más profundo. La correlación puede ir en la misma dirección (ambas suben) o en dirección contraria, como en este ejemplo.

¿Toda correlación implica causalidad? No. Dos variables pueden moverse juntas por casualidad, por una tercera variable oculta o por un efecto indirecto. Para confirmar causalidad necesitas un experimento controlado o un análisis observacional riguroso.

¿Cómo identificar un efecto causal real?

Tienes dos caminos principales para validar causalidad:

  1. Prueba experimental: crear un grupo de tratamiento y un grupo de control, como hicimos con el programa de salud mental.
  2. Análisis observacional: revisar los datos eliminando variables de confusión, es decir, aquellas que también podrían explicar el resultado.

La clave en el análisis observacional es preguntarte qué otros factores podrían estar influyendo y aislarlos antes de concluir.

¿Cuáles son los errores más comunes al interpretar causalidad?

Hay tres trampas frecuentes que conviene tener bien identificadas, porque te llevan a conclusiones falsas incluso cuando los datos parecen claros.

Falacia post hoc y error de confusión

La primera trampa es la falacia post hoc, ergo propter hoc. Consiste en asumir que, porque algo ocurrió antes, es la causa de lo que vino después. Si tus usuarios se sienten mejor y usan Sanamente, es tentador decir que mejoraron porque usan la plataforma. Puede ser cierto, pero sin una prueba con grupo de control son dos hechos independientes.

El segundo error es el error de confusión, también llamado multicolinealidad en estadística. Ocurre cuando intentas explicar un fenómeno con una sola variable, ignorando otras que también influyen. Por ejemplo, decir que alguien tiene un trastorno solo porque duerme menos. El sueño importa, pero hay muchas variables más que deberías considerar antes de concluir.

Selección sesgada y sobreestimación de población

El tercer error es la selección sesgada. Sucede cuando los usuarios de tu producto no representan a la población general. Los usuarios de Sanamente ya están interesados en su salud mental, así que si asumes que los resultados de la plataforma se replicarán igual en cualquier persona, estás sobreestimando su eficacia.

  • Tu muestra está sesgada hacia un perfil específico.
  • Las conclusiones no se pueden extrapolar a quienes nunca usaron el producto.
  • Necesitas dimensionar siempre a quién aplica realmente tu hallazgo.

Este error es muy común en productos digitales y te hace creer que tienes un impacto mayor del real.

¿Cómo aplicarlo a una caída en horas de socialización?

Te dejo un caso para que practiques. En Sanamente monitoreamos redes sociales, ubicación, salidas del hogar y análisis de voz para estimar cuánto se comunica una persona. Detectamos un grupo que pasó de socializar 200 minutos a la semana a solo 50 minutos a la semana.

El reto es doble:

  • Pensar cuál podría ser el efecto de esa caída en socialización, tomando la caída como causa.
  • Identificar qué otras variables podrían estar correlacionadas con esa reducción del tiempo social.

¿Tú qué hipótesis plantearías y cómo diseñarías la prueba para validarla? Cuéntame en los comentarios cómo abordarías este análisis.