Causalidad vs correlación en datos de salud mental

Curso de Toma de Decisiones Basadas en Datos

Contenido del curso

Pensamiento Crítico en Datos

Decisiones Basadas en Datos

Retos

Interpretación de Resultados

Decisiones basadas en datos

16
Toma de Decisiones Estratégicas Basadas en Datos para Negocios
11:23 min

Tomar examen

Causalidad vs correlación en datos de salud mental

Resumen

Diferenciar causalidad y correlación es una de las habilidades más importantes cuando analizas datos de comportamiento, sobre todo si trabajas con métricas sensibles como las de salud mental. Aquí verás cómo validar si una intervención realmente funciona, qué errores estadísticos evitar y cómo aplicarlo a un caso real de la plataforma Sanamente.

¿Cómo se demuestra la causalidad con grupos de tratamiento y control?

La forma más sólida de probar que algo causa un efecto es diseñar un experimento. En Sanamente identificamos un grupo amplio de usuarios con trastornos de depresión y ansiedad, y para validar si un programa personalizado podía ayudarles, dividimos a la población en dos grupos.

Grupo de tratamiento: recibe el programa personalizado.
Grupo de control: tiene los mismos síntomas, pero no recibe el tratamiento.
Ventana de medición: monitoreamos cambios de conducta durante un mes.

Después de ese mes, el grupo de tratamiento mejoró considerablemente sus conductas, mientras que el grupo de control no mostró cambios. Ahí sí puedes hablar de un evento de causa y efecto: la causa es implementar el programa y el efecto es la mejora en las métricas de salud mental.

¿Qué es un grupo de control en un experimento? Es el grupo al que no se le aplica el tratamiento. Sirve como punto de comparación para confirmar que los cambios observados en el grupo de tratamiento se deben realmente a la intervención y no a otros factores.

¿Qué diferencia hay entre correlación y causalidad?

La correlación describe que dos variables numéricas se mueven juntas, pero no que una provoque a la otra. En Sanamente, al revisar los promedios de actividad física, vimos que cuando estas tendencias son elevadas, los índices de estrés bajan.

Eso es una correlación inversa: a mayor deporte, menor estrés. Pero no podemos afirmar que el deporte por sí solo cause la reducción del estrés; eso requeriría un análisis más profundo. La correlación puede ir en la misma dirección (ambas suben) o en dirección contraria, como en este ejemplo.

¿Toda correlación implica causalidad? No. Dos variables pueden moverse juntas por casualidad, por una tercera variable oculta o por un efecto indirecto. Para confirmar causalidad necesitas un experimento controlado o un análisis observacional riguroso.

¿Cómo identificar un efecto causal real?

Tienes dos caminos principales para validar causalidad:

Prueba experimental: crear un grupo de tratamiento y un grupo de control, como hicimos con el programa de salud mental.
Análisis observacional: revisar los datos eliminando variables de confusión, es decir, aquellas que también podrían explicar el resultado.

La clave en el análisis observacional es preguntarte qué otros factores podrían estar influyendo y aislarlos antes de concluir.

¿Cuáles son los errores más comunes al interpretar causalidad?

Hay tres trampas frecuentes que conviene tener bien identificadas, porque te llevan a conclusiones falsas incluso cuando los datos parecen claros.

Falacia post hoc y error de confusión

La primera trampa es la falacia post hoc, ergo propter hoc. Consiste en asumir que, porque algo ocurrió antes, es la causa de lo que vino después. Si tus usuarios se sienten mejor y usan Sanamente, es tentador decir que mejoraron porque usan la plataforma. Puede ser cierto, pero sin una prueba con grupo de control son dos hechos independientes.

El segundo error es el error de confusión, también llamado multicolinealidad en estadística. Ocurre cuando intentas explicar un fenómeno con una sola variable, ignorando otras que también influyen. Por ejemplo, decir que alguien tiene un trastorno solo porque duerme menos. El sueño importa, pero hay muchas variables más que deberías considerar antes de concluir.

Selección sesgada y sobreestimación de población

El tercer error es la selección sesgada. Sucede cuando los usuarios de tu producto no representan a la población general. Los usuarios de Sanamente ya están interesados en su salud mental, así que si asumes que los resultados de la plataforma se replicarán igual en cualquier persona, estás sobreestimando su eficacia.

Tu muestra está sesgada hacia un perfil específico.
Las conclusiones no se pueden extrapolar a quienes nunca usaron el producto.
Necesitas dimensionar siempre a quién aplica realmente tu hallazgo.

Este error es muy común en productos digitales y te hace creer que tienes un impacto mayor del real.

¿Cómo aplicarlo a una caída en horas de socialización?

Te dejo un caso para que practiques. En Sanamente monitoreamos redes sociales, ubicación, salidas del hogar y análisis de voz para estimar cuánto se comunica una persona. Detectamos un grupo que pasó de socializar 200 minutos a la semana a solo 50 minutos a la semana.

El reto es doble:

Pensar cuál podría ser el efecto de esa caída en socialización, tomando la caída como causa.
Identificar qué otras variables podrían estar correlacionadas con esa reducción del tiempo social.

¿Tú qué hipótesis plantearías y cómo diseñarías la prueba para validarla? Cuéntame en los comentarios cómo abordarías este análisis.

Daniel Alfredo García Serna

Estudiante

📚 CLASE: Causalidad y Correlación

━━━━━━━━━━━━━━━━━━

🎯 IDEA PRINCIPAL

Uno de los errores más costosos en análisis de datos, negocios e inteligencia artificial es confundir correlación con causalidad.

Que dos variables se muevan juntas no significa que una provoque a la otra.

La correlación ayuda a detectar patrones.

La causalidad ayuda a entender qué está generando realmente esos patrones.

Los profesionales no se conforman con descubrir relaciones.

Intentan comprender las causas detrás de ellas.

━━━━━━━━━━━━━━━━━━

⚡ RESUMEN ULTRA RÁPIDO

• Correlación no significa causa y efecto.

• Dos variables pueden estar relacionadas por coincidencia o por un tercer factor oculto.

• La causalidad requiere evidencia más sólida que una simple asociación.

• Tomar decisiones basadas en correlaciones falsas puede ser extremadamente costoso.

• Los mejores analistas buscan explicar el "por qué", no solo el "qué".

━━━━━━━━━━━━━━━━━━

🔑 LO VERDADERAMENTE IMPORTANTE

• La correlación solo indica que dos variables cambian juntas.

Puede ocurrir de tres formas:

• ambas aumentan

• ambas disminuyen

• una aumenta mientras la otra disminuye

Pero esto no demuestra que exista una relación causal.

━━━━━━━━

• Existen correlaciones reales sin causalidad directa.

Ejemplo clásico:

Ventas de helados ↑

Accidentes acuáticos ↑

No significa que los helados causen accidentes.

Existe una tercera variable:

☀️ Temperatura alta

La temperatura influye sobre ambas.

━━━━━━━━

• Las variables ocultas son una de las principales fuentes de error.

Muchas veces observamos:

A relacionado con B

Pero realmente ocurre:

C influye en A y B

Si ignoramos la variable C, llegamos a conclusiones incorrectas.

━━━━━━━━

• La causalidad requiere evidencia adicional.

Para demostrar causalidad normalmente se necesita:

• experimentación

• observación prolongada

• análisis estadístico avanzado

• eliminación de variables alternativas

• pruebas controladas

No basta con observar un gráfico.

━━━━━━━━

• Las empresas toman decisiones peligrosas cuando confunden ambos conceptos.

Ejemplos:

❌ Invertir en acciones que parecen correlacionadas con ventas.

❌ Lanzar campañas basadas en coincidencias temporales.

❌ Implementar cambios de producto por relaciones mal interpretadas.

━━━━━━━━

• La IA también puede aprender correlaciones engañosas.

Un modelo puede encontrar patrones muy precisos que en realidad no representan relaciones causales.

Por eso el criterio humano sigue siendo esencial.

━━━━━━━━━━━━━━━━━━

🧠 CONCEPTOS QUE DEBO ENTENDER

📌 Correlación

Relación estadística entre dos variables.

Indica asociación.

No demuestra causa.

━━━━━━━━

📌 Causalidad

Relación donde un factor produce o influye directamente en otro.

━━━━━━━━

📌 Variable Confusora

Factor oculto que afecta simultáneamente varias variables y genera una correlación aparente.

━━━━━━━━

📌 Experimento Controlado

Método utilizado para identificar relaciones causales reduciendo la influencia de factores externos.

━━━━━━━━

📌 Hipótesis

Explicación tentativa que debe validarse mediante evidencia.

━━━━━━━━━━━━━━━━━━

🧩 MODELO MENTAL

Observación

↓

Correlación

↓

Hipótesis

↓

Investigación

↓

Validación

↓

Causalidad

━━━━━━━━

Modelo incorrecto:

Veo relación

↓

Asumo causa

↓

Tomo decisión

↓

Error

━━━━━━━━

Modelo profesional:

Veo relación

↓

Busco explicaciones alternativas

↓

Identifico variables ocultas

↓

Valido hipótesis

↓

Tomo decisión

━━━━━━━━━━━━━━━━━━

🚀 ACCIONES INMEDIATAS

✅ Piensa en una métrica que sigas frecuentemente.

Pregunta:

¿Estoy observando una correlación o una relación causal comprobada?

━━━━━━━━

✅ Cuando descubras un patrón interesante, genera al menos tres explicaciones posibles.

No te quedes con la primera.

━━━━━━━━

✅ Analiza una noticia o estudio reciente.

Identifica:

• qué variables relaciona

• si demuestra causalidad

• si solo muestra correlación

━━━━━━━━

✅ En proyectos de datos crea el hábito de preguntar:

"¿Qué variable podría estar faltando?"

━━━━━━━━

✅ Antes de implementar una decisión importante, busca evidencia adicional más allá de una correlación observada.

━━━━━━━━━━━━━━━━━━

💼 APLICACIÓN PROFESIONAL

📊 Ciencia de Datos

Ayuda a evitar conclusiones engañosas y modelos mal interpretados.

━━━━━━━━

🤖 Inteligencia Artificial

Permite distinguir entre patrones útiles y relaciones accidentales.

━━━━━━━━

📈 Marketing

Evita atribuir resultados a campañas que realmente fueron impulsadas por otros factores.

━━━━━━━━

💻 Desarrollo de Producto

Mejora la identificación de factores que realmente influyen en el comportamiento del usuario.

━━━━━━━━

🏢 Empresas

Reduce inversiones basadas en interpretaciones incorrectas.

━━━━━━━━

🚀 Startups

Facilita validar hipótesis antes de escalar productos o estrategias.

━━━━━━━━━━━━━━━━━━

🔥 HACKS Y RECOMENDACIONES REALES

💡 Cada vez que encuentres una correlación interesante, pregúntate:

"¿Qué otra explicación podría existir?"

━━━━━━━━

💡 Las correlaciones más convincentes suelen ser las más peligrosas cuando no se validan.

━━━━━━━━

💡 Busca siempre variables externas que puedan influir en los resultados.

━━━━━━━━

💡 No confundas coincidencia con evidencia.

━━━━━━━━

💡 La mejor forma de acercarse a la causalidad es experimentar.

━━━━━━━━

💡 Si no puedes explicar el mecanismo que conecta dos variables, desconfía de la relación causal.

━━━━━━━━

💡 Utiliza las correlaciones para generar hipótesis, no para confirmar verdades.

━━━━━━━━━━━━━━━━━━

🧠 INSIGHT ESTRATÉGICO

Los principiantes buscan patrones.

Los profesionales buscan causas.

━━━━━━━━

Un principiante dice:

"Estas variables están relacionadas."

━━━━━━━━

Un profesional pregunta:

"¿Por qué están relacionadas?"

━━━━━━━━

Un principiante acepta correlaciones.

Un profesional intenta refutarlas antes de creerlas.

━━━━━━━━

Un principiante encuentra respuestas.

Un profesional valida explicaciones.

━━━━━━━━

La verdadera ventaja en análisis de datos no consiste en descubrir relaciones.

Consiste en identificar cuáles de esas relaciones representan mecanismos reales que permiten predecir, intervenir y mejorar resultados.

━━━━━━━━━━━━━━━━━━

📝 REFLEXIÓN FINAL

Las correlaciones son puntos de partida.

No puntos de llegada.

Observar que dos cosas ocurren juntas puede ser interesante.

Comprender por qué ocurren juntas es lo que genera valor.

Las mejores decisiones nacen cuando combinas:

• datos

• contexto

• pensamiento crítico

• validación

• experimentación

Quien aprende a diferenciar correlación de causalidad evita errores costosos y desarrolla una capacidad mucho más profunda para entender cómo funciona realmente el mundo.

Esa habilidad es una de las bases del análisis profesional, la ciencia de datos y la toma de decisiones inteligentes.

Luis Alvarez

Luis Cabezas

Daniel Espinoza

Juliana Castillo

Team Platzi

Jose Ricardo Dueñas Suarez

Natalia Molina

Patricio Sánchez Fernández

Paola Garcia

Angelica Alejo Aguilar

Claudia Cecilia Ruiz Duque

Juan Sebastian Montanez Chaparro

Gladys Martinez

Jhon Freyman Ramírez Cortés

Nestor Bejarano

CLAUDIA PATRICIA CABRERA CASTAÑO

EDWIN ALEXANDER PARRA GOMEZ

Causalidad vs correlación en datos de salud mental

Pensamiento Crítico en Datos

Toma de Decisiones Basadas en Datos para Empresas

Optimización de Estrategias de Marketing Personalizado en Bancos

Pensamiento Crítico: Mejora Decisiones con Datos en Vida y Trabajo

NBA basado en reglas vs inteligencia artificial

Decisiones Basadas en Datos

Cómo gestionar el miedo en proyectos de datos

Valor esperado para elegir entre reglas e IA

Cómo evaluar la viabilidad de un proyecto NBA

Herramientas y Equipos para Análisis de Datos en Banca

Retos

Prevención de Sesgos en el Diseño de Tecnología de Salud Mental

Errores estadísticos al interpretar datos de usuarios