ANOVA y Pearson para validar hipótesis en Python

Resumen

Aprender a validar hipótesis con ANOVA y el coeficiente de correlación de Pearson en Python te permite confirmar si dos variables están realmente relacionadas o si su comportamiento es independiente. Aquí trabajamos sobre el dataset iris, comparando sepal length y sepal width para entender cómo interpretar cada resultado.

¿Cómo calcular la correlación entre dos variables en Python?

La correlación mide qué tanto se mueve una variable cuando la otra cambia. Sobre el notebook que ya venías trabajando, accedes a la tabla iris y comparas la columna sepal length contra sepal width usando el método de correlación estándar.

El resultado arroja un valor de -0.10, una cifra tan cercana a cero que indica una correlación muy débil o prácticamente inexistente entre ambas medidas del sépalo.

¿Qué significa una correlación cercana a cero? Significa que las variables se mueven de forma independiente. Cuando una sube, la otra no necesariamente sube ni baja con ella.

¿Cómo se interpreta el coeficiente de Pearson?

Para obtener el coeficiente de Pearson usas la librería stats y aplicas el método Pearson R sobre las mismas dos variables. El resultado entrega un rango entre -0.1 y 0.18, valores nuevamente muy próximos al cero [01:30].

Cuando el coeficiente se acerca tanto al cero, puedes concluir que sepal length y sepal width son variables independientes. No hay un patrón que las vincule, algo que ya habías intuido con la prueba de hipótesis anterior basada en la t de Student.

¿Cómo se aplica ANOVA en Python para comparar varianzas?

ANOVA, o análisis de la varianza, te ayuda a detectar si existe una diferencia significativa entre las distribuciones de dos o más grupos. En Python lo calculas con la función F one way, que ya viene importada desde la librería stats [02:25].

Le pasas como argumentos las dos columnas de interés del dataset: iris sepal length contra iris sepal width. El resultado entrega dos valores fundamentales:

  • Estadístico F: 1335.
  • p-value: 3.98e-102, un número extremadamente pequeño.

¿Cuándo rechazas la hipótesis nula con ANOVA? Cuando el p-value es inferior al nivel de significancia, normalmente 0.05. Si tu p-value es menor, rechazas la idea de que las medias sean iguales.

¿Por qué se rechaza la hipótesis nula en este caso?

El p-value obtenido es muchísimo menor que 0.05, así que rechazas la hipótesis nula que afirmaba que las medias de ambas varianzas eran similares. La conclusión es directa: sí existen diferencias entre las distribuciones de sepal length y sepal width, y debes quedarte con la hipótesis alternativa.

¿Qué nos dicen los tres métodos juntos sobre las variables?

Los tres métodos de validación coinciden en el mismo veredicto, lo que refuerza la confianza en el análisis. Vale la pena revisar cada uno para ver cómo encajan las piezas:

  • t de Student: el estadístico T fue 9.43, muy superior al p-value, lo que llevó a rechazar la hipótesis nula.
  • Coeficiente de Pearson: el rango quedó alrededor de cero, indicando que las variables no se mueven juntas.
  • ANOVA: el p-value de 3.98e-102 es inferior al 0.05 de significancia, confirmando que las distribuciones son distintas.

En las tres ocasiones la hipótesis nula resulta falsa. Por eso te quedas con la hipótesis alternativa: las distribuciones de width y length del sépalo no son similares ni están relacionadas entre sí.

¿Qué método de validación de hipótesis debo usar? Depende de tu objetivo: la t de Student compara medias entre dos grupos, Pearson mide correlación lineal y ANOVA evalúa diferencias de varianza. Usarlos en conjunto te da una visión más robusta.

¿Qué reto puedes resolver con estos métodos?

Ahora te toca a ti. Aplica los tres métodos para analizar la relación entre la longitud del sépalo y la longitud del pétalo en el mismo dataset iris. La hipótesis nula plantea que ambas longitudes son similares; la alternativa sostiene que no están relacionadas.

Corre el código, interpreta los estadísticos y los p-values, y comparte tus resultados en la sección de comentarios. ¿Encontraste correlación o las variables resultaron independientes?