Cuando trabajas con datos en Python, validar hipótesis estadísticas se vuelve más sencillo si dominas tres métodos clave: la t de Student, el coeficiente de correlación de Pearson y el análisis de varianza ANOVA. Aquí aprenderás a programar los dos últimos sobre el dataset iris y a interpretar sus resultados para decidir si dos variables están relacionadas o son independientes.
¿Cómo calcular el coeficiente de correlación de Pearson en Python?
La correlación de Pearson mide qué tan ligadas están dos variables numéricas. Si el valor se acerca a 1 o a -1, la relación es fuerte; si ronda el 0, prácticamente no existe.
¿Qué función usar para obtener la correlación entre dos columnas?
Dentro de un notebook (Colab funciona perfecto), partes de la tabla iris y comparas sepal length contra sepal width. Primero ejecutas la correlación directa entre columnas y luego confirmas con la función pearsonr de la librería stats.
El resultado de la correlación da -0.10, un número muy cercano a cero. Al pedir el coeficiente de Pearson con su intervalo, obtienes valores entre -0.1 y 0.18, lo que confirma una relación muy débil o inexistente [3:00].
¿Qué significa una correlación cercana a cero? Que las dos variables se mueven de forma independiente. Cuando una sube, la otra no necesariamente sube ni baja con ella.
¿Cómo se interpreta el resultado para sepal length y sepal width?
Con valores tan cercanos al cero, puedes concluir que el largo y el ancho del sépalo no están conectados estadísticamente. Son variables independientes, lo que ya se intuía desde la prueba con la t de Student.
¿Cómo programar un análisis de varianza ANOVA en Python?
ANOVA compara la distribución de varianzas entre grupos para determinar si sus medias son estadísticamente distintas. Es una herramienta clave cuando quieres ir más allá de una correlación lineal.
¿Qué librería usar para correr ANOVA sobre el dataset iris?
La función f_oneway (importada previamente) hace el cálculo en una sola línea. Le pasas la columna sepal length y la columna sepal width desde la tabla iris y obtienes dos valores clave [3:30]:
- Estadístico F: 1335.
- p-value: 3.98e-112, un número extremadamente pequeño.
¿Cómo decidir si rechazas la hipótesis nula con ANOVA?
El criterio es comparar el p-value contra el nivel de significancia, que suele fijarse en 0.05. Si el p-value es menor, rechazas la hipótesis nula que afirma que las medias son iguales.
En este caso, 3.98e-112 está muy por debajo de 0.05, así que rechazas la hipótesis nula y aceptas la alternativa: las distribuciones de length y width no son similares [4:30].
¿Cuándo rechazo la hipótesis nula? Cuando el p-value es menor al nivel de significancia (0.05). Eso indica que la diferencia observada no se explica por azar.
¿Por qué los tres métodos llegan al mismo resultado?
Al recapitular las tres pruebas, notas que apuntan en la misma dirección, lo cual refuerza la conclusión estadística sobre las variables del sépalo.
¿Qué arrojaron la t de Student, Pearson y ANOVA juntas?
Los tres métodos coinciden en que sepal length y sepal width no comparten una distribución similar ni una relación significativa [5:00]:
- t de Student: estadístico t de 9.43, muy superior al p-value, por lo que rechazas la hipótesis nula.
- Coeficiente de Pearson: rango cercano al cero, lo que indica variables independientes.
- ANOVA: p-value de 3.98e-112, inferior a 0.05, lo que confirma el rechazo de la hipótesis nula.
La convergencia de los tres resultados no es casualidad: cuando una relación es realmente débil o inexistente, métodos distintos tienden a confirmarlo desde ángulos complementarios.
¿Qué reto puedes resolver para practicar?
Una buena forma de afianzar lo aprendido es replicar el ejercicio con otras columnas del dataset. Verifica la relación entre la longitud del sépalo y la longitud del pétalo, y plantea las hipótesis así:
- Hipótesis nula: las dos longitudes tienen distribuciones similares.
- Hipótesis alternativa: las longitudes no están relacionadas.
Corre los tres métodos, compara los resultados y comparte tus hallazgos en los comentarios. ¿Qué encontraste sobre la relación entre sépalo y pétalo?