Análisis de Correlación y ANOVA en Python

Clase 17 de 22 • Curso de Estadística Inferencial para Data Science e Inteligencia Artificial

Resumen

¿Cómo se realiza la correlación de Pearson en Python?

En el análisis de datos, determinar las relaciones entre variables es crucial para obtener conclusiones precisas. La correlación de Pearson es una herramienta fundamental en este proceso, que permite evaluar la relación lineal entre dos variables continuas. ¿Te suena complicado? No te preocupes, vamos a desglosar este procedimiento paso a paso con Python como aliado.

Implementación en Python

Para calcular la correlación de Pearson entre dos variables, en este caso, la longitud y el ancho del sépalo de un conjunto de datos conocido como "iris", utilizamos Python de manera sencilla y efectiva:

Este es el fragmento de código necesario para encontrar el coeficiente de correlación:

import pandas as pd
from scipy.stats import pearsonr

# Cargamos el conjunto de datos
iris = pd.read_csv('iris.csv')

# Calculamos la correlación de Pearson
corr, _ = pearsonr(iris['sepal_length'], iris['sepal_width'])
print(f'Coeficiente de correlación de Pearson: {corr}')

En este ejemplo básico, importamos la biblioteca SciPy para usar pearsonr, que introduce la correlación de Pearson. La salida reporta un coeficiente de aproximadamente -0.10, denotando una correlación muy débil entre las variables sepal_length y sepal_width.

¿Qué es ANOVA y cómo se utiliza en el análisis de datos?

ANOVA o el Análisis de Varianza es esencial cuando se examinan diferencias entre grupos o distribuciones. Es ideal para comprobar si existen diferencias significativas entre las medias de diferentes grupos. Este método lleva tu interpretación más allá de las simples correlaciones.

Cálculo de ANOVA en Python

Además de la correlación, ANOVA nos ofrece otra perspectiva sobre nuestros datos:

from scipy.stats import f_oneway

# Cálculo del ANOVA
f_statistic, p_value = f_oneway(iris['sepal_length'], iris['sepal_width'])
print(f'Estadístico F: {f_statistic}, valor p: {p_value}')

El resultado obtenido tiene un estadístico F de 1.335 y un p-value extremadamente bajo. Esto implica rechazar la hipótesis nula de que las medias son iguales, sugiriendo que hay una diferencia significativa entre las distribuciones de longitud y ancho del sépalo.

¿Cuáles son los pasos siguientes para tu aprendizaje?

Has aprendido a ejecutar pruebas de hipótesis usando la correlación de Pearson, el análisis ANOVA, y remitiéndote previamente a la prueba T de Student. Cada una confirma que las variables en cuestión no son similares, guiándote a abrazar la hipótesis alternativa. ¡Nada mal, verdad?

Como un desafío adicional, te animamos a explorar la relación entre la longitud del sépalo y del pétalo, replicando los mismos métodos. Tus hallazgos no sólo reforzarán tu dominio en el análisis de datos, sino que también enriquecerán tus habilidades en la interpretación de resultados.

Comparte tus insights en la sección de comentarios, y recuerda: el campo del análisis de datos está siempre en expansión, esperando a ser explorado. Avanza con curiosidad y sigue cultivando tu pasión por el conocimiento. ¡Feliz análisis!

JORGE HIGUITA

student•

Creo que la profe se confunde un poco al interpretar los test, por eso hago mi aporte:

Para la prueba de t Student lo que se compara son los valores t_calculado con el t_tabulado, siendo que sí |t_calculado|>|t_tabulado| se rechaza la Ho (ojo! se compara el valor absoluto).
La correlación de Pearson lo que se debe mirar es el valor del coeficiente de correlación (ojo que es solo lineal), y la función st.pearsonr(x,y) nos arroja una tupla compuesta por el coeficiente de correlación y el p_value (La profe le dice intervalo pero eso esta mal!).
El ANOVA si lo interpreta bien. Saludos!!!

David Castillo

student•

Tambien tenía dudas acerca de la interpretación, gracias por tu aporte.

Karen Tatiana Rodríguez Vanegas

student•

En el ejemplo del largo y ancho del sépalo, con el valor p que se obtiene (0.1828) NO se rechaza la hipótesis nula, las variables no están correlacionadas.

FELIX DAVID CORDOVA GARCIA

student•

Hola, para los que recién se inician en este mundo y se preguntan para que diantres sirve todo esto, en resumen, sabiendo cuales son las características que mas se relacionan con la variable objetivo podemos ver si las podemos descartar o nó al crear nuestro modelo de machine learning o nuestra red neuronal . Para este ejemplo de iris nuestra variable objetivo es la columna species, entonces al realizar un análisis de extracción de características el coeficiente de Pearson nos permite saber cual es la relaciòn entre estas y la variable objetivo, siempre que hago un análisis para un dataset utilizo el siguiente código :

Cuando los valores están cerca a 0 simplemente los descarto porque no me aportan nada, esa es la verdadera utilidad de estas clases.

Diego Moreno Gallón

student•

Igual no hay que descartar de inmediato y ver si la correlación es de otro tipo, ya que el comportamiento puede ser no lineal.

Gerardo Mayel Fernández Alamilla

student•

no es correcto lo que mencionas, pero entiendo de dónde viene la confusión, para qué sirve la prueba de hipótesis principalmente para A-b testing otra rama de la ciencia de datos que no es machine learning, si no existe correlación es verdad que podría descartarse en algunas ocasiones pero para modelos de clasificación, iris dataset está pensado para modelos de segmentación sería un error descartar las características de las especies

Videl Chavez Benavente

student•

Antes de aplicar la prueba ANOVA se debe considerar dos aspectos importantes: a) Cada muestra tiene una distribución normal, lo cual lo podemos comprobar, realizando una prueba de normalidad, con el siguiente código:

from scipy.stats import normaltest
def probar(df):
  S,p = normaltest(df)
  alfa = 0.05
  print('p =',p)
  if p<alfa:
    print('No existen evidencias estadísticas para suponer normalidad')
  else:
    print('Existen evidencias estadísticas para suponer normalidad')
  return p

probar(iris['sepal_width'])

b) Prueba de homocedasticidad: La varianza de las muestras es homogénea Se puede realizar con dos librerias levene o barlett de scipy.stats

from scipy.stats import levene
alfa = 0.05
stat,p = levene(iris['sepal_length'],iris['sepal_width'])
print('p=',p)
if p<alfa:
    print('No existen evidencias estadísticas para suponer igualdad de varianza ')
else:
    print('Existen evidencias estadísticas  para suponer igualdad de varianza')

Para las variables analizadas en clase, me dio como resultado que sepal_length y wigth cumplen con la prueba de normalidad , pero no con la prueba de homocedasticidad, por lo que aplicar una prueba ANOVA, nos daría resultados sesgados.

Jesús Junior Alvarado Peña

student•

Muchas gracias!

José Pablo Cabrera Romo

student•

¡Mil gracias por el aporte, Videl!

Felipe Sebastián Zepeda González

student•

Quisiera hacer notar que en estas clases se usaron tests de hipótesis de forma bastante descuidada. Les dejo las condiciones sobre el testing ANOVA (que son las mismas condiciones que necesita el t_test de la clase anterior)

El test ANOVA considera suposiciones importantes que deben cumplirse para que el valor p asociado sea válido:

Las muestras son independientes.
Cada muestra es de una población normalmente distribuida.
Las desviaciones estándar de población de los grupos son todas iguales. Esta propiedad se conoce como homocedasticidad.

En estos ejemplos no es claro que las varianzas de las poblaciones sean iguales o no... así que sugiero precaución sobre las conclusiones presentadas en estas clases al usar t_test y ANOVA.

Referencia:

Eliana Ossio

student•

Gracias. Veo que hay que complementar mucho con material adicional.

Lucel Da Silva

student•

se acepta la hipótesis nula 👀 se correlacionan

Maximiliano Cuesta

student•

Importaste la misma base de datos Iris que esta en los recursos de la clase 16?yo importe esa y me dio los mismos resultados que la profe

Ángel Samuel Suesca Ríos

student•

Usaste las variables sepal-length y petal-length

frank hurtado

student•

Hola chicos, algo importante es tener claro que tener una alta correlacion no implica que exista causalidad !a

Javier Orlando Herrera Rodríguez

student•

Un ejemplo que me gusta mucho y que siempre me ayuda a recordarlo es la correlación entre el el incremento de la temperatura global y la disminución del número de piratas.

El hecho de que se reduzca el número de piratas evidentemente no tiene nada que ver con el aumento la temperatura global

Klever Dario Hidalgo Alban

student•

Todo el contenido de prueba de hipótesis es un poco complejo de entender intuitivamente, yo lo entendí mejor leyendo en libros o también está muy bien explicado en la página de Minitab, les dejo el link aquí

Jorge Guevara

student•

¿Va a haber alguna corrección en este video debido a los comentarios que ponen los compañeros? En lo particular yo confío en las clases que estoy tomando y si no está bien algo, sería bueno que lo corrigieran.

Juan Jose Ramirez Lopez

student•

La profesora no explica bien la correlación de pearson y que tan importante es el P value en esta. Este curso me está dejando mucho que desear. (

Carlos Mazzaroli

student•

Esto me tiene muy confundido ya que la profe no lo menciona

st.pearsonr(iris['sepal_length'],iris['sepal_width'])

(-0.11756978413300204, 0.15189826071144918)

El P-Value se encuentra por encima del nivel de significancia de 0.05, en esta prueba la hipotesis nula no se rechazaría a diferencia de la anterior?

La ignorancia duele

Felipe Sebastián Zepeda González

student•

El p-value que se entrega es sobrede la hipotesis nula de que "no hay correlación entre las poblaciones": Por tanto, se mantiene la hipótesis nula de que ambas poblaciones no estén correlacionadas (Notar mantener la hipótesis no es lo mismo que aceptar la hipótesis )

Referencia:

Jesus Esteban Cuentas Villanueva

student•

Por si no lo recordaban muy bien:

Sebastian Gaviria

student•

Creo que es importante visualizar los datos antes de hacer análisis. Podemos ver que algunas especies sí pueden tener sus dos variables correlacionadas. Con el gráfico lmplot lo podemos ver bien.

sns.lmplot(data=iris, x='sepal-length', y = 'sepal-width', hue='class')

Francisco Ibanez

student•

increible como aplica anova sin validsr ninguno de los supuestos. Anova no se podría aplicar en este caso, pero se aplica sin fundamentos. fatal.

Angel Estrada

student•

Todas las variables son significativamente distintas entre si:

varnums = ['sepal-length', 'sepal-width', 'petal-length', 'petal-width']
for col1 in varnums:
  for col2 in varnums:
    if col1 != col2:
      f_stat, p_value = f_oneway(iris[col1], iris[col2])
      print(f'\n\nPrueba F para "{col1}" y "{col2}": ')
      print(f'Stat = {f_stat}, p_value = {p_value}')
      if p_value < 0.05:
        print(f'Las muestras de {col1} y {col2} son significativamente diferentes.')
      else:
        print(f'Las muestras de {col1} y {col2} no son significativamente diferentes.')
```varnums = \['sepal-length', 'sepal-width', 'petal-length', 'petal-width']for col1 in varnums:  for col2 in varnums:    if col1 != col2:      f\_stat, p\_value = f\_oneway(iris\[col1], iris\[col2])      print(f'\n\nPrueba F para "{col1}" y "{col2}": ')      print(f'Stat = {f\_stat}, p\_value = {p\_value}')      if p\_value < 0.05:        print(f'Las muestras de {col1} y {col2} son significativamente diferentes.')      else:        print(f'Las muestras de {col1} y {col2} no son significativamente diferentes.')

Daniel Andres Rojas Paredes

student•

creo que hay una confucion y es que ella dice que en t test hay que comparar el valor t con el valor p y no es asi para nada.

anova y test se diferencian en que test es comparacion entre 2 muestras y anova entre mas de 2 muestras, esto implica que para el anova la hipotesis alternativa no necesariamente es la negacion de la hypotesis nula . pero en ambos casos t es la medida de la diferencia entre las medias y p la probabilidad de tener 2 medias con esa diferencia (obtener el valor t) si esas 2 medias pertenecen a la misma distribusion poblacional (teorema del valor medio) en el t test si se rechaza la hipotesis nula se esta diciendo vea esta muestra biene de una distribucion poblacional diferente a esta muestra entonces son poblaciones diferentes.

Marcela Villa Marulanda

student•

Jorge Guevara

student•

¿Van a actualizar esta clase con base en los comentarios de los compañeros?

Ricardo Gomez

student•

Ejercicio

Mauricio Gonzalo Aliendre Pérez

student•

Una pregunta,hice el reto con las dos variables sepal-length y petal-length, obtuve los siguientes resultados:

Según las prueba de correlación y coeficiente de Pearson, se aceptaría la hipótesis nula
Según la prueba ANOVA se rechazaría la hipótesis nula y se aceptaría la hipótesis alternativa

| Eso quiere decir que ambas variables estan correlacionadas pero no tienen la misma media? y si es así ya no se aceptaría la hipótesis nula? |

| Gracias de antemano por la respuesta 😄

Jesus Esteban Cuentas Villanueva

student•

Según he visto buscando info por otras fuentes: ANOVA nos indica si las medias de dos distribuciones son similares o no, mientras que pearson nos muestra la correlación. De ser así, los resultados serían correctos ya que existe una correlación entre ambas variables pero sus medias son diferentes. MEDIAS:

CORRELACIÓN:

Espero te sirva. Y si alguien tiene otra info sería de ayuda.

nicolas garzon

student•

solo un comentario, nunca se acepta la hipótesis alterna las pruebas solo nos hablan del rechazo o la aceptación de la hipótesis nula

Antonio Demarco Bonino

student•

Otro ejercicio que dio gusto hacer:

iris['sepal-length'].corr(iris['petal-length'])

0.8717541573048718

st.pearsonr(iris['sepal-length'],iris['petal-length'])

(0.8717541573048713, 1.0384540627941062e-47)

f_oneway(iris['sepal-length'],iris['petal-length'])

F_onewayResult(statistic=171.59701800168915, pvalue=2.829733863736772e-31)

Fabio Alvarez

student•

Video que explica muy bien ANOVA:

from scipy.stats import normaltest
def probar(df):
  S,p = normaltest(df)
  alfa = 0.05
  print('p =',p)
  if p<alfa:
    print('No existen evidencias estadísticas para suponer normalidad')
  else:
    print('Existen evidencias estadísticas para suponer normalidad')
  return p

probar(iris['sepal_width'])

from scipy.stats import levene
alfa = 0.05
stat,p = levene(iris['sepal_length'],iris['sepal_width'])
print('p=',p)
if p<alfa:
    print('No existen evidencias estadísticas para suponer igualdad de varianza ')
else:
    print('Existen evidencias estadísticas  para suponer igualdad de varianza') 

varnums = ['sepal-length', 'sepal-width', 'petal-length', 'petal-width']
for col1 in varnums:
  for col2 in varnums:
    if col1 != col2:
      f_stat, p_value = f_oneway(iris[col1], iris[col2])
      print(f'\n\nPrueba F para "{col1}" y "{col2}": ')
      print(f'Stat = {f_stat}, p_value = {p_value}')
      if p_value < 0.05:
        print(f'Las muestras de {col1} y {col2} son significativamente diferentes.')
      else:
        print(f'Las muestras de {col1} y {col2} no son significativamente diferentes.')
```varnums = \['sepal-length', 'sepal-width', 'petal-length', 'petal-width']for col1 in varnums:  for col2 in varnums:    if col1 != col2:      f\_stat, p\_value = f\_oneway(iris\[col1], iris\[col2])      print(f'\n\nPrueba F para "{col1}" y "{col2}": ')      print(f'Stat = {f\_stat}, p\_value = {p\_value}')      if p\_value < 0.05:        print(f'Las muestras de {col1} y {col2} son significativamente diferentes.')      else:        print(f'Las muestras de {col1} y {col2} no son significativamente diferentes.')

Análisis de Correlación y ANOVA en Python

Fundamentos de estadística inferencial

Estadística Inferencial para Ciencia de Datos e IA

Componentes Básicos de la Estadística

Distribución Normal: Conceptos y Ejemplos Prácticos

Tipos de Muestreo y Teorema del Límite Central

Funciones de muestra en Python: aleatorio y sistemático

Muestreo Estratificado: Creación y Aplicación en Python

Estadísticos y cálculos

Cálculo de la Media Muestral y Conceptos de Estadística Básica

Diferencias entre varianza y desviación estándar muestral y poblacional

Varianza y Desviación Estándar Automatizadas en Python

Intervalos de Confianza en Estadística y Ciencia de Datos

Cálculo de Intervalos de Confianza paso a paso

Cálculo y visualización de intervalos de confianza en Python

Pruebas de hipótesis y validación

Pruebas de Hipótesis en Ciencia de Datos e Inteligencia Artificial

Pruebas de Hipótesis: Test-Student, Pearson y ANOVA

Errores Tipo I y II en Pruebas de Hipótesis

Pruebas de Hipótesis con Python: Distribución t de Student

Análisis de Correlación y ANOVA en Python

Técnica de Bootstrapping para Muestras Pequeñas

Bootstrapping y Remuestreo en Python: Automatización Práctica

Validación Cruzada en Modelos de Inteligencia Artificial

Automatización de Validación Cruzada en Python para Modelos Predictivos

Cierre del curso

Estadística para Ciencia de Datos y Machine Learning