Introducci贸n al an谩lisis exploratorio de datos

1

驴Qu茅 es y para qu茅 sirve el an谩lisis exploratorio de datos?

2

驴C贸mo hacer un an谩lisis exploratorio de datos?

3

Tipos de an谩lisis de datos

4

Tipos de datos y an谩lisis de variables

5

Herramientas de software para el an谩lisis exploratorio de datos

6

Conociendo nuestros datos: palmerpenguins

7

Recolecci贸n de datos, limpieza y validaci贸n

8

Ejercicio de validaci贸n de datos

Quiz: Introducci贸n al an谩lisis exploratorio de datos

An谩lisis univariado

9

Explorando una variable categ贸rica: conteos y proporciones

10

Estad铆stica descriptiva aplicada: medidas de tendencia central

11

Estad铆stica descriptiva aplicada: medidas de dispersi贸n

12

Ejercicio de obtenci贸n de medidas de dispersi贸n

13

Estad铆stica descriptiva aplicada: distribuciones

14

Estad铆stica descriptiva aplicada: funciones de densidad de probabilidad

15

Bonus: Teorema del l铆mite central

Quiz: An谩lisis univariado

An谩lisis bivariado

16

Estableciendo relaciones: gr谩ficos de puntos

17

Estableciendo relaciones: gr谩ficos de viol铆n y boxplots

18

Estableciendo relaciones: matrices de correlaci贸n

19

Limitantes de los coeficientes de correlaci贸n lineal

20

Estableciendo relaciones: an谩lisis de regresi贸n simple

21

Limitaciones del an谩lisis de regresi贸n simple

Quiz: An谩lisis bivariado

An谩lisis multivariado

22

An谩lisis de regresi贸n m煤ltiple

23

Visualizaci贸n del an谩lisis de regresi贸n m煤ltiple

24

An谩lisis de regresi贸n log铆stica

25

Paradoja de Simpson

26

驴Qu茅 hacer cuando tengo muchas variables?

Quiz: An谩lisis multivariado

Conclusiones

27

Diversidad de gr谩ficas al explorar datos

28

Contin煤a aprendiendo sobre EDA

No tienes acceso a esta clase

隆Contin煤a aprendiendo! 脷nete y comienza a potenciar tu carrera

Limitantes de los coeficientes de correlaci贸n lineal

19/28
Recursos

Aportes 20

Preguntas 3

Ordenar por:

驴Quieres ver m谩s aportes, preguntas y respuestas de la comunidad?

o inicia sesi贸n.

El c贸digo que corresponde a El coeficiente de correlaci贸n no nos habla del impacto de la relaci贸n

np.random.seed(42)
x1 = np.linspace(0,100,100)
y1 = 0.1* x1 +3 + np.random.uniform(-2,2,size=x1.size)

sns.scatterplot(x=x1, y=y1)


x2 = np.linspace(0,100,100)
y2 = 0.5* x1 +1 + np.random.uniform(0,60,size=x2.size)

sns.scatterplot(x=x2, y=y2)

plt.legend(["1","2"])

print(np.corrcoef(x1,y1))
print(np.corrcoef(x2,y2))

No sab铆a que el coeficiente de Pearson era solo para relaci贸n lineal entre variables. Esto me hace re-pensar la forma en que he dise帽ado y analizado los resultados de muchas investigaciones.

Limitantes del Coeficiente de Correlacion

Solo nos ayuda a determinar la posible existencia de una correlaci贸n lineal; sin embargo, su ausencia no significa que no exista otro tipo de correlaci贸n.

  • Cuando la distribucion tiene un comportamiento cuadratico el coeficiente no logra detectar esa correlacion.
  • Cuando la distribucion tiene un comportamiento cubico, el coeficiente detecta la correlacion simulando que es una linea recta donde se compensa los valores por lo que hace una lectura erronea del panorama
  • Siempre visualiza los datos.
  • El coeficiente de correlacion no nos habla del impacto de la relacion. Un coeficiente de correlacion mas alto que otro no significa que la relacion entre las variables sea mejor o que el aporte al negocio de la correlacion mas alta sea mejor

Peque帽o an谩lisis que hice 馃槂, espero sus aportes para mejorarlo uwu

Teniendo en cuenta el an谩lisis anterior que realizamos sobre las correlaciones de las variables

Nos enfocamos en la correlaci贸n negativa que surge entre las variables bill_length_mm y bill_depth_mm.


Si graficamos las variables en un diagrama de dispersi贸n, nos encontramos con una dispersi贸n que aparenta una tendencia a una correlaci贸n inexistente.

Teniendo en cuenta que estamos frente a un gr谩fico donde se presentan 3 variables categ贸ricas que no fueron clasificadas (sexo del ping眉ino, especie e isla donde habita), analizaremos el gr谩fico clasificando los ping眉inos por especie

Clasificadas las variables podemos analizar que si existe correlaci贸n alguna que aparenta ser de tipo lineal entre las variablesbill_length_mm y bill_depth_mm.


Vista la nueva evidencia volveremos a analizar los 铆ndices de correlaciones de cada especie.

Vista la nueva gr谩fica vemos un cambio notable en las correlaciones entre las variables, quedando en su mayor铆a correlaciones positivas y destacando de todas el a帽o, que en las tres especies aparenta ser una correlaci贸n nula

Las variables que anteriormente mencionamos bill_length_mm y bill_depth_mm, ahora tienen una correlaci贸n positiva alta tanto en las especies Gentoo y Chinstrap, pero destaca la especie Adelie que tiene una correlaci贸n un poco menor que las otras especies

Pasaremos a analizar m谩s a fondo la especie Adelie, ya que no parece seguir el patron normal que tienen las otras especies. El an谩lisis de correlaciones se enfocar谩 en la especie Adelies separados por isla.

Comparando los Adelie que habitan la isla Torgersen y Dream podemos ver que tienen una correlaci贸n similar entre sus variables

Pero destacan los Adelie en la isla Biscoe que presentan una correlaci贸n positiva fuerte entre la variable bill_length_mm y las dem谩s variables, pero una correlaci贸n negativa sobre la combinaci贸n de la variable bill_depth_mm .

Concluimos que:

  • la correlaci贸n negativa que obtuvimos del an谩lisis en conjunto de los ping眉inos, surgen en la especie Adelie que habita la isla Biscoe.
  • La especie Adelie de las islas Biscoe presentan correlaciones positivas fuertes que son semejantes a las que vimos en otras especies, en variables que su misma especie no presenta correlaciones tan altas.
  • La especie Adelie de las islas Biscoe presenta correlaciones negativas altas en la variable bill_depth_mm, lo cual es contrario a sus vecinos de la misma especie
    • Suponemos que este factor g茅nero la correlaci贸n negativa en el an谩lisis en conjunto de los ping眉inos

El scatterplot que vemos aqu铆 est谩 correlacionando los datos 鈥渂ill_length_mm鈥, y 鈥渂ill_depth_mm鈥 de TODO el dataframe que llamamos 鈥減rocessed_penguins_df鈥. Recordemos que en este dataframe est谩n involucrados 3 clases diferentes de pinguinos, [鈥楢delie鈥, 鈥楪entoo鈥, 鈥楥hinstrap鈥橾, y todos los datos de las 3 especies se est谩n mezclando entre s铆 en un mismo scatterplot por lo cual tiene sentido el caos que se est谩 creando en la gr谩fica de distribucion.

Aqu铆 les dejo el codigo que muestra la correlacion de cada especie en tres gr谩ficos independientes uno al lado del otro donde se puede apreciar m谩s claramente la correlacion que tienen los datos鈥

 
sns.FacetGrid(
    processed_penguins_df, 
    col = 'species', 
    hue= 'species'
    ).map(sns.scatterplot,
        'bill_length_mm',
        'bill_depth_mm',
        alpha= 1/2,
        s= 100
        )

Otros coeficientes de relaci贸n:

Coeficiente de correlaci贸n de Pearson

Mide la relaci贸n lineal entre dos variables continuas. Var铆a entre -1 y 1, donde 1 indica una correlaci贸n positiva perfecta, 0 indica no correlaci贸n y -1 indica una correlaci贸n negativa perfecta. Funciona mejor para relaciones lineales.

Coeficiente de correlaci贸n de Spearman

Mide la relaci贸n monot贸nica entre dos variables continuas u ordinales. Var铆a entre -1 y 1, donde 1 indica una correlaci贸n positiva perfecta, 0 indica no correlaci贸n y -1 indica una correlaci贸n negativa perfecta. Funciona mejor para relaciones no lineales o variables ordinales.

Coeficiente de determinaci贸n (R-squared)

Mide la proporci贸n de la varianza en una variable que puede ser explicada por otra variable. Var铆a entre 0 y 1, donde 0 indica que la variable explicativa no explica la variaci贸n en la variable de respuesta y 1 indica que la variable explicativa explica toda la variaci贸n en la variable de respuesta. Funciona mejor para relaciones lineales.

Coeficiente de correlaci贸n de Kendall

Mide la relaci贸n ordinal entre dos variables. Var铆a entre -1 y 1, donde 1 indica una correlaci贸n positiva perfecta, 0 indica no correlaci贸n y -1 indica una correlaci贸n negativa perfecta. Funciona mejor para relaciones no lineales o variables ordinales.

Coeficiente de correlaci贸n de Point-Biserial

Mide la relaci贸n entre una variable binaria y una variable continua. Var铆a entre -1 y 1, donde 1 indica una correlaci贸n positiva perfecta, 0 indica no correlaci贸n y -1 indica una correlaci贸n negativa perfecta. Funciona mejor para relaciones lineales.

Coeficiente de correlaci贸n de Phi

Mide la relaci贸n entre dos variables binarias. Var铆a entre -1 y 1, donde 1 indica una correlaci贸n positiva perfecta, 0 indica no correlaci贸n y -1 indica una correlaci贸n negativa perfecta. Funciona mejor para relaciones no lineales o variables nominales.

Coeficiente de correlaci贸n de Cramer

Mide la relaci贸n entre dos variables nominales. Var铆a entre 0 y 1, donde 0 indica no correlaci贸n y 1 indica una correlaci贸n perfecta. Funciona mejor para relaciones no lineales o variables nominales.

El gr谩fico cambian bastante cuando segmentamos nuestros datos por especie.

Amor Seaborn 驴Por qu茅? Velo tu mismo鈥

sns.scatterplot(
    data=neo_pre_df_peng,
    x='bill_length_mm',
    y='bill_depth_mm',
    hue='species',
    style='island'
)

print(np.corrcoef(x,y))
plt.show()

The code np.random.normal(0, 1000, x.size) generates a NumPy array of random numbers drawn from a normal (Gaussian) distribution with mean 0 and standard deviation 1000, with the size of the array being the same as the size of the input array x. In other words, it generates an array of random noise with the same shape as x. This can be useful for adding random variations or 鈥渘oise鈥 to a dataset.

Limitantes del coeficiente de correlacipon lineal de Pearson:

  • No contempla otro tipo de correlaci贸n que no sea lineal, es decir puede existir una correlaci贸n no lineal y no ser谩 detectado.

  • Se pueden obtener coeficientes altos y no significa en todos los casos una relaci贸n lineal. Ej. Relaci贸n de funci贸n c煤bica.

  • No habla del impacto de la correlaci贸n. Puede exitir una correlaci贸n con mayor impacto para nuestro modelo de negocio, y tener un coeficiente moderado.

  • En todo caso se recomienda siempre visualizar los datos para hacer un mejor an谩lisis con este coeficiente de correlaci贸n.

Buen curso pero hay muchas cosas que se repiten de otros cursos y entonces jajaja aburre tener que repetirlos pero bien 馃槂

19. Limitantes de los coeficientes de correlaci贸n lineal

Hasta el momento, por la representaci贸n gr谩fica no creo que haya una correlaci贸n lineal entre la longitud y profundidad del pico.

Los coeficientes de correlaci贸n lineal, como el coeficiente de correlaci贸n de Pearson, son 煤tiles para medir la relaci贸n lineal entre dos variables num茅ricas. Sin embargo, tienen algunas limitaciones y existen otros tipos de correlaci贸n que pueden abordar estas limitaciones. A continuaci贸n, se presentan los principales tipos de correlaci贸n y sus ventajas y desventajas:

  1. Correlaci贸n de Pearson:
    • Ventajas:
      • F谩cil de calcular e interpretar.
      • Proporciona informaci贸n sobre la fuerza y la direcci贸n de la relaci贸n lineal entre variables.
    • Desventajas:
      • Solo mide la relaci贸n lineal, por lo que puede no capturar relaciones no lineales entre variables.
      • Sensible a los valores at铆picos y a las distribuciones no normales.
  2. Correlaci贸n de Spearman:
    • Ventajas:
      • Mide la relaci贸n mon贸tona entre dos variables, no solo la relaci贸n lineal.
      • No asume una distribuci贸n espec铆fica de los datos.
    • Desventajas:
      • No captura relaciones no mon贸tonas entre variables.
      • No es adecuada para variables continuas que tienen distribuciones normales.
  3. Correlaci贸n de Kendall:
    • Ventajas:
      • Mide la relaci贸n de concordancia y discordancia entre variables.
      • No asume una distribuci贸n espec铆fica de los datos.
    • Desventajas:
      • No captura relaciones no mon贸tonas complejas entre variables.
      • Menos potente que la correlaci贸n de Pearson o Spearman.
  4. Correlaci贸n de punto biserial:
    • Ventajas:
      • Mide la relaci贸n entre una variable dicot贸mica y una variable continua.
      • Proporciona informaci贸n sobre la asociaci贸n entre una variable binaria y una variable num茅rica.
    • Desventajas:
      • Solo es aplicable cuando una de las variables es dicot贸mica.
  5. Correlaci贸n de phi:
    • Ventajas:
      • Mide la relaci贸n entre dos variables dicot贸micas.
      • Proporciona informaci贸n sobre la asociaci贸n entre variables binarias.
    • Desventajas:
      • Solo es aplicable cuando ambas variables son dicot贸micas.

Es importante seleccionar el tipo de correlaci贸n adecuado seg煤n las caracter铆sticas de las variables y la naturaleza de la relaci贸n que se busca capturar. En algunos casos, tambi茅n es recomendable utilizar t茅cnicas de visualizaci贸n y an谩lisis exploratorio para comprender mejor la relaci贸n entre las variables antes de aplicar medidas de correlaci贸n.

np.random.seed(42)
x1 = np.linspace(0,100,100)
y1 = 0.1* x1 +3 + np.random.uniform(-2,2,size=x1.size)

sns.scatterplot(x=x1, y=y1)


x2 = np.linspace(0,100,100)
y2 = 0.5* x1 +1 + np.random.uniform(0,60,size=x2.size)

sns.scatterplot(x=x2, y=y2)

plt.legend(["1","2"])

print(np.corrcoef(x1,y1))
print(np.corrcoef(x2,y2))

  • Hay una correlaci贸n moderada y positiva entre bill_length_mm y bill_depth_mm. Esto significa que a medida que una variable aumenta, la otra variable tambi茅n tiende a aumentar. Sin embargo, la correlaci贸n no es muy fuerte, lo que sugiere que estas dos variables no est谩n muy estrechamente relacionadas y que pueden haber otros factores que influyan en su comportamiento.

Aqui esta el codigo del heatmap para cada especie por separado

import seaborn as sns
import matplotlib.pyplot as plt

Cargar datos de ejemplo de pinguinos

df = sns.load_dataset(鈥榩enguins鈥)

Filtrar el dataframe por especie y crear un heatmap para cada especie

species = [鈥楢delie鈥, 鈥楪entoo鈥, 鈥楥hinstrap鈥橾
fig, axs = plt.subplots(1, len(species), figsize=(12, 5))

for i, s in enumerate(species):
filtered_df = df[df[鈥榮pecies鈥橾 == s]
heatmap = sns.heatmap(filtered_df.corr(), annot=True, cmap=鈥榗oolwarm鈥, ax=axs[i])
heatmap.set_title('Pinguinos 鈥 + s)
heatmap.set_xticklabels(heatmap.get_xticklabels(), rotation=45, ha=鈥榬ight鈥)

plt.tight_layout()
plt.show()

Lo digo porque en esta ruta ya he visto 4 veces un tema

Se hace una revisi贸n general de variables, donde se encuentran algunas correlaciones altas como body_mass_g con flipper_length_mm del 87%.

Debido a que en la revisi贸n general de datos con scatterplot para bill_depth_mm vs bill_length_mm se tienen dispersiones de puntos que siguen un patr贸n de acuerdo a la especie, se decide hacer el an谩lisis por especie, continuando la revisi贸n de scatterplot de las variables bill_depth_mm vs bill_length_mm. Se adicionan mapas de calor para verificar correlaciones entre datos por especies, teniendo que la especie Gentoo tiene mayores correlaciones, seguido de Chinstrap y finalmente Adelie con las menores correlaciones entre dimensiones de los pinguinos.


creo que no hay una correlaci贸n ,por que todav铆a o lo hemos segmentado si los llegamos a segmentar por especies si se ve una correlaci贸n positiva

Correlaciones lineales y no lineales