Análisis de regresión múltiple

Curso de Análisis Exploratorio de Datos

Contenido del curso

Introducción al análisis exploratorio de datos

Análisis univariado

Análisis bivariado

Análisis multivariado

Conclusiones

Tomar examen

Análisis de regresión múltiple

Jeinfferson Bernal G

Estudiante

Modelos de Regression Multiple

Modelo 1: Peso de los pinguinos vs longitud del pico

model_1 = (
    smf.ols(
        formula='body_mass_g ~ bill_length_mm',
        data=preprocessed_penguins_df
    )
    .fit()
)

model_1.summary()  #descripcion del modelo

De la variable independiente bill_length vemos que la pendiente es de 86.79 lo que indica que por cada cambio en milimetro de longitud del pico se genera un cambio de 86 gramos en el peso.

Modelo 2: Peso del pinguino vs longitud del pico, ancho del pico

model_2 = (
    smf.ols(
        formula='body_mass_g ~ bill_length_mm + bill_depth_mm',
        data=preprocessed_penguins_df
    )
    .fit()
)

model_2.summary()

El valor que relaciona el peso con la longitud del pico cambia a 74.81. Por otro lado, la variable bill_depth indica que cada cambio en milimetros del ancho del pico genera un cambio de perdida de peso en 145 gr

Modelo 3: Peso de los pinguinos vs longitud del pico, ancho del pico, longitud de las alas

model_3 = (
    smf.ols(
        formula='body_mass_g ~ bill_length_mm + bill_depth_mm + flipper_length_mm',
        data=preprocessed_penguins_df
    )
    .fit()
)

model_3.summary()

El valor que relaciona el peso con la longitud del pico vuelve a cambiar siendo cada vez mas pequeño. El valor que relaciona el pecho con el ancho se vuelve pequeño y positivo. El valor de relacion entre las alas y el peso es de 50. 76 teniendo mayor relevancia.

Debemos tener en cuenta el R cuadrado de cada modelo ya que es un indicador de la variabilidad obtenida por las variables contrastadas. A mayor R cuadrado, se captura mejor el comportamiento de las variables. En el primer modelo es muy bajo (0.34). En el tercer modelo es de 0.76 lo que indica que captura mejor la variabilidad de los datos

Modelo 4: Peso de los pinguinos vs longitud del pico, ancho del pico, longitud de las alas, sexo del pinguino donde sexo es de tipo categorica

model_4 = (
    smf.ols(
        formula='body_mass_g ~ bill_length_mm + bill_depth_mm + flipper_length_mm + C(sex)',
        data=preprocessed_penguins_df
    )
    .fit()
)

model_4.summary()

La R cuadrado es cada vez mayor lo que indica que este ultimo modelo captura mucho mejor el comportamiento de las variables. El valor de la pendiente para la variable sexo indica que los macho pesan 541 gr mas que las hembras

Modelo 5: Un modelo mientras mas sencillo mejor. Se debe contrastar aquellas variables que esten mas relacionadas con la variable objetivo; Esto ayuda a disminuir el error de los modelos y mejorar su efectividad de prediccion. Peso del pinguino vs longitud de las alas, sexo

model_5 = (
    smf.ols(
        formula='body_mass_g ~ flipper_length_mm + C(sex)',
        data=preprocessed_penguins_df
    )
    .fit()
)

model_5.summary()

Efectivamente, la relacion entre las alas y el sexo con el pesos del pinguino capturan mejor el comportamiento de los datos (R cuadrado de 0.81)

Sergio Ardila

Estudiante

Gracias por el código, pero veo que tomaste el dataframe que no era. El profe trabaja sobre el dataframe processed_penguins_df.

Ruddy Ramos

Estudiante

Muchas gracias por el aporte.

Eduard Giraldo Martínez

Leandro Tenjo

Naren Fragozo

Roger Christian Cansaya Olazabal

Orlando castellanos

Carlos Isael Ramírez González

Mauro Benito Montoya Arenas

Joaquín Alejandro Domínguez Lozano

Rubén Cuello

FELIX DAVID CORDOVA GARCIA

Jhon Freddy Tavera Blandon

Carlos Mazzaroli

Even Ronald Perez Diaz

Marco Antonio Rivas Roque

Roberth Mafla

David Ricardo Acevedo Madariaga

Uriel Rosero

Alvaro H. Ruiz V.

Luisa Alvarez Bello

David Romero

RIGOBERTO MARTINEZ

Antonio Demarco Bonino

Daniel Esponda

Roberto Fernández Vega

Leo Díaz

Marlon Marin

Análisis de regresión múltiple

Introducción al análisis exploratorio de datos

¿Qué es y para qué sirve el análisis exploratorio de datos?

¿Cómo hacer un análisis exploratorio de datos?

Tipos de análisis de datos

Tipos de datos y análisis de variables

Herramientas de software para el análisis exploratorio de datos

Conociendo nuestros datos: palmerpenguins

Recolección de datos, limpieza y validación

Ejercicio de validación de datos

Análisis univariado

Explorando una variable categórica: conteos y proporciones

Estadística descriptiva aplicada: medidas de tendencia central

Estadística descriptiva aplicada: medidas de dispersión

Ejercicio de obtención de medidas de dispersión

Estadística descriptiva aplicada: distribuciones

Estadística descriptiva aplicada: funciones de densidad de probabilidad

Bonus: Teorema del límite central

Análisis bivariado

Estableciendo relaciones: gráficos de puntos

Estableciendo relaciones: gráficos de violín y boxplots

Estableciendo relaciones: matrices de correlación

Limitantes de los coeficientes de correlación lineal

Estableciendo relaciones: análisis de regresión simple

Limitaciones del análisis de regresión simple

Análisis multivariado

Análisis de regresión múltiple

Visualización del análisis de regresión múltiple

Análisis de regresión logística

Paradoja de Simpson

¿Qué hacer cuando tengo muchas variables?

Conclusiones

Diversidad de gráficas al explorar datos

Continúa aprendiendo sobre EDA