Modelos de Regression Multiple
- Modelo 1: Peso de los pinguinos vs longitud del pico
model_1 = (
smf.ols(
formula='body_mass_g ~ bill_length_mm',
data=preprocessed_penguins_df
)
.fit()
)
model_1.summary() #descripcion del modelo
De la variable independiente bill_length vemos que la pendiente es de 86.79 lo que indica que por cada cambio en milimetro de longitud del pico se genera un cambio de 86 gramos en el peso.
- Modelo 2: Peso del pinguino vs longitud del pico, ancho del pico
model_2 = (
smf.ols(
formula='body_mass_g ~ bill_length_mm + bill_depth_mm',
data=preprocessed_penguins_df
)
.fit()
)
model_2.summary()
El valor que relaciona el peso con la longitud del pico cambia a 74.81. Por otro lado, la variable bill_depth indica que cada cambio en milimetros del ancho del pico genera un cambio de perdida de peso en 145 gr
- Modelo 3: Peso de los pinguinos vs longitud del pico, ancho del pico, longitud de las alas
model_3 = (
smf.ols(
formula='body_mass_g ~ bill_length_mm + bill_depth_mm + flipper_length_mm',
data=preprocessed_penguins_df
)
.fit()
)
model_3.summary()
El valor que relaciona el peso con la longitud del pico vuelve a cambiar siendo cada vez mas pequeño. El valor que relaciona el pecho con el ancho se vuelve pequeño y positivo. El valor de relacion entre las alas y el peso es de 50. 76 teniendo mayor relevancia.
Debemos tener en cuenta el R cuadrado de cada modelo ya que es un indicador de la variabilidad obtenida por las variables contrastadas. A mayor R cuadrado, se captura mejor el comportamiento de las variables. En el primer modelo es muy bajo (0.34). En el tercer modelo es de 0.76 lo que indica que captura mejor la variabilidad de los datos
- Modelo 4: Peso de los pinguinos vs longitud del pico, ancho del pico, longitud de las alas, sexo del pinguino donde sexo es de tipo categorica
model_4 = (
smf.ols(
formula='body_mass_g ~ bill_length_mm + bill_depth_mm + flipper_length_mm + C(sex)',
data=preprocessed_penguins_df
)
.fit()
)
model_4.summary()
La R cuadrado es cada vez mayor lo que indica que este ultimo modelo captura mucho mejor el comportamiento de las variables. El valor de la pendiente para la variable sexo indica que los macho pesan 541 gr mas que las hembras
- Modelo 5: Un modelo mientras mas sencillo mejor. Se debe contrastar aquellas variables que esten mas relacionadas con la variable objetivo; Esto ayuda a disminuir el error de los modelos y mejorar su efectividad de prediccion. Peso del pinguino vs longitud de las alas, sexo
model_5 = (
smf.ols(
formula='body_mass_g ~ flipper_length_mm + C(sex)',
data=preprocessed_penguins_df
)
.fit()
)
model_5.summary()
Efectivamente, la relacion entre las alas y el sexo con el pesos del pinguino capturan mejor el comportamiento de los datos (R cuadrado de 0.81)
¿Quieres ver más aportes, preguntas y respuestas de la comunidad?