Modelo 1: Peso de los pinguinos vs longitud del pico
model_1 =( smf.ols( formula='body_mass_g ~ bill_length_mm', data=preprocessed_penguins_df
).fit())model_1.summary()#descripcion del modelo
!
De la variable independiente bill_length vemos que la pendiente es de 86.79 lo que indica que por cada cambio en milimetro de longitud del pico se genera un cambio de 86 gramos en el peso.
Modelo 2: Peso del pinguino vs longitud del pico, ancho del pico
El valor que relaciona el peso con la longitud del pico cambia a 74.81. Por otro lado, la variable bill_depth indica que cada cambio en milimetros del ancho del pico genera un cambio de perdida de peso en 145 gr
Modelo 3: Peso de los pinguinos vs longitud del pico, ancho del pico, longitud de las alas
El valor que relaciona el peso con la longitud del pico vuelve a cambiar siendo cada vez mas pequeño. El valor que relaciona el pecho con el ancho se vuelve pequeño y positivo. El valor de relacion entre las alas y el peso es de 50. 76 teniendo mayor relevancia.
!
Debemos tener en cuenta el R cuadrado de cada modelo ya que es un indicador de la variabilidad obtenida por las variables contrastadas. A mayor R cuadrado, se captura mejor el comportamiento de las variables. En el primer modelo es muy bajo (0.34). En el tercer modelo es de 0.76 lo que indica que captura mejor la variabilidad de los datos
Modelo 4: Peso de los pinguinos vs longitud del pico, ancho del pico, longitud de las alas, sexo del pinguino donde sexo es de tipo categorica
La R cuadrado es cada vez mayor lo que indica que este ultimo modelo captura mucho mejor el comportamiento de las variables. El valor de la pendiente para la variable sexo indica que los macho pesan 541 gr mas que las hembras
Modelo 5: Un modelo mientras mas sencillo mejor. Se debe contrastar aquellas variables que esten mas relacionadas con la variable objetivo; Esto ayuda a disminuir el error de los modelos y mejorar su efectividad de prediccion. Peso del pinguino vs longitud de las alas, sexo
Efectivamente, la relacion entre las alas y el sexo con el pesos del pinguino capturan mejor el comportamiento de los datos (R cuadrado de 0.81)
Gracias por el código, pero veo que tomaste el dataframe que no era. El profe trabaja sobre el dataframe processed_penguins_df.
Muchas gracias por el aporte.
No me quedaba del todo claro el tema, así que encontré estos artículos que explican detalladamente cómo leer Regresión lineal múltiple y cómo Aplicar regresión Lineal múltiple
Espero sea de utilidad
👾✨
no me gusta deep note hay que andar agregando celdas de texto manual y no puedes editar los short cuts ademas no es como colab que encapsula los temas y subtemas
Comparto la misma idea, te recomendaria jupyter notebook, es un buen entorno y mi favorito para programar en python en cuanto IA , Data y ML se refiere, pero colab no esta nada mal
Tal cual, aparte es lento.
jajaja olvidé mi báscula. ¿porqué hice eso?, te estarás preguntando, cosas que suceden jajajaja
Analisis de Regresion Multiple
Permite establecer relacion entre multiples variables. Es capaz de detectar comportamientos no lineales. Ademas, permite deducir si la relacion entre las variables puede ser la causa del comportamiento de la variable objetivo.
¿Que simboliza el r-squared?
Se le llama coeficiente de determinación (R2), es una medida estadística que determina que tan relacionadas esta un conjunto de datos (X) con una variable objetivo (y) ,este varía entre 0 y 1 , mientras más cerca a 1 el modelo de regresión ( el cual muchas veces es una ecuación) es mejor, por ende mientras más cerca a 0 sea este valor ,peor resulta este modelo, se usa bastante en modelos de Machine Learning para comparar diferentes modelos y elegir el que mejor encaje con los datos.
Gracias por la respuesta. Tambien tenia la duda!
El análisis de regresión múltiple es una técnica estadística utilizada para modelar la relación entre una variable de respuesta o dependiente y dos o más variables predictoras o independientes. A diferencia del análisis de regresión simple, que utiliza solo una variable predictora, el análisis de regresión múltiple permite analizar cómo dos o más variables predictoras influyen en la variable de respuesta.
El objetivo del análisis de regresión múltiple es crear un modelo matemático que describa la relación entre las variables independientes y la variable dependiente. El modelo se utiliza para predecir los valores de la variable de respuesta en función de los valores de las variables predictoras. Además, el análisis de regresión múltiple puede ayudar a identificar qué variables predictoras son significativas para predecir la variable de respuesta.
En el análisis de regresión múltiple, la variable dependiente debe ser continua, mientras que las variables predictoras pueden ser continuas o categóricas. Se utilizan diferentes técnicas estadísticas para ajustar el modelo de regresión múltiple y estimar los coeficientes de las variables predictoras.
OLSRegressionResults==============================================================================Dep.Variable: body_mass_g R-squared:0.828Model:OLSAdj.R-squared:0.826Method:LeastSquaresF-statistic:405.0Date:Sun,09Apr2023Prob(F-statistic):2.64e-127Time:13:47:55Log-Likelihood:-2470.9No.Observations:342AIC:4952.DfResiduals:337BIC:4971.DfModel:4CovarianceType: nonrobust
======================================================================================== coef std err t P>|t|[0.0250.975]----------------------------------------------------------------------------------------Intercept-1742.7202313.770-5.5540.000-2359.914-1125.526species[T.Chinstrap]-539.686486.942-6.2070.000-710.705-368.668species[T.Gentoo]1492.8283118.44412.6040.0001259.8451725.811bill_length_mm 55.64617.2337.6940.00041.41969.873bill_depth_mm 179.043419.1009.3740.000141.474216.613==============================================================================Omnibus:2.423Durbin-Watson:2.333Prob(Omnibus):0.298Jarque-Bera(JB):2.433Skew:0.204Prob(JB):0.296Kurtosis:2.929Cond.No.827.==============================================================================Notes:[1]StandardErrors assume that the covariance matrix of the errors is correctly specified.
Con las variables flipper_length_mm + sex + species se captura un buen R^2 ajustado
Un total de 0.865
Me costo mucho entender sobre regresión múltiple, dedique más de 3 horas investigando y al fin lo logré, dejo un concepto que encontré y me ayudo mucho:
la regresión múltiple es un método estadístico utilizado para comprender la relación entre una variable dependiente (la que se desea predecir) y dos o más variables independientes (predictoras o explicativas). Esta técnica se utiliza principalmente en análisis predictivos y modelado estadístico.
En la regresión múltiple, se busca entender cómo las variables independientes están relacionadas con la variable dependiente y cómo estas variables independientes, en conjunto, afectan a la variable que se está intentando predecir.
El objetivo es crear un modelo matemático que describa esta relación entre las variables. El modelo de regresión múltiple asume que la variable dependiente es una combinación lineal de las variables independientes, aunque puede haber adaptaciones para casos no lineales.
Para las personas que quieran profundizar y entender mejor los modelos y la parte estadística en sí, les recomiendo el libro econometría de Dawn C. Porter, Damodar N. Gujarati, si bien es enfocado en economía, la parte estadística la explica mejor que muchos libros de estadística y de manera más fácil.
Odie ese libro en mis 3 semestres de econometria, hoy me puse contento que nunca lo tire a la basura hahaha
Si deseo aplicar un modelo pero mi dataset tiene solo variables categóricas
Ya vimos que sí se puede con '+C(var_catg)', en mi caso mejoro mucho el R^2 más que agrupar y reducir la muestra XD y entendí que a mi Modelo le gusta el 'contraste' lo único es que es bueno validar la correlación individual solo por explorar antes de hacer el Modelo.
El análisis de regresión múltiple es una técnica estadística que se usa para entender la relación entre una variable dependiente y múltiples variables independientes. Permite predecir el valor de la variable dependiente basándose en las variables independientes.
Ejemplo: Si deseas predecir el rendimiento académico (variable dependiente) de estudiantes basándote en horas de estudio, asistencia y participación en clase (variables independientes), puedes usar regresión múltiple para analizar cómo cada una influye en el rendimiento.
Esta técnica es fundamental en el análisis multivariado y se utiliza frecuentemente en data science.
Me surgió una duda 🤔 en otros cursos que he hecho, siempre que se quería predecir una variable objetivo por medio de otra u otras variables explicativas, lo que se hacía era hacer la famosa partición del conjunto de datos en Train y Test, ¿por qué aquí no se hizo eso y simplemente ajustamos nuestros datos al modelo de regresión utilizando un método como OLS?
Hola, David 😀
Recuerda que usamos Train y test cuando vamos a entrenar a nuestro conjunto de datos (aplicar Machine learning). En este caso solo estamos buscando que variables se pueden ajustar mejor para predecir otra Body_mass_g
Imagina la función Buscar objetivo en excel, pasamos unos parametros para tratar de encontrar otro.
Espero que la respuesta te sirva y muchas gracias por tu paciencia
El curso tiene un enfoque muy fuerte hacia la aplicación de las técnicas de Análisis Exploratorio de Datos en Python, pero muy poco sobre la teoría en sí misma, que es primordial para entender, fijar y posteriormente poder aplicar el conocimiento (en cualquier plataforma).
Mis expectativas eran mas altas.
Sencillamente 'HERMOSO':
model_5 =( smf.ols( formula ='body_mass_g ~ flipper_length_mm + C(sex)', data = neo_pre_df_peng
).fit())model_5.summary()
Con las variables categóricas sexo y especie es posible lograr una correlación con la masa del pinguino del 84.5%.
Siempre debemos verificar cuán relacionadas están las variables estudiadas. Para identificar problemas de multicolinealidad entre variables, se pueden utilizar varias técnicas:
- *Matriz de Correlación:* Analiza las correlaciones entre variables. Correlaciones altas (cercanas a 1 o -1) pueden indicar multicolinealidad.
- *VIF (Variance Inflation Factor):* Un VIF mayor a 10 sugiere multicolinealidad severa. Calcula el VIF para cada variable en el modelo.
- *Condición de Número:* Evalúa la relación entre los valores propios de la matriz de diseño. Un número condicional alto indica potencial multicolinealidad.
Si detectamos problemas de multicolinealidad, se pueden considerar las siguientes estrategias:
- *Eliminar Variables:* Si hay variables altamente correlacionadas, elimina una de ellas.
- *Transformaciones:* Aplica transformaciones a las variables para reducir la colinealidad.
- *Regresión Ridge:* Utiliza métodos de regularización como la regresión Ridge que penaliza los coeficientes.
- *Análisis de Componentes Principales:* Reduce la dimensionalidad combinando variables correlacionadas en componentes no correlacionados.
este tipo de errores, me hace perder mucho tiempo y no puedo avanzar, no les pasa?
Es que no estás usando una forma distinta de escritura, en tu caso no deberías colocar en paréntesis toda la definición después del signo =. En el caso de la notación indentada, si es válido hacer eso.
Es que estás usando una forma distinta de escritura, en tu caso no deberías colocar en paréntesis toda la definición después del signo =. En el caso de la notación indentada, si es necesario colocar entre paréntesis y hacer uso de los métodos de manera indentada.