Los videos de Ligdi Gonzalez son geniales!! Ella explica muy bien y claro también!! Sería bueno tenerla como profe en Platzi!
He visto varios videos de ella, es muy buena en el tema.
Graficando la tabla
x= np.array([1.2,2,3.2,2.5,5,6,4,8])y= np.array([2,3,3.4,3.1,4,4.7,3.8,7])fig, ax = plt.subplots()plt.scatter(x,y, color ='lightcoral', alpha=0.6)ax.set_xlabel('x',fontsize=16)ax.set_ylabel('y',fontsize=16)plt.show()
La regresión lineal permite explicar la relación de una variable dependiente (y), con respecto a otras variables independiente (x), en el caso del ejemplo: gasto en publicidad vs ventas. Permite explicar como se afecta la variable dependiente por los cambios que tenga la variable independiente. Para su representación se utilizan gráficos de dispersión e histogramas.
Información resumida de esta clase
#EstudiantesDePlatzi
Debemos tener la habilidad de modelar funciones, es decir, tener un problema y entender que función debemos usar para generalizar un proceso
Los científicos de datos somos bastante inteligentes y brillantes
Para medir que tan eficiente es nuestro modelo predictivo, utilizamos otro tipo de funciones llamadas funciones de error
Video para complementar la clase, yo lo vería antes de ver esta clase (esto es un link)
.
Regresión Lineal Simple📝💚 :
La regresión lineal es un modelo matemático que describe la relación entre varias variables. La representación gráfica de la regresión lineal simple es un gráfico de dispersión. Los modelos de regresión lineal son un procedimiento estadístico que ayuda a predecir el futuro. Se utiliza en los campos científicos y en los negocios, y en las últimas décadas se ha utilizado en el aprendizaje automático. Aunque La regresión lineal no sólo se utiliza con fines de predicción: también ha demostrado su eficacia para describir sistemas.
La tarea de la regresión en el aprendizaje automático consiste en predecir un parámetro (Y) a partir de un parámetro conocido X.
En una regresión lineal simple, se trata de establecer una relación entre una variable independiente y su correspondiente variable dependiente. Esta relación se expresa como una línea recta. No es posible trazar una línea recta que pase por todos los puntos de un gráfico si estos se encuentran ordenados de manera caótica. Por lo tanto, sólo se determina la ubicación óptima de esta línea mediante una regresión lineal. Algunos puntos seguirán distanciados de la recta, pero esta distancia debe ser mínima. El cálculo de la distancia mínima de la recta a cada punto se denomina función de pérdida.
Hay dos ecuaciones que representan la regresión lineal (de forma independiente):
Y= β₀ + β₁X+ ε
donde:
Y es la variable dependiente.
X es la variable independiente.
β₀ es el coeficiente de sesgo o la intersección de la línea de regresión con el eje Y cuando X es igual a cero.
β₁ es el coeficiente de la variable X, que representa la pendiente de la línea de regresión.
ε es el término de error o el error residual.
.
Y= mx + b
Donde:
y es la variable dependiente.
x es la variable independiente.
m es el coeficiente de la variable x, que representa la pendiente de la línea de regresión.
b es el coeficiente de sesgo o la intersección de la línea de regresión con el eje y cuando x es igual a cero.
.
El término de error residual, ε, el cual solo aparece en al primera ecuación, que representa la discrepancia entre los valores reales de Y y los valores predichos por el modelo de regresión, no se incluye directamente en esta ecuación. Sin embargo, el error residual está implícitamente presente en la diferencia entre los valores reales de Y y los valores predichos por la ecuación "Y = mx + b".
Los videos de este tema del canal dot csv son geniales
Llamaremos modelo de regresión lineal simple a un modelo
en donde se liga a dos variables y a un término de
perturbación aleatoria mediante una relación lineal. De
forma genérica, el modelo de regresión simple es de la
forma
Y t=a+b*X t+ut
En donde t toma valores desde t={1,2,3,...,T}, Yt es la
variable que queremos explicar, y que llamaremos variable
endógena, Xt es una variable genérica, que denominaremos
variable exógena y es la encargada de explicar el
comportamiento de la variable endógena, a y ß son los
parámetros del modelo y ut es la perturbación aleatoria del
modelo. A la expresión (2) se le denomina recta de
regresión poblacional
En consecuencia, el volumen de datos con los que vamos a
trabajar viene dado por los datos correspondientes a las
variables Yt y Xt cuya representación gráfica se puede
realizar mediante en diagrama de dispersión.
a primeras con lo que entendi trate de hacer uno para encontrar la mas optima con base a un rango de error aceptable o n interaciones
les dejo el codigo
import random
import matplotlib.pyplot as plt
import numpy as np
x = np.array([1.2,2,3.2,2.5,5,6,4,8])y = np.array([2,3,3.4,3.1,4,4.7,3.8,7])m =1b =1valid_err =1.5err_ant =1000best =[m, b]deff(x):return m*x + b
deferror(y_hat):return np.sum((y - y_hat)**2)n =100for i inrange(n): y_hat = f(x) err = error(y_hat)print(f"b: {round(b,2)} m: {round(m,2)} error: {round(err,2)}")if err < err_ant: best =[m, b]else: m = best[0]+ random.uniform(-0.1,0.1) b = best[1]+ random.uniform(-0.1,0.1) err_ant = err
if err < valid_err:print("r: ",round(m,2),round(b,2))breakm, b = best
y_hat = f(x)err = error(y_hat)print(f"b: {round(b,2)} m: {round(m,2)} error: {round(err,2)}")xo = x.copy()xo.sort()yo = f(xo)plt.scatter(x, y)plt.plot(xo, yo, color='red')plt.show()
para calcularl la pendiente de la ecuación de la recta en un modelo de regresión lineal se calcula como la relación entre la covariancia de las variables y la varianza de la variable independiente. Esto se explica mejor en otras clases del curso se Estadistica descrptiva para Data Science de Platzi (muy recomendado).
La regresión lineal es un método estadístico que se utiliza para modelar la relación entre una variable dependiente y una o más variables independientes. Se basa en la suposición de que esta relación es lineal, lo que significa que se puede representar mediante una línea recta en un gráfico. Este método se utiliza comúnmente en ciencia de datos para hacer predicciones y análisis, siendo fundamental para entender cómo cambian las variables en función de otras. En el contexto de la clase, se aprenderá a calcular y evaluar la regresión lineal aplicando herramientas matemáticas y estadísticas.
en el ejemplo no sería mejor usar una function polinómica?
El tipo de función presentada, la función lineal, es polinómica. Ahora, si te refieres a usar una función polinómica más compleja para que el error sea menor, entiendo que es algo más avanzado y se requiere primero comprender la regresión lineal simple.
Sí y no. Cuando queremos una curva que literalmente pase por todos los puntos se llama Interpolación. Cumple con su tarea, pero no siempre nos permite predecir cómo se seguirán comportando los datos, o tan siquiera entre dos puntos que ya tenemos. En el contexto de Machine Learning a esto se le denomina Overfitting. Para este punto, el utilizar una línea recta cumple con todo lo que estamos buscando.
Que curioso el uso de regresion lineal. Sera interesante usarlo con datos reales y ver el margen de error.
Que buena explicacion introductoria a la regresion lineal.