Regresión Lineal con NumPy y Matplotlib en Google Colab

Clase 23 de 24 • Curso de Estadística Computacional con Python

Resumen

La regresión lineal es una herramienta increíblemente poderosa en el mundo de la ciencia de datos y el análisis experimental. Esta técnica matemática permite ajustar un conjunto de datos experimentales a un modelo teórico, que puede o no ser lineal, para descubrir patrones y predecir comportamientos. Ahora, hablemos sobre cómo podemos implementar la regresión lineal utilizando modernas plataformas y librerías de Python que facilitan enormemente este proceso. Incluso si el concepto parece complejo, verás que con las herramientas adecuadas el procedimiento es sorprendentemente accesible.

¿Cómo funciona la regresión lineal?

La regresión lineal toma datos experimentales y los ajusta a una función específica, la cual no necesariamente tiene que ser lineal a pesar del nombre. Es relevante comprender que una función lineal es solo un caso especial dentro de una amplia gama de funciones polinomiales.

Por ejemplo:
- Una función polinómica puede tener términos como x^2 o x^3, además del término lineal x.
- Una línea recta es un polinomio de primer grado, donde sólo hay un término lineal y un término constante.

¿Cómo aplicamos la regresión lineal en Python?

Implementar regresión lineal en Python es sorprendentemente sencillo gracias a librerías especializadas. En lugar de utilizar la terminal, podemos aprovechar plataformas como Colab que nos ofrecen acceso directo a librerías avanzadas sin la necesidad de instalaciones complejas en nuestro ambiente local.

¿Qué es Colab y cómo nos ayuda en la regresión lineal?

Colab es una plataforma que corre en el navegador y permite el uso de librerías de Python como NumPy para realizar cálculos matemáticos avanzados. Aquí está cómo puedes utilizar Colab para la regresión lineal:

Inicia un nuevo notebook de Python 3 en Colab.
Importa NumPy como np para utilizar sus funciones matemáticas.

¿Cómo declaramos variables y realizamos el ajuste?

El primer paso en la regresión lineal es declarar las variables independiente y dependiente. Supongamos que queremos ajustar los datos de un experimento:

Variable independiente X: [0, 1, 2, 3, 4, 5, 6, 7, 8]
Variable dependiente Y: [1, 2, 3, 5, 4, 6, 8, 7, 9]

En NumPy, convertimos estas listas en arrays y usamos la función polyfit para obtener los coeficientes de la mejor curva ajustada a estos datos.

¿Cómo visualizamos los resultados?

Para visualizar los resultados de nuestra regresión lineal, importamos Matplotlib, una librería de Python para graficar.

Realizamos un plot para dibujar la línea de mejor ajuste.
Con la función scatter, mostramos los puntos de los datos experimentales.
Aquí podemos observar cómo se ajusta la línea de regresión a los puntos y cualquier discrepancia con los datos reales.

¿Cómo interpretamos los resultados?

La regresión lineal no solo permite ajustar una línea a los datos, sino también entender la variación en los resultados experimentales. En el mundo real, es común que haya diferencias entre lo que predicen nuestras ecuaciones y lo que observamos en los experimentos. Esta diferencia es crucial para entender la precisión de nuestras teorías y modelos.

El análisis detallado proporcionado por la regresión lineal es fundamental para validar o refutar teorías a través de datos experimentales. Recuerda que este tipo de análisis matemático es una ventana al comportamiento de complejos sistemas en la naturaleza y es imprescindible en campos como la física, la biología y la economía.

Espero que esta explicación te haya sido útil y te anime a experimentar con tus propios datos. La regresión lineal es una poderosa herramienta que, cuando se maneja adecuadamente, puede brindarte una comprensión más profunda del mundo que te rodea. ¡Continúa aprendiendo y explora las posibilidades que Python y la regresión lineal te ofrecen!

Kevin Morales

student•

Algunas librerías de visualización de Python:

Bokeh
Matplotlib
Seaborn
plotly
Altair

Luis Fernando Pedroza Taborda

student•

Excelente aporte Kevin, ya se han estudiado dos librerias.

Francisco Garcia [C6]

student•

Gracias por el aporte, hasta el momento solo he visto Matplotlib y Seaborn.

Carlos José Manosalva

student•

Para evitar la fatiga: https://colab.research.google.com/

José Guadalupe Hernández Rosas

student•

100pre encontrando formas de eficientar

Paola Rodriguez

student•

asi como se puede aproximar con una funcion lineal se puede aproximar con funciones de mayor grado (cuadraticas, cubicas..), con la particularidad que a mayor grado tenemos mejor aproximacion.

en la linea coeffs = np.polyfit(x, y, 1), el 1 se refiere al grado del polinomio, si colocas un 2 tendras los coeficientes para un polinomio del tipo ax**2 + bx + c

Conrado Javier Jiménez Méndez

student•

Y también problemas de sobreajuste.

Xavier Salgado

student•

Cuanta maldad en este mundo, Javier

Alexis Otaño

student•

Desarrolle un guante que en base a la presión ejercida (detectada por un sensor), se calculaba la cantidad de newtons, como matemáticamente se sabe que hay una relación directa entre presión y fuerza, para poder convertirlo directo lo que hice fue ejercer una presión constante con diferentes pesos, y calcule la fuerza ejercida. Luego hice una regresión que resulta ser una logarítmica. Y esa formula es la que implemente en el software para que el mismo calcule la fuerza dada.

Christian Sanclemente

student•

Comparte el código! suena genial

Miguel Andres Rendon Reyes

student•

muy chévere, es un proyecto de la Uni?

Carli Code

teacher•

Amo con mi vida Colab!!! es la mejor herramienta :3

Osvaldo Damián Ruiz

student•

Miguel Torres

student•

Cualquier venta o resultado a tráves del tiempo podría visualizarse como una función lineal para ver si hay crecimiento conforme el tiempo con base en un hisórico.

Miguel Andres Rendon Reyes

student•

Entonces podríamos decir que en dónde se aplica estadística, también se aplica, regresión Lineal?

Ronaldo Carbajal Tapahuasco

student•

Hola! Comparto un código que emula la regresión lineal ; dando la recta que mejor se acople a la nube de datos :D

def operacional_function():
    lista_xi=[]
    lista_yi=[]
    cantidad_de_xi = int(input("Hola, ingresa la cantidad de datos de la variable independiente: "))
    for i in range(cantidad_de_xi):
        xi=float(input("Ingrese el {}) valor de x: ".format(i+1)))
        lista_xi.append(xi)
        yi = float(input("Ingrese la {}) etiqueta:".format(i+1)))
        lista_yi.append(yi)
    sumax=contador(lista_xi)
    sumay=contador(lista_yi)
    mediax=promediador(sumax,len(lista_xi))
    mediay=promediador(sumay,len(lista_yi))
    productoxy=multiplicador(lista_xi,lista_yi)
    suma_cuadrados=cuadrado_de_sumas_x(lista_xi)
    
    n=len(lista_xi)
    
    
    pendiente = ((sumax*sumay)-(n*productoxy)) / (((sumax)**2)-(n*suma_cuadrados))
    print(pendiente)
    bias = mediay-(pendiente*mediax)
    print(bias)
    print("La ecuación de la recta más optimizadora es {}x + {} = y".format(pendiente,bias))
    valori = int(input("Ingrese un valor para predecir con nuestro modelo: "))
    respuesta = (pendiente*valori) + bias
    print("La prediccion es de  {}.".format(respuesta))






def contador(lista_random):
    acumulador=0
    for numero in lista_random:
        acumulador = numero + acumulador
    return acumulador

def promediador(suma,n_datos):
    media=suma/n_datos
    return media

def multiplicador(lista1,lista2):
    acumulador=0
    for i in range(len(lista1)):
        acumulador = acumulador + lista1[i]*lista2[i]
    return acumulador

def cuadrado_de_sumas_x(lista):
    acumulador = 0
    for numero in lista:
        acumulador = acumulador + numero**2
    return acumulador



if __name__ == "__main__":
    print("Hola, calcularemos una recta que se adecua a la nube de puntos de un problema de regresion lineal")
    operacional_function()

Walter Alvarado

student•

genial quisiera que en la universidad me hubiesen enseñado estadística con python y colab

Deyvi Jhonny Bustamante Perez

student•

si, tienes razón, en la universidad es muy mecánico.

Oyarzabal Ivan

student•

El consumo de gasolina en un auto con respecto a los kilometros recorridos, o su velocidad

Cesar Alejandro Rodriguez Castilo

student•

David,

Defnitivamente explicas muy bien.

Excelente !!!

Miguel Ángel Arévalo Andrade

student•

No existe la palabra polinominial, es polinomial.

Gonzalo Gramaglia

student•

¿Qué indica el número 1 agregado como tercer parámetro en la función 'np.polyfit(x, y, 1)' ?

Kevin J. Zea Alvarado

student•

Es el grado del polinomio.

Puedes encontrar más información aquí: https://numpy.org/doc/stable/reference/generated/numpy.polyfit.html Y aquí: https://docs.scipy.org/doc/numpy-1.15.1/reference/generated/numpy.polyfit.html

Gonzalo Gramaglia

student•

Ahh perfecto. Mil gracias Kevin!

Adrian Alberto Rodriguez

student•

Ya había usado esta librería en MatLab pero realmente en Python fue mucho más facil

Jose Fernando Jaramillo Boon

student•

Toca hacer una serie de cursos de Econometría en Platzi.

Jonathan Maita

student•

Pudiéramos realizar una regresión lineal, con respecto al consumo de energía teórico de una industria y el consumo experimental.

Explicación mas a fondo de regresión lineal:

https://www.youtube.com/watch?v=gfs5bp2j_bA

Explicación para el calculo de los coeficientes de manera analítica:

https://www.youtube.com/watch?v=gUdU6BgnJ2c

Pablo Rosa

student•

Stack de data scientis:

Python
Jupyter Notebooks
Pandas
Numpy
nltk (text mining)
matplotlib (graficos)

Mario Esser

student•

Un vídeo de un canal increíble con mucho material que vale mucho la pena ver!

Mauro Cortes

student•

En el sentido estricto en esta clase no se vio una regresión lineal, fue un ajuste por mínimos cuadrados en el cual se aproximo a una recta que se relaciona a nuestros datos, y no una función.

Karl Behrens Gil

student•

https://github.com/karlbehrensg/programacion-dinamica-y-estocastica Regresión Lineal

La regresión lineal nos permite aproximar una función a un conjunto de datos obtenidos de manera experimental. No necesariamente permite aproximar funciones lineales, sino que sus variantes permiten aproximar cualquier función polinómica.

Para ver un ejemplo de regresiones lineales en Python en el siguiente enlace puedes acceder a ver un ejemplo: Collab - Regresión Lineal.

Cristian Daniel Borda Bastidas

student•

Ejemplo de regresión lineal En gases: A mayor presión ejercida menor volumen ocupado

def operacional_function():
    lista_xi=[]
    lista_yi=[]
    cantidad_de_xi = int(input("Hola, ingresa la cantidad de datos de la variable independiente: "))
    for i in range(cantidad_de_xi):
        xi=float(input("Ingrese el {}) valor de x: ".format(i+1)))
        lista_xi.append(xi)
        yi = float(input("Ingrese la {}) etiqueta:".format(i+1)))
        lista_yi.append(yi)
    sumax=contador(lista_xi)
    sumay=contador(lista_yi)
    mediax=promediador(sumax,len(lista_xi))
    mediay=promediador(sumay,len(lista_yi))
    productoxy=multiplicador(lista_xi,lista_yi)
    suma_cuadrados=cuadrado_de_sumas_x(lista_xi)
    
    n=len(lista_xi)
    
    
    pendiente = ((sumax*sumay)-(n*productoxy)) / (((sumax)**2)-(n*suma_cuadrados))
    print(pendiente)
    bias = mediay-(pendiente*mediax)
    print(bias)
    print("La ecuación de la recta más optimizadora es {}x + {} = y".format(pendiente,bias))
    valori = int(input("Ingrese un valor para predecir con nuestro modelo: "))
    respuesta = (pendiente*valori) + bias
    print("La prediccion es de  {}.".format(respuesta))






def contador(lista_random):
    acumulador=0
    for numero in lista_random:
        acumulador = numero + acumulador
    return acumulador

def promediador(suma,n_datos):
    media=suma/n_datos
    return media

def multiplicador(lista1,lista2):
    acumulador=0
    for i in range(len(lista1)):
        acumulador = acumulador + lista1[i]*lista2[i]
    return acumulador

def cuadrado_de_sumas_x(lista):
    acumulador = 0
    for numero in lista:
        acumulador = acumulador + numero**2
    return acumulador



if __name__ == "__main__":
    print("Hola, calcularemos una recta que se adecua a la nube de puntos de un problema de regresion lineal")
    operacional_function()    
    

Regresión Lineal con NumPy y Matplotlib en Google Colab

Introducción

Programación Dinámica y Estocástica: Optimización y Modelado de Datos

Programación Dinámica

Programación Dinámica: Optimización de Problemas con Memorización

Optimización de Algoritmos con Programación Dinámica en Python

Caminos Aleatorios

Simulaciones con Caminos Aleatorios en Programación

Camino Aleatorio en Programación Orientada a Objetos

Algoritmo de Caminata Aleatoria en Python: Clase Borracho

Simulación de Caminata Aleatoria con Python

Visualización de Caminatas Aleatorias con Python y Bokeh

Programas Estocásticos

Programación Estocástica: Aplicaciones y Ejemplos Prácticos

Cálculo de Probabilidades y Simulación de Montecarlo

Simulaciones de Probabilidades con Dados en Python

Inferencia Estadística: Conceptos y Aplicaciones Prácticas

Cálculo de la Media Aritmética en Python paso a paso

Media, Varianza y Desviación Estándar en Estadística

Distribución Normal: Propiedades y Aplicaciones Estadísticas

Simulaciones de Montecarlo

Simulaciones de Montecarlo: Historia y Aplicaciones Prácticas

Simulación de Montecarlo para Probabilidades en Juegos de Cartas

Simulaciones de Montecarlo para Aproximar Pi

Estimación de Pi mediante Monte Carlo y Simulación Estadística

Muestreo e Intervalos de Confianza

Muestreo Estadístico: Aleatorio y Estratificado

Teorema del Límite Central: Transformación de Distribuciones

Datos Experimentales

Validación de teorías científicas con datos experimentales

Regresión Lineal con NumPy y Matplotlib en Google Colab

Conclusiones

Optimización de Programas con Programación Dinámica y Simulaciones