Regresión Logística: Fórmula y Aplicación en Python

Clase 4 de 17 • Curso de Regresión Logística con Python y scikit-learn

Contenido del curso

Fundamentos de regresión logística

Regresión logística binomial

Regresión logística multinomial

Conclusiones

Resumen

Comprender la matemática detrás de un algoritmo de clasificación tan popular como la regresión logística permite tomar mejores decisiones al modelar datos. Aquí se descompone paso a paso cómo la función sigmoide, los odds y la regresión lineal se conectan para producir probabilidades entre cero y uno.

¿Qué es la función sigmoide y por qué produce una curva en forma de S?

La función sigmoide es la base matemática de la regresión logística [0:30]. Se expresa así:

P = 1 / (1 + e^(−z))

Sin importar qué valores reciba la variable z, el resultado siempre queda entre cero y uno, lo que la hace perfecta para representar probabilidades y realizar una predicción binomial (verdadero o falso, cero o uno) [1:10].

Un buen ejercicio para comprobarlo consiste en:

Crear la función sigmoide en Python.
Enviarle de forma iterativa valores entre −10 y 10 usando NumPy.
Guardar los resultados en un array y graficarlos.

El resultado siempre será una curva sigmoidal en forma de S, acotada entre cero y uno [1:25].

¿Qué son los odds y los log odds en probabilidad?

La variable z que alimenta la sigmoide se puede expresar mediante los odds [2:00]. Los odds representan la relación entre la probabilidad de que un evento ocurra y la probabilidad contraria:

odds = P / (1 − P)

Por ejemplo, si la probabilidad de éxito es del 80 % [2:20]:

odds = 0.80 / 0.20 = 4.
Ese 4 no es la probabilidad; indica que el evento es cuatro veces más probable de ocurrir que de no ocurrir.

¿Por qué se aplica el logaritmo a los odds?

Al calcular el logaritmo de los odds (log odds) se consigue simetría alrededor del cero y un manejo más limpio de valores extremos (infinitos positivos y negativos) [2:55].

Veamos un ejemplo concreto [3:10]:

P = 0.4 → odds = 0.4 / 0.6 = 0.66 → log(0.66) = −0.176.
P = 0.6 → odds = 0.6 / 0.4 = 1.5 → log(1.5) = +0.176.

Ambos resultados tienen la misma magnitud pero signo contrario, lo que facilita la interpretación y la representación gráfica para los algoritmos.

¿Cómo se conecta la regresión lineal con la regresión logística?

La fórmula de la regresión lineal ya es conocida [3:55]:

y = β₀ + β₁ · x

Donde β₀ es el intercepto (constante), β₁ es la pendiente y x es la variable independiente. Esta ecuación traza una línea recta que predice un valor continuo [4:20].

¿Por qué no basta con reemplazar y por probabilidad?

Si simplemente se sustituye y por P, el resultado podría salir del rango 0–1, algo inadmisible para una probabilidad [4:50]. La solución es:

Expresar los odds como la fórmula lineal: log(P / (1 − P)) = β₀ + β₁ · x [4:05].
Aplicar el exponencial a ambos lados y despejar P mediante álgebra [5:20].
Obtener la forma final de la sigmoide con la regresión lineal integrada:

P = 1 / (1 + e^(−(β₀ + β₁ · x)))

Ese término z del inicio se reemplaza completamente por la fórmula de la regresión lineal [5:40]. La regresión lineal resuelve la relación entre variables (positiva o negativa), y la función sigmoide transforma ese resultado en una probabilidad acotada entre cero y uno [6:00].

¿Por qué se llama regresión si clasifica?

Aunque la regresión logística realiza una clasificación (no predice un valor continuo), se apoya internamente en la regresión lineal para calcular los odds [6:15]. Por eso conserva el nombre de regresión. La línea recta genera un valor continuo que, al pasar por la sigmoide, se convierte en la probabilidad necesaria para decidir la clase (cero o uno) [6:30].

Este mecanismo es lo que hace a la regresión logística tan elegante y útil en clasificación binaria: combina la simplicidad de una recta con la potencia de una curva sigmoidal para entregar probabilidades interpretables. Si ya implementaste el reto de graficar la sigmoide en Python, comparte tu solución en los comentarios.

Comentarios

FELIX DAVID CORDOVA GARCIA

student•

Juan R. Vergara M.

student•

Excelente amigo, muy útil.

Julián Cárdenas

student•

Muy pocas líneas de código y cementeramente con lo que se pide, excelente!

Alex Antonio Angulo Luna

student•

Los "odds" (en español, "cuotas" o "probabilidades") son una forma de expresar la probabilidad de que ocurra un evento. En particular, los "odds" representan la relación entre la probabilidad de que ocurra un evento y la probabilidad de que no ocurra.

Por ejemplo, si la probabilidad de que un equipo de fútbol gane un partido es del 60%, entonces la probabilidad de que pierda es del 40%. En términos de "odds", la probabilidad de ganar se puede expresar como 3 a 2, lo que significa que por cada 2 veces que pierde el equipo, gana 3 veces. De manera similar, la probabilidad de perder se puede expresar como 2 a 3, lo que significa que por cada 3 veces que gana el equipo, pierde 2 veces.

Los "odds" se utilizan comúnmente en las apuestas y en los juegos de azar, donde se usan para determinar las ganancias potenciales de una apuesta. En la estadística, los "odds" se utilizan en la regresión logística para modelar la relación entre las variables independientes y la variable dependiente binaria.

Robert Yesid Barrios Acendra

student•

Juan R. Vergara M.

student•

Gracias 👍😎🥇

Leandro Tenjo

student•

Justo esta descomposición le hizo falta al curso de Regresión Lineal.

Entender el “Por que”, más allá del “como”.

… Me duele el cerebro, pero voy entendiendo de a poco. 🦾

Juan R. Vergara M.

student•

x es la variable independiente.

Juan Acevedo

student•

Justo este es el punto de el por qué me apasiona tanto los modelos Matemáticos - mas que el Ml que si bien es otro mundo mas maravilloso porque lo que hacemos es enseñarle a la computadora como modelamos nosotros , lo fascinante está en esto , utilizar cosas que sabemos utilizarlas a lo que se necesita y utilizar matemáticas para resolver problemas Y esto es algo maravilloso ya que literalmente con un poco de algebra , agarramos una función predictora de números continuos y lo convertimos en una que predice también , pero probabilidades

Santiago García Rincón

student•

<import numpy as np
import matplotlib.pyplot as plt

x = np.linspace(-10, 10, 100)
y = 1 / (1 + np.exp(-x))
plt.plot(x, y)  # Use plt.plot to create the plot
plt.show()
>

Mario Alexander Vargas Celis

student•

x = np.linspace(-5, 5, 100)
y = 1 / (1 + np.exp(-x))
plt.plot(x, y, label='Sigmoid', color='red')
plt.grid(True)
plt.legend()
plt.show()
``````js

Wilmer Fernando Sanabria

student•

Esto es lo que busco saber y entender, de donde salen los valores, porque de la formula, etc, etc, que buena clase.

Daniel Moreno

student•

Odds

Imagina que estás apostando en un juego. Los "odds" o probabilidades a favor de un evento representan la relación entre la probabilidad de que el evento suceda y la probabilidad de que no suceda. Por ejemplo, si en un juego la probabilidad de ganar es de 1 a 4, significa que por cada 1 vez que ganes, se espera perder 4 veces. Si lo expresamos como probabilidad, donde la probabilidad de ganar es P y la de perder es 1−P, los "odds" se calculan como P/1-P.

Log Odds

Los "log odds" o logaritmo de los odds es simplemente tomar el logaritmo natural de los odds. Esta transformación es útil porque convierte una escala que va de 0 a infinito (odds) en una que va de menos infinito a infinito, lo que facilita el manejo matemático, especialmente en la regresión.

Relación entre Regresión Logística y Lineal

La regresión lineal y la regresión logística son similares en el sentido de que ambas intentan encontrar una relación entre una o más variables independientes (X) y una variable dependiente (Y). La diferencia clave radica en cómo tratan la variable dependiente.

Regresión Lineal: Se usa cuando la variable dependiente es continua. La relación se modela directamente como una combinación lineal de las variables independientes. Es decir, intenta predecir el valor exacto de Y basado en X.
Regresión Logística: Se usa cuando la variable dependiente es categórica (por ejemplo, sí/no, 0/1). En lugar de modelar esta variable directamente, la regresión logística modela los "log odds" de la probabilidad de que la variable dependiente sea 1 (o "sí"). Esto se hace para asegurarse de que la salida del modelo esté entre 0 y 1 y se pueda interpretar como una probabilidad. Matemáticamente, transforma la combinación lineal de las variables independientes usando la función logística (o sigmoide), lo que garantiza que el resultado sea una probabilidad.

En resumen, mientras que la regresión lineal puede predecir cualquier valor dentro de un rango continuo, la regresión logística se utiliza para predecir la probabilidad de que ocurra un evento específico, convirtiendo una entrada lineal en una probabilidad usando los "log odds".

Alex Antonio Angulo Luna

student•

Aquí que pasa cuando pones un signo mal!

David Carrillo Castillo

student•

Es natural que suceda eso, ya que al querer graficar la fórmula que colocaste, hay un: 1 -exp(-x), en este caso el denominador, nunca puede ser 0, por ende, el exp(-x), nunca puede dar 1 tampoco, y el valor para que ese exponencial nos de 1, es cuando el X = 0, por eso se ve en la gráfica que se divide en cero, porque nunca puede llegar a ser cero.

Juan Jose Garcia

student•

Graficar la función sigmoide

import random
from math import exp


import matplotlib.pyplot as plt


def sigmoid(x):
    return ( 1 ) / ( 1 + exp( -x ) )


def main():
    x = []
    y = []

    for _ in range(200):
        num = random.randint(-10, 10)
        x.append(num)
        y.append(sigmoid(num))

    plt.plot(x, y, 'bo')


if __name__ == "__main__":
    main()

Juan Acevedo

student•

Mario Alexander Vargas Celis

student•

x = np.linspace(-5, 5, 100) y = 1 / (1 + np.exp(-x)) plt.plot(x, y, label='Sigmoid', color='red') plt.grid(True) plt.legend() plt.show()

C:\Users\celio\OneDrive\Escritorio\programación\platzi\CursodeRegresionLogisticaconPythonyscikit-learn\output.png

Ronald Andrey Beltran Parada

student•

Ever Brayan Araoz Santa Cruz

student•

x = np.linspace(-10, 10, 1000)

y = 1 / (1 + np.exp(-x))

plt.plot(x, y, label='Sigmoid', color='blue')

plt.grid(True)

plt.legend()

plt.show()

Jesús Ángel Martínez Briones

student•

Gran explicación de los ODDS :)

GUSTAVO CHIAPPE

student•

y= 1/(1+np.exp(-np.log(0.8/0.2)))

print(y)


log =-np.log(0.8/0.2)
print(log)

exp = -np.exp(log)
print(exp)

print(1/(1.25))

print(1/(1-exp))

Antonio Demarco Bonino

student•

Me encantó el reto. Me sirvió para terminar de entender la función sigmoide y me viene genial porque justo estoy estudiando el número "e":

import numpy as np
import matplotlib.pyplot as plt

def sigmoide_form(min_val, max_val, num_data):
    x = np.linspace(min_val, max_val, num_data)
    sigmoide = 1 / (1 + np.exp(-x))
    return x, sigmoide

num_data = np.random.randint(50, 101)  
x, sigmoide = sigmoide_form(-10, 10, num_data)

plt.figure(figsize=(10, 6))
plt.axhline(y=0, color='black', linestyle='--')
plt.axhline(y=1, color='black', linestyle='--')
plt.axvline(x=0, color='black', linestyle='--')
plt.plot(x, sigmoide, color='orange')
plt.title(f'Sigmoid Curve ({num_data} points)')
plt.xlabel('X Values')
plt.ylabel('Sigmoid Values')
plt.grid(True)
plt.show()

Isaac Bryan Ascanoa Roncall

student•

Es interesante como se emplea la forma para regresion logistica. Los prfes en mi universidad lo explicaban de una forma tediosa y nada entendible. Ahora si me queda claro como se debe aplicar.

import random
from math import exp


import matplotlib.pyplot as plt


def sigmoid(x):
    return ( 1 ) / ( 1 + exp( -x ) )


def main():
    x = []
    y = []

    for _ in range(200):
        num = random.randint(-10, 10)
        x.append(num)
        y.append(sigmoid(num))

    plt.plot(x, y, 'bo')


if __name__ == "__main__":
    main()

import numpy as np
import matplotlib.pyplot as plt

def sigmoide_form(min_val, max_val, num_data):
    x = np.linspace(min_val, max_val, num_data)
    sigmoide = 1 / (1 + np.exp(-x))
    return x, sigmoide

num_data = np.random.randint(50, 101)  
x, sigmoide = sigmoide_form(-10, 10, num_data)

plt.figure(figsize=(10, 6))
plt.axhline(y=0, color='black', linestyle='--')
plt.axhline(y=1, color='black', linestyle='--')
plt.axvline(x=0, color='black', linestyle='--')
plt.plot(x, sigmoide, color='orange')
plt.title(f'Sigmoid Curve ({num_data} points)')
plt.xlabel('X Values')
plt.ylabel('Sigmoid Values')
plt.grid(True)
plt.show()

Regresión Logística: Fórmula y Aplicación en Python

Fundamentos de regresión logística

Regresión Logística con Python y Scikit Learn

Regresión Logística con Python y Scikit Learn

Cuándo usar la regresión logística en modelos de clasificación