Regresión Logística: Fórmula y Aplicación en Python

Clase 4 de 17 • Curso de Regresión Logística con Python y scikit-learn

Resumen

¿Cómo funciona la fórmula de la regresión logística?

La regresión logística es un algoritmo crucial para la clasificación de datos, permitiéndonos predecir la probabilidad de un evento binario, como "sí" o "no", "verdadero" o "falso", "positivo" o "negativo". Para lograrlo, utilizamos la función sigmoide. Esta función, representada por la fórmula ( P = \frac{1}{1 + e^{-\zeta}} ), convierte cualquier valor en una probabilidad comprendida entre 0 y 1. Pero, ¿cómo se lleva a cabo este proceso y cuál es la base matemática detrás de esta operación?

¿Qué es la función sigmoide?

La función sigmoide es una función matemática que transforma cualquier valor real en un valor comprendido entre 0 y 1, adquiriendo una forma de "S" al graficarse. Esta función es particularmente útil en regresión logística, pues nos permite trabajar con probabilidades:

import numpy as np
import matplotlib.pyplot as plt

# Definir una función sigmoide
def sigmoid(z):
    return 1 / (1 + np.exp(-z))

# Crear un rango de datos entre -10 y 10
z = np.linspace(-10, 10, 100)

# Calcular la función sigmoide
sigmoid_values = sigmoid(z)

# Graficar la función
plt.plot(z, sigmoid_values)
plt.title('Función Sigmoide')
plt.xlabel('z')
plt.ylabel('Sigmoid(z)')
plt.grid(True)
plt.show()

Al aplicar la función sigmoide, cualquier dato recibido, sin importar su magnitud, se transformará en un valor entre 0 y 1, ideal para representar probabilidades y hacer predicciones.

¿Cómo los "odds" y los "log odds" contribuyen a la regresión logística?

Un concepto fundamental en regresión logística es el de los "odds", que expresan la probabilidad del éxito de un evento sobre la probabilidad de su fracaso. Por ejemplo, si tenemos una probabilidad de éxito de 80%, los "odds" serían:

[ \text{odds} = \frac{0.80}{1 - 0.80} = 4 ]

Los "log odds" se emplean para manejar mejor los infinitos, ya que al aplicar el logaritmo natural a los "odds", toda la información se centra alrededor del cero, permitiendo a los algoritmos procesar estos valores de forma más efectiva:

[ \text{log odds} = \ln(\text{odds}) ]

¿Cuál es la relación entre la regresión lineal y la regresión logística?

La regresión logística se basa en las mismas premisas que la regresión lineal, aunque con un objetivo diferente: predecir una probabilidad en lugar de un valor continuo. Utilizamos una fórmula similar a la de la regresión lineal:

[ \beta_0 + \beta_1 \cdot x ]

Aquí, (\beta_0) representa el intercepto y (\beta_1) la pendiente. En regresión logística, este modelo lineal se introduce en la función sigmoide para obtener probabilidades.

Para ilustrar cómo estas piezas se integran, veamos cómo se transforma la fórmula de la regresión lineal en una fórmula de regresión logística:

[ P = \frac{e^{\beta_0 + \beta_1 \cdot x}}{1 + e^{\beta_0 + \beta_1 \cdot x}} ]

¿Por qué es útil la regresión logística?

La regresión logística permite abordar problemas de clasificación binaria de manera eficiente y precisa. Al convertir valores continuos en probabilidades, facilita la toma de decisiones basada en datos. Esta capacidad de asignar una probabilidad a cada caso nos permite clasificar con certeza eventos como un diagnóstico médico, la aprobación de un crédito, o el resultado de un partido deportivo.

A medida que amplíes tus conocimientos en machine learning, descubrirás que la regresión logística es solo la punta del iceberg. Existen numerosos algoritmos y métodos para abordar problemas de clasificación y predicción. Sin embargo, entender las bases de la regresión logística te brindará una ventaja significativa en el mundo del análisis de datos. ¡Sigue explorando y construyendo habilidades valiosas en este campo!

FELIX DAVID CORDOVA GARCIA

student•

Juan R. Vergara M.

student•

Excelente amigo, muy útil.

Julián Cárdenas

student•

Muy pocas líneas de código y cementeramente con lo que se pide, excelente!

Alex Antonio Angulo Luna

student•

Los "odds" (en español, "cuotas" o "probabilidades") son una forma de expresar la probabilidad de que ocurra un evento. En particular, los "odds" representan la relación entre la probabilidad de que ocurra un evento y la probabilidad de que no ocurra.

Por ejemplo, si la probabilidad de que un equipo de fútbol gane un partido es del 60%, entonces la probabilidad de que pierda es del 40%. En términos de "odds", la probabilidad de ganar se puede expresar como 3 a 2, lo que significa que por cada 2 veces que pierde el equipo, gana 3 veces. De manera similar, la probabilidad de perder se puede expresar como 2 a 3, lo que significa que por cada 3 veces que gana el equipo, pierde 2 veces.

Los "odds" se utilizan comúnmente en las apuestas y en los juegos de azar, donde se usan para determinar las ganancias potenciales de una apuesta. En la estadística, los "odds" se utilizan en la regresión logística para modelar la relación entre las variables independientes y la variable dependiente binaria.

Robert Yesid Barrios Acendra

student•

Juan R. Vergara M.

student•

Gracias 👍😎🥇

Leandro Tenjo

student•

Justo esta descomposición le hizo falta al curso de Regresión Lineal.

Entender el “Por que”, más allá del “como”.

… Me duele el cerebro, pero voy entendiendo de a poco. 🦾

Juan R. Vergara M.

student•

x es la variable independiente.

Juan Acevedo

student•

Justo este es el punto de el por qué me apasiona tanto los modelos Matemáticos - mas que el Ml que si bien es otro mundo mas maravilloso porque lo que hacemos es enseñarle a la computadora como modelamos nosotros , lo fascinante está en esto , utilizar cosas que sabemos utilizarlas a lo que se necesita y utilizar matemáticas para resolver problemas Y esto es algo maravilloso ya que literalmente con un poco de algebra , agarramos una función predictora de números continuos y lo convertimos en una que predice también , pero probabilidades

Santiago García Rincón

student•

<import numpy as np
import matplotlib.pyplot as plt

x = np.linspace(-10, 10, 100)
y = 1 / (1 + np.exp(-x))
plt.plot(x, y)  # Use plt.plot to create the plot
plt.show()
>

Mario Alexander Vargas Celis

student•

x = np.linspace(-5, 5, 100)
y = 1 / (1 + np.exp(-x))
plt.plot(x, y, label='Sigmoid', color='red')
plt.grid(True)
plt.legend()
plt.show()
``````js

Wilmer Fernando Sanabria

student•

Esto es lo que busco saber y entender, de donde salen los valores, porque de la formula, etc, etc, que buena clase.

Daniel Moreno

student•

Odds

Imagina que estás apostando en un juego. Los "odds" o probabilidades a favor de un evento representan la relación entre la probabilidad de que el evento suceda y la probabilidad de que no suceda. Por ejemplo, si en un juego la probabilidad de ganar es de 1 a 4, significa que por cada 1 vez que ganes, se espera perder 4 veces. Si lo expresamos como probabilidad, donde la probabilidad de ganar es P y la de perder es 1−P, los "odds" se calculan como P/1-P.

Log Odds

Los "log odds" o logaritmo de los odds es simplemente tomar el logaritmo natural de los odds. Esta transformación es útil porque convierte una escala que va de 0 a infinito (odds) en una que va de menos infinito a infinito, lo que facilita el manejo matemático, especialmente en la regresión.

Relación entre Regresión Logística y Lineal

La regresión lineal y la regresión logística son similares en el sentido de que ambas intentan encontrar una relación entre una o más variables independientes (X) y una variable dependiente (Y). La diferencia clave radica en cómo tratan la variable dependiente.

Regresión Lineal: Se usa cuando la variable dependiente es continua. La relación se modela directamente como una combinación lineal de las variables independientes. Es decir, intenta predecir el valor exacto de Y basado en X.
Regresión Logística: Se usa cuando la variable dependiente es categórica (por ejemplo, sí/no, 0/1). En lugar de modelar esta variable directamente, la regresión logística modela los "log odds" de la probabilidad de que la variable dependiente sea 1 (o "sí"). Esto se hace para asegurarse de que la salida del modelo esté entre 0 y 1 y se pueda interpretar como una probabilidad. Matemáticamente, transforma la combinación lineal de las variables independientes usando la función logística (o sigmoide), lo que garantiza que el resultado sea una probabilidad.

En resumen, mientras que la regresión lineal puede predecir cualquier valor dentro de un rango continuo, la regresión logística se utiliza para predecir la probabilidad de que ocurra un evento específico, convirtiendo una entrada lineal en una probabilidad usando los "log odds".

Alex Antonio Angulo Luna

student•

Aquí que pasa cuando pones un signo mal!

David Carrillo Castillo

student•

Es natural que suceda eso, ya que al querer graficar la fórmula que colocaste, hay un: 1 -exp(-x), en este caso el denominador, nunca puede ser 0, por ende, el exp(-x), nunca puede dar 1 tampoco, y el valor para que ese exponencial nos de 1, es cuando el X = 0, por eso se ve en la gráfica que se divide en cero, porque nunca puede llegar a ser cero.

Juan Jose Garcia

student•

Graficar la función sigmoide

import random
from math import exp


import matplotlib.pyplot as plt


def sigmoid(x):
    return ( 1 ) / ( 1 + exp( -x ) )


def main():
    x = []
    y = []

    for _ in range(200):
        num = random.randint(-10, 10)
        x.append(num)
        y.append(sigmoid(num))

    plt.plot(x, y, 'bo')


if __name__ == "__main__":
    main()

Juan Acevedo

student•

Mario Alexander Vargas Celis

student•

x = np.linspace(-5, 5, 100) y = 1 / (1 + np.exp(-x)) plt.plot(x, y, label='Sigmoid', color='red') plt.grid(True) plt.legend() plt.show()

C:\Users\celio\OneDrive\Escritorio\programación\platzi\CursodeRegresionLogisticaconPythonyscikit-learn\output.png

Ronald Andrey Beltran Parada

student•

Ever Brayan Araoz Santa Cruz

student•

x = np.linspace(-10, 10, 1000)

y = 1 / (1 + np.exp(-x))

plt.plot(x, y, label='Sigmoid', color='blue')

plt.grid(True)

plt.legend()

plt.show()

Jesús Ángel Martínez Briones

student•

Gran explicación de los ODDS :)

GUSTAVO CHIAPPE

student•

y= 1/(1+np.exp(-np.log(0.8/0.2)))

print(y)


log =-np.log(0.8/0.2)
print(log)

exp = -np.exp(log)
print(exp)

print(1/(1.25))

print(1/(1-exp))

Antonio Demarco Bonino

student•

Me encantó el reto. Me sirvió para terminar de entender la función sigmoide y me viene genial porque justo estoy estudiando el número "e":

import numpy as np
import matplotlib.pyplot as plt

def sigmoide_form(min_val, max_val, num_data):
    x = np.linspace(min_val, max_val, num_data)
    sigmoide = 1 / (1 + np.exp(-x))
    return x, sigmoide

num_data = np.random.randint(50, 101)  
x, sigmoide = sigmoide_form(-10, 10, num_data)

plt.figure(figsize=(10, 6))
plt.axhline(y=0, color='black', linestyle='--')
plt.axhline(y=1, color='black', linestyle='--')
plt.axvline(x=0, color='black', linestyle='--')
plt.plot(x, sigmoide, color='orange')
plt.title(f'Sigmoid Curve ({num_data} points)')
plt.xlabel('X Values')
plt.ylabel('Sigmoid Values')
plt.grid(True)
plt.show()

Isaac Bryan Ascanoa Roncall

student•

Es interesante como se emplea la forma para regresion logistica. Los prfes en mi universidad lo explicaban de una forma tediosa y nada entendible. Ahora si me queda claro como se debe aplicar.

import random
from math import exp


import matplotlib.pyplot as plt


def sigmoid(x):
    return ( 1 ) / ( 1 + exp( -x ) )


def main():
    x = []
    y = []

    for _ in range(200):
        num = random.randint(-10, 10)
        x.append(num)
        y.append(sigmoid(num))

    plt.plot(x, y, 'bo')


if __name__ == "__main__":
    main()

import numpy as np
import matplotlib.pyplot as plt

def sigmoide_form(min_val, max_val, num_data):
    x = np.linspace(min_val, max_val, num_data)
    sigmoide = 1 / (1 + np.exp(-x))
    return x, sigmoide

num_data = np.random.randint(50, 101)  
x, sigmoide = sigmoide_form(-10, 10, num_data)

plt.figure(figsize=(10, 6))
plt.axhline(y=0, color='black', linestyle='--')
plt.axhline(y=1, color='black', linestyle='--')
plt.axvline(x=0, color='black', linestyle='--')
plt.plot(x, sigmoide, color='orange')
plt.title(f'Sigmoid Curve ({num_data} points)')
plt.xlabel('X Values')
plt.ylabel('Sigmoid Values')
plt.grid(True)
plt.show()

Regresión Logística: Fórmula y Aplicación en Python

Fundamentos de regresión logística

Regresión Logística con Python y Scikit Learn

Regresión Logística con Python y Scikit Learn

Cuándo usar la regresión logística en modelos de clasificación

Regresión Logística: Fórmula y Aplicación en Python

Regresión logística binomial

Regresión Logística Aplicada a Dataset Binomial de Churn

Análisis de Correlación y Escalado de Datos en Pandas

Análisis Exploratorio de Datos con Visualización usando Seaborn y Matplotlib

Regresión Logística para Clasificación Binomial

Regresión Logística: Evaluación y Optimización de Modelos

Análisis de Resultados en Modelos de Regresión Logística

Regularizadores L1 y L2 en Regresión Logística

Regresión logística multinomial

Regresión Logística Multiclase: Estrategias y Solvers Efectivos

Clasificación Multiclase con Regresión Logística en Python

Análisis Exploratorio y Escalamiento de Datos para Regresión Logística

Optimización de Modelos de Regresión Logística Multiclase

Conclusiones

Proyecto Final: Diagnóstico de Cáncer de Seno con Regresión Logística

Comparte tu proyecto de regresión logística y certifícate