Regresión Logística: Fórmula y Aplicación en Python

Clase 4 de 17Curso de Regresión Logística con Python y scikit-learn

Resumen

¿Cómo funciona la fórmula de la regresión logística?

La regresión logística es un algoritmo crucial para la clasificación de datos, permitiéndonos predecir la probabilidad de un evento binario, como "sí" o "no", "verdadero" o "falso", "positivo" o "negativo". Para lograrlo, utilizamos la función sigmoide. Esta función, representada por la fórmula ( P = \frac{1}{1 + e^{-\zeta}} ), convierte cualquier valor en una probabilidad comprendida entre 0 y 1. Pero, ¿cómo se lleva a cabo este proceso y cuál es la base matemática detrás de esta operación?

¿Qué es la función sigmoide?

La función sigmoide es una función matemática que transforma cualquier valor real en un valor comprendido entre 0 y 1, adquiriendo una forma de "S" al graficarse. Esta función es particularmente útil en regresión logística, pues nos permite trabajar con probabilidades:

import numpy as np
import matplotlib.pyplot as plt

# Definir una función sigmoide
def sigmoid(z):
    return 1 / (1 + np.exp(-z))

# Crear un rango de datos entre -10 y 10
z = np.linspace(-10, 10, 100)

# Calcular la función sigmoide
sigmoid_values = sigmoid(z)

# Graficar la función
plt.plot(z, sigmoid_values)
plt.title('Función Sigmoide')
plt.xlabel('z')
plt.ylabel('Sigmoid(z)')
plt.grid(True)
plt.show()

Al aplicar la función sigmoide, cualquier dato recibido, sin importar su magnitud, se transformará en un valor entre 0 y 1, ideal para representar probabilidades y hacer predicciones.

¿Cómo los "odds" y los "log odds" contribuyen a la regresión logística?

Un concepto fundamental en regresión logística es el de los "odds", que expresan la probabilidad del éxito de un evento sobre la probabilidad de su fracaso. Por ejemplo, si tenemos una probabilidad de éxito de 80%, los "odds" serían:

[ \text{odds} = \frac{0.80}{1 - 0.80} = 4 ]

Los "log odds" se emplean para manejar mejor los infinitos, ya que al aplicar el logaritmo natural a los "odds", toda la información se centra alrededor del cero, permitiendo a los algoritmos procesar estos valores de forma más efectiva:

[ \text{log odds} = \ln(\text{odds}) ]

¿Cuál es la relación entre la regresión lineal y la regresión logística?

La regresión logística se basa en las mismas premisas que la regresión lineal, aunque con un objetivo diferente: predecir una probabilidad en lugar de un valor continuo. Utilizamos una fórmula similar a la de la regresión lineal:

[ \beta_0 + \beta_1 \cdot x ]

Aquí, (\beta_0) representa el intercepto y (\beta_1) la pendiente. En regresión logística, este modelo lineal se introduce en la función sigmoide para obtener probabilidades.

Para ilustrar cómo estas piezas se integran, veamos cómo se transforma la fórmula de la regresión lineal en una fórmula de regresión logística:

[ P = \frac{e^{\beta_0 + \beta_1 \cdot x}}{1 + e^{\beta_0 + \beta_1 \cdot x}} ]

¿Por qué es útil la regresión logística?

La regresión logística permite abordar problemas de clasificación binaria de manera eficiente y precisa. Al convertir valores continuos en probabilidades, facilita la toma de decisiones basada en datos. Esta capacidad de asignar una probabilidad a cada caso nos permite clasificar con certeza eventos como un diagnóstico médico, la aprobación de un crédito, o el resultado de un partido deportivo.

A medida que amplíes tus conocimientos en machine learning, descubrirás que la regresión logística es solo la punta del iceberg. Existen numerosos algoritmos y métodos para abordar problemas de clasificación y predicción. Sin embargo, entender las bases de la regresión logística te brindará una ventaja significativa en el mundo del análisis de datos. ¡Sigue explorando y construyendo habilidades valiosas en este campo!