Comprender por qué se utiliza una función de error específica en un problema de clasificación binaria marca la diferencia entre aplicar fórmulas a ciegas y dominar realmente los fundamentos del machine learning. La regresión logística se conecta directamente con la estimación de máxima verosimilitud, y de esa conexión nace la célebre cross entropy, la función de costo que se minimiza cada vez que entrenamos un clasificador binario.
¿Qué diferencia a la regresión logística de la regresión lineal?
Mientras la regresión lineal ajusta una recta a datos con tendencia lineal, la regresión logística resuelve un problema de clasificación [0:25]. Los resultados posibles son solo dos: es o no es. Para modelar esa dualidad se emplea la función sigmoide, cuya curva lleva los valores hacia 0 o hacia 1 [0:55].
La idea central es que existe un conjunto de variables independientes o predictores —por ejemplo, la hora, el monto y la distancia geográfica de una transacción bancaria— que, combinados linealmente mediante pesos o parámetros beta, producen un valor que entra en la exponencial de la sigmoide [1:28]. Al ajustar esos betas, los puntos del dataset se redistribuyen para que la curva logística separe las clases de la forma más precisa posible [2:15].
¿Cómo se interpreta la salida de la sigmoide?
El resultado de la sigmoide es un número entre 0 y 1 que se interpreta como una probabilidad [2:30]. Si un punto real pertenece a la clase 1 y el modelo devuelve 0.9, el error para ese punto sería aproximadamente 0.1. El objetivo es elegir los parámetros beta que produzcan las probabilidades más altas en relación con las categorías reales.
¿Cómo entra la estimación de máxima verosimilitud en la regresión logística?
El planteamiento parte de maximizar la suma de los logaritmos de las probabilidades de obtener cada clase, dados los atributos y una hipótesis de modelamiento [3:05]. Para un solo punto del dataset, la distribución que describe cada intento de clasificación es Bernoulli: otorga probabilidad p al éxito y 1 − p al fracaso [3:50].
La verosimilitud de un punto se define así [4:25]:
- Si el resultado real es Y, la contribución es Ŷ (lo que predice la sigmoide).
- Si el resultado real es 1 − Y, la contribución es 1 − Ŷ.
Esta generalización asegura que la verosimilitud alcanza su valor máximo justo cuando las predicciones de la sigmoide coinciden con las clases reales [4:55].
¿Por qué se usan logaritmos y sumas?
Para obtener la verosimilitud de todo el conjunto de datos, se realizan dos operaciones clave [5:20]:
- Se reemplazan las probabilidades por sus logaritmos, lo que evita el problema de underflow y produce una función con mejor comportamiento numérico.
- Se suman las verosimilitudes individuales de cada punto, generando la verosimilitud total.
El likelihood de un punto queda expresado como:
Y_i · log(Ŷ_i) + (1 − Y_i) · log(1 − Ŷ_i)
Y la verosimilitud total es la suma sobre todos los puntos del dataset [5:55].
¿De dónde sale la cross entropy como función de costo?
Maximizar la verosimilitud total es equivalente a minimizar su negativo [6:20]. Ese negativo recibe el nombre de entropía cruzada o cross entropy, y se define como:
CE = − Σ [ Y_i · log(Ŷ_i) + (1 − Y_i) · log(1 − Ŷ_i) ]
Cada término de la suma aporta exactamente dos componentes porque existen dos clases [6:40]. Esta es la función de costo estándar en cualquier problema de clasificación binaria.
¿Por qué se usa precisamente esta función y no otra?
La cross entropy no es una elección arbitraria. Es una consecuencia directa de la estimación de máxima verosimilitud aplicada a una distribución de Bernoulli [7:05]. Minimizarla equivale a encontrar los parámetros que hacen que el modelo asigne las probabilidades más altas a las clases correctas. Dicho de otro modo, hallar el mínimo de la cross entropy es lo mismo que hallar el máximo de la verosimilitud más natural que se puede definir para este tipo de problema [7:20].
Entender esta derivación permite saber exactamente de dónde proviene la función de error y por qué es la indicada cuando solo hay dos clases posibles. Si te interesa profundizar, en la siguiente sesión se verifica numéricamente que la verosimilitud alcanza sus valores más altos cuando las predicciones de la sigmoide coinciden con las etiquetas reales. ¿Tienes dudas sobre alguno de estos pasos? Compártelas en los comentarios.