Regresión Logística y Estimación de Máxima Verosimilitud
Clase 13 de 17 • Curso de Matemáticas para Data Science: Probabilidad
Resumen
¿Qué es la regresión logística en machine learning?
La regresión logística es una técnica fundamental en el campo del machine learning utilizada especialmente para problemas de clasificación. A diferencia de la regresión lineal, que se centra en problemas de predicción continua, la regresión logística está diseñada para clasificar datos en distintas categorías o clases. Un aspecto interesante de la regresión logística es que, en lugar de ajustar una línea recta a los datos como en la regresión lineal, se utiliza una curva sigmoide para clasificar los datos en dos grupos distintivos, especialmente en problemas de clasificación binaria.
¿Cómo se aplica en problemas de clasificación binaria?
En un problema de clasificación binaria, es fundamental entender las características y atributos que determinan la clase a la que pertenecen los datos, que son típicamente "0" o "1". Imaginemos que estamos tratando de predecir si una transacción bancaria es fraudulenta o no. Las variables como la hora de la transacción, el monto y la distancia tampoco serían analizadas de manera aislada. En cambio, se combinan en una fórmula con pesos asignados a cada variable, llamados betas, para determinar su importancia relativa.
# Ejemplo simplificado de una combinación lineal en un problema de clasificación
X = w1 * variable_1 + w2 * variable_2 + ... + wn * variable_n
# Aplicar la función sigmoide
probabilidad = 1 / (1 + np.exp(-X))
La salida de la función sigmoide proporciona una probabilidad que facilita la clasificación en 0 o 1, siendo menos de 0.5 clasificada como 0 y más de 0.5 como 1.
¿Qué papel desempeña la máxima verosimilitud?
El concepto de máxima verosimilitud es crucial en la regresión logística. Esta técnica busca maximizar la probabilidad de observar los datos reales dados los parámetros del modelo, en este caso, los betas. Cuando se aplica correctamente, garantiza que las predicciones del modelo estén lo más cerca posible de las clases reales.
El proceso implica calcular el valor de la probabilidad de cada observación del dataset. Esto se realiza utilizando la distribución de Bernoulli para la clasificación binaria. Se proyectan las probabilidades usando la combinación lineal a través de la función sigmoide, optimizando para que coincidan con las clases reales de los datos.
Problemas de clasificación y error de "cross-entropy"
Para minimizar los errores en problemas de clasificación, se utiliza la función de costo conocida como "cross-entropy". Este nombre refleja cómo esta función busca minimizar el negativo de la verosimilitud maximizando la similitud entre la predicción y las clases reales. Este enfoque se ha convertido en un estándar en problemas de clasificación binaria debido a cómo captura la precisión de las probabilidades predichas.
# Fórmula matemática para cross-entropy
cross_entropy = - (y_true * np.log(y_pred) + (1-y_true) * np.log(1-y_pred))
Minimizar esta función es esencial para la eficacia del modelo, ya que mitiga el error al ajustar el modelo hacia una mayor precisión en sus predicciones.
La regresión logística, a través de su capacidad para aplicar la máxima verosimilitud y la optimización con cross-entropy, se convierte en una herramienta poderosa para tareas de clasificación en el aprendizaje automático. La comprensión de estas técnicas no solo mejora la precisión del modelo, sino que también proporciona una comprensión más profunda de los datos y sus patrones subyacentes. ¡Sigue explorando y aprendiendo para profundizar en el emocionante mundo del machine learning!