La regresión logística posee una poderosa capacidad para evaluar modelos, utilizando su distintiva forma de S para proyectar los puntos de datos y obtener probabilidades. Pero, ¿cómo logra realmente obtener esos buenos resultados? En este artículo, profundizaremos en esos detalles esenciales para entender por qué la regresión logística es tan eficaz en modelar datos.
¿Cómo utiliza el estimador de máxima verosimilitud (MLE)?
El Estimador de Máxima Verosimilitud (Maximum Likelihood Estimator, MLE) es un algoritmo crucial en la evaluación de modelos de regresión logística. Su función es simple: tomar todas las probabilidades calculadas y realizar una suma ponderada de ellas. Además, se aplica el logaritmo a esta suma, técnica que optimiza el proceso de predicción:
- Las probabilidades positivas se utilizan tal cual, mientras que para las negativas se aplica 1 menos la probabilidad.
- Se obtiene así un rate continuo que indica qué tan bien se hacen las predicciones: cuanto más alto, mejor es la calidad de la predicción.
¿Qué rol juega la función de costo en Machine Learning?
En el ámbito de la inteligencia artificial, no solo se busca optimizar un modelo, sino minimizar el error o la función de costo. Aquí es donde entra en juego el descenso del gradiente, diminuyendo el rate de la función de costo. El objetivo es claro: mejorar la precisión de predicción.
¿Cómo funciona el descenso del gradiente?
La función de costo es matemática y mide la diferencia entre la predicción del modelo y el valor real.
A través de derivadas parciales repetidas, se busca el punto más bajo de esta función.
Al alcanzar el mínimo de la función de costo, se optimizan las predicciones.
¿Cómo calcular la función de costo para una predicción?
El cálculo de esta función implica la diferencia entre las predicciones del modelo y los resultados reales. Supongamos que:
Para un resultado real de 1, dejamos la probabilidad predicha; si es 0, aplicamos 1 menos la probabilidad.
Aplica el logaritmo para obtener un valor depurado de la función de costo.
Esto se puede ejemplificar así:
Predicción de probabilidad = 0.8, valor real = 1:
Aplicando el logaritmo, se obtiene un valor de -0.2231.
Probabilidad de 0.95, pero valor real = 0:
Resultado del cálculo da -2.9957.
Finalmente, sumando estos valores y calculando el promedio, se obtiene el valor de la función de costo. Cuanto más bajo sea este valor, mejor será la precisión de las predicciones.
¿Por qué es fundamental entender estos conceptos en Machine Learning?
Dominar estos conceptos es crucial en el ámbito de la inteligencia artificial y el deep learning. Comprender la mecánica detrás de la regresión logística y la optimización del descenso del gradiente permitirá implementar modelos más eficientes. Para aquellos interesados en profundizar, se recomienda cursos en redes neuronales, donde estos temas se abordan con mayor detalle y desde cero, usando herramientas como NumPy.
La comprensión de estos procesos no solo acrecentará el conocimiento técnico, sino que también potenciará la habilidad para implementar modelos predictivos efectivos en el mundo real. ¡Continúa aprendiendo y perfecciona tus habilidades!
Una de las mejores explicaciones de degradiente con la parte matematica
Muy buena explicación
Este es de los cursos que he tomado el que menos comentarios tiene, pero a su vez está siendo de mis favoritos por el reto que representa para mí 😎
En el minuto 1:40 habla de que en ML buscamos disminuir la función de costo y por eso usamos algoritmos como el descenso del gradiente pero en el minuto 2:20 dice que el descenso del gradiente busca optimizar la función de costo....
¿Evaluando el MLE es preferible un resultado menor? ...no entiendo porque...
MLE = función de perdida?
Esto m arrojo ChatGPT:
No, la estimación de máxima verosimilitud (MLE) no es igual a la función de costo, pero están relacionadas en el contexto del aprendizaje automático y la optimización de modelos estadísticos.
El MLE es un método estadístico utilizado para encontrar los valores de los parámetros de un modelo probabilístico que maximizan la probabilidad de observar los datos que tienes. Es un enfoque común en estadísticas para estimar parámetros desconocidos en una distribución de probabilidad.
La función de costo, por otro lado, es una medida que se utiliza en el aprendizaje automático para evaluar qué tan bien se ajusta un modelo a los datos de entrenamiento. La función de costo cuantifica la diferencia entre las predicciones del modelo y los valores reales de los datos. El objetivo en el aprendizaje automático es minimizar esta función de costo para encontrar los parámetros del modelo que hacen que las predicciones se ajusten mejor a los datos de entrenamiento.
La relación entre el MLE y la función de costo radica en que en muchos casos, la función de costo utilizada en el aprendizaje automático es de hecho la negación del logaritmo de la función de verosimilitud. Esto se debe a que al maximizar la verosimilitud, se minimiza su negativo (es decir, se maximiza el logaritmo de la verosimilitud negativo), lo que es equivalente a minimizar la función de costo. Esta relación se utiliza en la optimización de modelos para encontrar los valores de parámetros que maximizan la probabilidad de los datos o minimizan la función de costo.
En resumen, aunque no son lo mismo, el MLE y la función de costo están relacionados en el contexto del aprendizaje automático, ya que la función de costo puede estar basada en la verosimilitud negativa, y el proceso de optimización busca minimizar esta función para encontrar los mejores parámetros del modelo.
Según lo menciona el profesor en esta clase o como entendí yo es al revés, mientras mas grande el MLE es mejor. Cuando usas el gradiente es cuando los resultados deben de ser menores.
En el examen creo que se equivocaron en la respuesta de esa pregunta.
Habia escuchado de "disminuir" el gradiente. No me habia quedado tan claro hasta ahora. Muchas gracias profe.
La regresión logística es un modelo estadístico ampliamente utilizado para problemas de clasificación binaria (por ejemplo: aprobar/reprobar, enfermedad/sano, fraude/no fraude). Aquí tienes una guía completa con los puntos clave para su evaluación y optimización:
📘 1. Fundamentos de la Regresión Logística
Objetivo: Predecir la probabilidad de que una observación pertenezca a una clase.
Salida: Valores entre 0 y 1 → Probabilidades → Se clasifican en clases usando un umbral (por defecto, 0.5).
🧪 2. Evaluación del Modelo
✅ Métricas más importantes:
MétricaDescripciónAccuracyProporción de predicciones correctas. Peligrosa en clases desbalanceadas.PrecisionTP / (TP + FP) → ¿Qué tan precisas son las predicciones positivas?**Recall (Sensibilidad)**TP / (TP + FN) → ¿Qué tan bien detecta los positivos?F1 ScoreMedia armónica entre precision y recall. Útil cuando hay desbalance.ROC-AUCÁrea bajo la curva ROC. Evalúa desempeño a todos los umbrales posibles.Matriz de ConfusiónTabla 2×2 con TP, TN, FP, FN.
Ejemplo en código (usando sklearn):
from sklearn.metrics import confusion_matrix, classification_report, roc_auc_score
L1 (Lasso): fuerza coeficientes a cero → selección de variables.
L2 (Ridge): encoge coeficientes sin eliminarlos.
from sklearn.linear_model import LogisticRegression
model = LogisticRegression(penalty='l2', C=1.0) # menor C = más regularización
🔄 c) Validación Cruzada
Divide el dataset en múltiples particiones para evaluar estabilidad.
from sklearn.model_selection import cross_val_score
scores = cross_val_score(model, X, y, cv=5, scoring='f1')
print(scores.mean())
📊 d) Optimización del Umbral de Clasificación
Por defecto es 0.5, pero puedes ajustarlo con base en la curva ROC o maximizando F1.
from sklearn.metrics import precision_recall_curve
precisions, recalls, thresholds = precision_recall_curve(y_test, y_proba)
# Escoge umbral que maximice F1, por ejemplo
🧠 4. Diagnóstico de Errores
Revisar casos mal clasificados (FP y FN) para mejorar el modelo.
Usar herramientas como SHAP o LIME para interpretar decisiones del modelo.
📌 Conclusión
Una regresión logística bien evaluada y optimizada puede ser muy poderosa y robusta, incluso frente a modelos más complejos. La clave está en:
Elegir buenas variables.
Aplicar regularización.
Evaluar con métricas completas (no solo accuracy).
Ajustar el umbral para el contexto del problema.
Validar con datos nuevos o cruzados.
En la tabla del minuto 4 en la columna llamada Corrected Probabilities según entiendo los valores para los ID 3 y ID4 deberían ser 0.53 y 0.68 respectivamente ya que sus Predicted Probabilities están prediciendo un valor que se redonde a 0 cuando el valor real es 1. Asimismo, el valor de Corrected Probabilities de la fila ID 5 debería ser 0.1 ya que su probabilidad predice un 0.1 el cual se redondea a 0 ( valor real que aparece a sus costado) por lo que el valor de la probabilidad correcta debería seguir siendo 0.1 y nó 0.9, ¿Es correcto mi análisis?
no se redondean, se llevan a una misma probabilidad en funcion de los valires actuales en 1... de manera que si el valor real es 1 entonces no cambia la probabilidad, pero si es cero se resta la probabilidad predicha a 1 que representa el 100% de la probabilidad, quedando en tonces para el caso ID5 1 - 0.1 = 0.9
no es un redondeo, es llevar los valores a una probabilidad en una misma representacion que para este caso es probabilidad para cada clase, de modo que los datos que realmente son 1, se dejan con la probabilidad pero los que son 0 se les resta 1 menos la probabilidad, con el fin de tener la probabilidad exacta para el caso que sea 0, de modelo que en ID5 queda 1-0.1 = 0.9
FUNCIÓN DE COSTO: REGRESIÓN LOGÍSTICA.
La función de costo nos permite ver que tan bien funciona nuestro modelo, determinando el error que hay entre el valor real y el valor aproximado. En regresión lineal utilizamos el método de mínimos cuadrados para minimizar el error.
Como la regresión la regresión logística trabaja con probabilidades, lo que queremos hacer es encontrar los valores de Betha (β) que van a maximizar nuestra probabilidad. La forma de maximizar la probabilidad es por medio de MLE (Maximum Likelihood Estimation), es un seria de productos de la probabilidad:
P(y|x): La distribución de probabilidad.
En regresión logística, como los resultados van a ser de verdadero o falso, la distribución de probabilidad que tendremos la podemos representar con la distribución de Bernoulli, pues describe la probabilidad en la que sus valores van a ser binarios.
La distribución de Bernoulli considera la probabilidad de éxito y de fracaso.
Distribución de Bernoulli:
σ: La función de probabilidad, en este caso sería la función logística.
z: los parámetros betha (β)
Si sustituimos nuestra distribución de probabilidad en MLE:
Realizar multiplicaciones de probabilidad no es muy práctico para la memoria y manejar números decimales no es fácil, entonces aplicamos el logaritmo para tenerlo en forma de sumatoria, al aplicar el logaritmos, los exponentes su vuelven una multiplicación, y las multiplicaciones se vuelven una suma.
La función de costos de la regresión logística es:
Ya que tenemos nuestra función de costo, podemos obtener su derivada (El desarrollo de esta derivada es algo largo, primer se debe derivar los logaritmos, luego la función logística, y luego simplificar bastante).
La derivada de la función de costo:
Ya teniendo la derivada poder optimizar para maximizar la probabilidad, un algoritmo que se aplica es el gradiente.
*Nota: Si la derivada la llegan a encontrar en negativo, es porque no van a maximizar, van a minimizar la función.
Disminuir la función de costo se refiere al proceso de optimización en modelos de machine learning, como la regresión logística. La función de costo mide la diferencia entre las predicciones del modelo y los resultados reales. Al disminuir ese costo, el modelo mejora sus predicciones. Esto se logra mediante técnicas como el descenso del gradiente, que ajusta los parámetros del modelo iterativamente para encontrar la configuración que minimiza el error. Esto es esencial para lograr un rendimiento óptimo en la clasificación de datos.
No se preocupen tanto por la teoría, entiendan cuales son los valores que necesitan para que sea un modelo optimo. Después de un poco de práctica y de a poco viendo explicaciones se entienden, además aprovechen a chat gpt o pilot, para preguntarles el resultado a mi siempre me ayuda a entender por que los numeros pero no se estresen tanto en la práctica es ver que tan útil es el modelo y se van a ir aprendiendo que numeros son positivos
En otras palabras:
Cost Function: Mide cuán lejos está el modelo de la realidad (cuán mal o bien predice). Ejemplo de uso: predicción de abandono de clientes (churn).
Gradient Descent: El proceso de ajuste de los parámetros del modelo para reducir la función de costo. Ejemplo de uso: entrenamiento de redes neuronales.
Perdón por el comentario off topic, pero qué buena playera/remera! ¿Dónde la compraste profe? :O
Todo me da vuelta, T.T, no entendí nada
no sobra hacer un repaso a las clases de cálculo diferencial y el manejo de las derivadas.
Es interesante la evaluacion del modelo MLE. Para el desarrollo de un deep learning.
No entendí muy bien la parte de las matemáticas, complemente por otras rutas, pero igual siento cierta duda...