Optimización de Modelos de Regresión Logística Multiclase

Clase 15 de 17 • Curso de Regresión Logística con Python y scikit-learn

Contenido del curso

Fundamentos de regresión logística

Regresión logística binomial

Regresión logística multinomial

Conclusiones

Resumen

Entrenar un modelo de regresión logística para clasificación multiclase y comparar distintos solvers es una práctica esencial para obtener el mejor rendimiento posible. Aquí se muestra cómo construir el modelo, iterar sobre múltiples configuraciones y analizar los resultados con matrices de confusión y gráficos de accuracy.

¿Cómo crear una función reutilizable para regresión logística?

El primer paso consiste en encapsular la creación del modelo dentro de una función en Python. Esto permite probar diferentes combinaciones de parámetros sin repetir código [01:03].

Se utiliza LogisticRegression de scikit-learn.
El parámetro random_state (en este caso 42) garantiza que los resultados sean reproducibles.
n_jobs=-1 indica que el modelo debe usar todos los núcleos del procesador disponibles.
El parámetro C controla la fuerza del regularizer: valores más pequeños aplican mayor regularización.

python def logistic_model(C, solver, multiclass): logistic_regression_model = LogisticRegression( random_state=42, solver=solver, multi_class=multiclass, n_jobs=-1, C=C ) return logistic_regression_model

Una primera prueba con solver saga y multiclass multinomial arroja un accuracy del 99% aproximadamente [03:10]. Sin embargo, no basta con un solo resultado; es necesario comparar configuraciones.

¿Cómo comparar múltiples solvers y estrategias multiclase?

Para encontrar la mejor combinación se itera sobre dos listas: una con las estrategias multiclase (OVR y multinomial) y otra con los distintos solvers disponibles [03:42].

¿Qué significan OVR y multinomial?

OVR (One vs Rest): entrena un clasificador binario por cada clase, comparando cada una contra todas las demás.
Multinomial: optimiza la función de pérdida de forma conjunta sobre todas las clases al mismo tiempo.

Ambas estrategias suelen dar resultados similares, pero por responsabilidad con los datos conviene evaluar las dos [06:48].

¿Cómo manejar errores de compatibilidad entre solvers y parámetros?

No todos los solvers son compatibles con todas las configuraciones. Por eso se envuelve cada iteración en un bloque try/except que simplemente omite las combinaciones inválidas sin detener la ejecución [04:32].

python params = [] scores = [] for i in multiclass: for j in solver_list: try: model = logistic_model(1, j, i) model.fit(X_train, y_train) predictions = model.predict(X_test) accuracy = accuracy_score(y_test, predictions) params.append(i + " " + j) scores.append(accuracy) except: pass

Los resultados se almacenan en dos listas: params para identificar cada combinación y scores para registrar el accuracy correspondiente.

¿Qué solver ofrece el mejor accuracy para clasificación multiclase?

Al graficar los resultados con un bar plot se observa que la gran mayoría de combinaciones alcanzan un accuracy muy cercano a 1.0, lo que confirma que la limpieza de datos y la estandarización previas fueron fundamentales [06:28].

python fig, ax = plt.subplots(figsize=(10, 10)) ax.bar(params, scores) ax.set_title("Bins accuracy") plt.xticks(rotation=90) plt.show()

Sin embargo, hay diferencias sutiles. El solver Newton-CG con estrategia multinomial presenta la barra ligeramente más alta, es decir, el mejor rendimiento [07:08]. Al entrenar el modelo final con estos parámetros se obtiene un accuracy del 99.4% y la matriz de confusión muestra apenas cuatro errores en total [07:53].

La matriz de confusión se visualiza con ConfusionMatrixDisplay, usando las clases del modelo como etiquetas y una escala de grises para mayor claridad [08:32].

python cm = confusion_matrix(y_test, predictions, labels=model.classes_) disp = ConfusionMatrixDisplay(confusion_matrix=cm, display_labels=model.classes_) disp.plot(cmap="gray") plt.show()

En la diagonal principal se concentran casi todas las predicciones correctas: clase 1 se predice como 1, clase 2 como 2, y así sucesivamente. Esto confirma que el modelo clasifica de forma certera.

Aunque la regresión logística alcanza su mayor rendimiento en problemas binomiales (dos clases), los resultados demuestran que también funciona muy bien en escenarios multinomiales cuando los datos están bien preparados. Si has probado otras combinaciones de solvers o regularizadores con tus propios datos, comparte tus hallazgos en los comentarios.

Mario Alexander Vargas Celis

student•

La optimización de modelos de regresión logística multiclase busca mejorar el rendimiento del modelo ajustando sus parámetros, seleccionando características relevantes y evaluando adecuadamente su desempeño. A continuación, te explico los pasos clave con ejemplos en Python:

🔢 1. ¿Qué es Regresión Logística Multiclase?

Es una extensión de la regresión logística binaria para problemas con más de dos clases. En scikit-learn, se maneja con las estrategias:

one-vs-rest (por defecto): ajusta un clasificador por clase.
multinomial: considera todas las clases al mismo tiempo (requiere solvers específicos).

🧰 2. Preparación y Entrenamiento del Modelo

from sklearn.linear_model import LogisticRegression from sklearn.model_selection import train_test_split from sklearn.datasets import load_iris from sklearn.preprocessing import StandardScaler

# Dataset de ejemplo data = load_iris() X, y = data.data, data.target

# Escalado y split X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42) scaler = StandardScaler() X_train = scaler.fit_transform(X_train) X_test = scaler.transform(X_test)

# Modelo base model = LogisticRegression(multi_class='multinomial', solver='lbfgs', max_iter=200) model.fit(X_train, y_train)

⚙️ 3. Optimización con Validación Cruzada y Grid Search

from sklearn.model_selection import GridSearchCV

param_grid = { 'C': [0.01, 0.1, 1, 10], # regularización 'solver': ['newton-cg', 'lbfgs', 'saga'], 'multi_class': ['multinomial'] }

grid = GridSearchCV(LogisticRegression(max_iter=200), param_grid, cv=5, scoring='accuracy') grid.fit(X_train, y_train)

print("Mejores parámetros:", grid.best_params_) print("Mejor precisión en validación:", grid.best_score_)

📈 4. Evaluación del Modelo

from sklearn.metrics import classification_report, confusion_matrix

y_pred = grid.predict(X_test)

print("Reporte de clasificación:\n", classification_report(y_test, y_pred)) print("Matriz de confusión:\n", confusion_matrix(y_test, y_pred))

🧪 5. Consideraciones Avanzadas

Regularización: controla el sobreajuste. Usa C más pequeños para mayor penalización.
Solvers recomendados:
- lbfgs: rápido y eficiente para datos pequeños/medianos.
- newton-cg: buena para problemas multiclase.
- saga: compatible con L1 y grandes volúmenes.
Regularización L1 vs L2:
- L1 (Lasso): puede eliminar variables irrelevantes.
- L2 (Ridge): reduce complejidad del modelo sin eliminar variables.

✅ Recomendaciones

Estandariza tus datos antes de entrenar.
Usa validación cruzada para evitar overfitting.
Considera StratifiedKFold si las clases están desbalanceadas.
Evalúa con precisión, recall, F1-score y matriz de confusión.

FELIX DAVID CORDOVA GARCIA

Fernando Jesús Núñez Valdez

Carlos Mazzaroli

José Fernando Aguilar Arredondo

Rafael Rivera

Julián Cárdenas

Leandro Tenjo

Camilo Granda Gómez

Ramiro José Bamaceda Janne

Eugenio Schiavoni

Emilio José Chaparro Barrera

Alarcon7a

Rolando

Fernando Chavez Caracas

Hugo Fernandez Quiroz

Antonio Demarco Bonino

Mauricio Escobar

Angel Martínez

Optimización de Modelos de Regresión Logística Multiclase

Fundamentos de regresión logística

Regresión Logística con Python y Scikit Learn

Regresión Logística con Python y Scikit Learn

Cuándo usar la regresión logística en modelos de clasificación

Regresión Logística: Fórmula y Aplicación en Python

Regresión logística binomial

Regresión Logística Aplicada a Dataset Binomial de Churn

Análisis de Correlación y Escalado de Datos en Pandas

Análisis Exploratorio de Datos con Visualización usando Seaborn y Matplotlib

Regresión Logística para Clasificación Binomial

Regresión Logística: Evaluación y Optimización de Modelos

Análisis de Resultados en Modelos de Regresión Logística

Regularizadores L1 y L2 en Regresión Logística

Regresión logística multinomial

Regresión Logística Multiclase: Estrategias y Solvers Efectivos

Clasificación Multiclase con Regresión Logística en Python

Análisis Exploratorio y Escalamiento de Datos para Regresión Logística

Optimización de Modelos de Regresión Logística Multiclase

Conclusiones

Proyecto Final: Diagnóstico de Cáncer de Seno con Regresión Logística

Comparte tu proyecto de regresión logística y certifícate