Optimización de Modelos de Regresión Logística Multiclase

Clase 15 de 17 • Curso de Regresión Logística con Python y scikit-learn

Resumen

¿Cómo entrenar un modelo de regresión logística multiclase?

La regresión logística es una de las técnicas más utilizadas en la clasificación de datos. Permite categorizar de manera eficaz un conjunto de datos en varias clases, facilitando la comprensión del comportamiento de los mismos. En este sentido, vamos a explicar cómo entrenar un modelo de regresión logística multiclase usando LogisticRegression de la librería Scikit-learn de Python mediante el uso de parámetros como solver, multi_class, y C, así como la iteración sobre diferentes combinaciones para obtener el mejor modelo posible.

¿Qué pasos se siguen para crear el modelo?

Para comenzar, es necesario definir las variables y parámetros que se usarán en el entrenamiento del modelo. Los pasos son:

Definir el modelo: Utilizamos LogisticRegression especificando parámetros clave. Un ejemplo es el random state para asegurar resultados repetibles.

from sklearn.linear_model import LogisticRegression

logistic_regression_model = LogisticRegression(
    random_state=42,
    solver='saga',
    multi_class='multinomial',
    n_jobs=-1,
    C=1.0
)

Crear una función: Para gestionar de forma dinámica los parámetros, podemos crear una función que acepte los parámetros C, solver y multi_class.

def logistic_model(C, solver, multi_class):
    return LogisticRegression(
        C=C,
        solver=solver,
        multi_class=multi_class,
        n_jobs=-1,
        random_state=42
    )

Entrenar al modelo: Una vez definido, entrenar al modelo con los datos de entrenamiento y realizar predicciones.

model = logistic_model(1, 'saga', 'multinomial')
model.fit(X_train, y_train)
predictions = model.predict(X_test)

Evaluar resultados: Es crucial evaluar la precisión del modelo utilizando métricas como la matriz de confusión y el accuracy score.

from sklearn.metrics import confusion_matrix, accuracy_score

cm = confusion_matrix(y_test, predictions)
accuracy = accuracy_score(y_test, predictions)
print('Confusion Matrix:\n', cm)
print('Accuracy:', accuracy)

¿Cómo mejorar el modelo?

Una buena práctica para optimizar el modelo es probar distintas combinaciones de solver y multi_class y ver cuál proporciona mejores resultados.

Iteración sobre combinaciones: Utilizar bucles para iterar a través de posibles valores para multi_class y solver.

multiclass_options = ['ovr', 'multinomial']
solver_list = ['newton-cg', 'saga', 'liblinear', 'sag']

best_score = 0
best_params = {}

for mc in multiclass_options:
    for solver in solver_list:
        try:
            model = logistic_model(1, solver, mc)
            model.fit(X_train, y_train)
            predictions = model.predict(X_test)

            accuracy = accuracy_score(y_test, predictions)
            if accuracy > best_score:
                best_score = accuracy
                best_params = {'solver': solver, 'multi_class': mc}

        except Exception as e:
            # Handle exceptions for incompatible configurations
            continue

print('Best Score:', best_score)
print('Best Params:', best_params)

Visualizar los resultados: Utilizar gráficos para analizar los resultados obtenidos y así seleccionar el modelo más adecuado.

import matplotlib.pyplot as plt
import seaborn as sns

sns.barplot(x=best_params.keys(), y=best_params.values())
plt.title('Scores with different solvers and multi_class options')
plt.xticks(rotation=90)
plt.show()

Este proceso puede parecer exhaustivo, pero es crucial para entender el rendimiento de cada configuración y seleccionar el mejor modelo para la clasificación múltiple.

¿Por qué es importante el ajuste de hiperparámetros?

Ajustar los hiperparámetros permite:

Obtener un modelo más preciso: Incrementando la tasa de clasificación correcta.
Mejorar la eficiencia computacional: Adaptando los recursos al problema.
Aumentar la robustez del modelo: Frente a ruido y datos atípicos.

La clave para el éxito en la regresión logística multiclase reside en realizar análisis minuciosos de los resultados y en ajustar los parámetros adecuadamente. De esta manera, podremos garantizar la implementación de un modelo que no solo cumpla con la tarea de clasificación, sino que lo haga con un alto grado de precisión. ¡Continúa explorando y mejorando tus modelos para lograr mejores desempeños en tus proyectos de machine learning!

FELIX DAVID CORDOVA GARCIA

student•

Una forma más sencilla de optimizar los hipeparámetros del modelo de Regresión Lineal es usando GridSearchCV

Esto también se usa para otros modelos de regresión y clasificación, lo que hizo el profesor es basicamente lo que hace este modelo por dentro, un loop de varios ciclos for

En la figura de abajo se puede observar el mejor acuracy obtenido , nótese que debería de ser 0.93 y no 0.99 como se muestra en el video por un ligero error al darle una columna extra al set de X el cual explique en la clase anterior.

El modelo clf ya se encuentra entrenado con los mejores hiperparámetros por lo que yase encuentra listo para hacer predicciones

Fernando Jesús Núñez Valdez

student•

Genial, bro!! Esto ayuda mucho a automatizar el proceso.

Carlos Mazzaroli

student•

Buenisimo aporte mi rey

Fernando Jesús Núñez Valdez

student•

Con este código podemos hacer que se muestre el scoring en la grafica de barras, para ver mejor el accuracy:

fig, ax1 = plt.subplots(figsize=(10,5))

ax = sns.barplot(
        ax=ax1,
        x  = params,
        y = scores
        )
ax.set_title('Beans Accuracy')
ax.set_xticklabels(labels = ax.get_xticklabels(), rotation=66)
ax.bar_label(ax.containers[0])
plt.show()

José Fernando Aguilar Arredondo

student•

Gran aporte compañero. Para los que estén usando google colab y les arroje algún error, por el uso de "bar_label" Pueden actualizar con el siguiente comando: "!pip install matplotlib --upgrade"

Rafael Rivera

student•

pensando que habia overfiting use cross validation para verificar:

from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score

kfold = KFold(n_splits=5)

results = cross_val_score(model, X_test, y_test, cv=kfold)
print(results.mean())

0.9863479638430714

el score es muy similar, lo que nos indicaria que no hay Overfiting

Julián Cárdenas

student•

Buen aporte!!

Leandro Tenjo

student•

🔍 Acercamiento para ver mejor la diferencia:

Leandro Tenjo

student•

sns.barplot( x=parametros, y=scores )
plt.xticks( rotation=90 )
plt.ylim([ 0.97, 1 ])

Mario Alexander Vargas Celis

student•

La optimización de modelos de regresión logística multiclase busca mejorar el rendimiento del modelo ajustando sus parámetros, seleccionando características relevantes y evaluando adecuadamente su desempeño. A continuación, te explico los pasos clave con ejemplos en Python:

🔢 1. ¿Qué es Regresión Logística Multiclase?

Es una extensión de la regresión logística binaria para problemas con más de dos clases. En scikit-learn, se maneja con las estrategias:

one-vs-rest (por defecto): ajusta un clasificador por clase.
multinomial: considera todas las clases al mismo tiempo (requiere solvers específicos).

🧰 2. Preparación y Entrenamiento del Modelo

from sklearn.linear_model import LogisticRegression from sklearn.model_selection import train_test_split from sklearn.datasets import load_iris from sklearn.preprocessing import StandardScaler

# Dataset de ejemplo data = load_iris() X, y = data.data, data.target

# Escalado y split X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42) scaler = StandardScaler() X_train = scaler.fit_transform(X_train) X_test = scaler.transform(X_test)

# Modelo base model = LogisticRegression(multi_class='multinomial', solver='lbfgs', max_iter=200) model.fit(X_train, y_train)

⚙️ 3. Optimización con Validación Cruzada y Grid Search

from sklearn.model_selection import GridSearchCV

param_grid = { 'C': [0.01, 0.1, 1, 10], # regularización 'solver': ['newton-cg', 'lbfgs', 'saga'], 'multi_class': ['multinomial'] }

grid = GridSearchCV(LogisticRegression(max_iter=200), param_grid, cv=5, scoring='accuracy') grid.fit(X_train, y_train)

print("Mejores parámetros:", grid.best_params_) print("Mejor precisión en validación:", grid.best_score_)

📈 4. Evaluación del Modelo

from sklearn.metrics import classification_report, confusion_matrix

y_pred = grid.predict(X_test)

print("Reporte de clasificación:\n", classification_report(y_test, y_pred)) print("Matriz de confusión:\n", confusion_matrix(y_test, y_pred))

🧪 5. Consideraciones Avanzadas

Regularización: controla el sobreajuste. Usa C más pequeños para mayor penalización.
Solvers recomendados:
- lbfgs: rápido y eficiente para datos pequeños/medianos.
- newton-cg: buena para problemas multiclase.
- saga: compatible con L1 y grandes volúmenes.
Regularización L1 vs L2:
- L1 (Lasso): puede eliminar variables irrelevantes.
- L2 (Ridge): reduce complejidad del modelo sin eliminar variables.

✅ Recomendaciones

Estandariza tus datos antes de entrenar.
Usa validación cruzada para evitar overfitting.
Considera StratifiedKFold si las clases están desbalanceadas.
Evalúa con precisión, recall, F1-score y matriz de confusión.

Camilo Granda Gómez

student•

Ramiro José Bamaceda Janne

student•

Overfited but good class..

Rafael Rivera

student•

seria interesante que demostraras que hay overfiting

Eugenio Schiavoni

student•

Siempre que nos arroje resultados de 0.99 es dudoso, como menciono el compañero mas arriba le falto sacar .['Class'] por eso obtiene tan buen desempeño, si sacamos esa columna obtenemos valores de 0.89 a 0.93 lo cual es una excelente puntuación y mas creíble. Por otro lado el profe unas clases mas atrás dice que cuando obtengamos valores como 0.99 dudemos, y el acá no dudo!! jaja Igual es un genio como explica de bien, esos errores nos pasan a todxs !

Emilio José Chaparro Barrera

student•

model = logistic_model(1, 'saga', 'multinomial')
model.fit(X_train, Y_train)
Y_pred = model.predict(X_test)
print(confusion_matrix(Y_test, Y_pred))
print(accuracy_score(Y_test, Y_pred))
```model = logistic\_model(1, 'saga', 'multinomial')model.fit(X\_train, Y\_train)Y\_pred = model.predict(X\_test)print(confusion\_matrix(Y\_test, Y\_pred))print(accuracy\_score(Y\_test, Y\_pred))



El model al ser entrenado con datos estandarizados de X\_train y con los no estandarizados de Y\_train y realizar predicciones con X\_test std genera algun inconveniente dentro del modelo? O solo realiza la clasificación de los datos relacionando los datos std con los NO std?

Ramiro José Bamaceda Janne

student•

Porque utiliza 42 como parametro de ramdom state, alguien sabe?

Alarcon7a

student•

42 es la respuesta a la vida, el universo y todo lo demas segun la obra maestra de Douglas Adams

Fernando Jesús Núñez Valdez

student•

Es básicamente convención, pero se escoge este numero por su significado en una obra de ciencia ficción: The Hitchhiker's Guide to the Galaxy by Douglas Adams#The_Hitchhiker's_Guide_to_the_Galaxy)

Rolando

student•

para que el modelo sea overfiting necesariamente el accuracy debe ser 100?, porque ahi en el ejemplo es mas de 99 y se dice q es buena predicción. Por qué no puedo decir q estoy en un averfiting?

Fernando Chavez Caracas

student•

¿Y .995 de accuracy no es overfitting?

Hugo Fernandez Quiroz

student•

Proablemente si, en esta clase falto hacer algo que se conoce como Cross-Validation para asegurarse que no exista overfiting.

Antonio Demarco Bonino

student•

Me puse a iterar y evitar que salgan las alertas. La verdad es que visualmente rompen mucho la vista.

import warnings
warnings.filterwarnings("ignore")

multiclass = ['ovr', 'multinomial']
solver_list = ['liblinear', 'newton-cg', 'lbfgs', 'sag', 'saga']
scores = []
params = []

for i in multiclass:
    for j in solver_list:
        try:
            model = LogisticRegression(multi_class=i, solver=j, max_iter=1000)
            model.fit(X_train, y_train)
            predictions = model.predict(X_test)
            params.append(i + ' + ' + j)
            accuracy = accuracy_score(y_test, predictions)
            scores.append(accuracy)
            print(f'Model: {i} + {j} | Accuracy: {accuracy:.4f}')
        except Exception as e:
            print(f'Error with model: {i} + {j} | {e}')

warnings.filterwarnings("default")

Mauricio Escobar

student•

Predicción para nuevos valores (aleatorios dentro del rango) + guardar el modelo final:

# rangos
perimeter    = [524.736000, 1985.37]
EquivDiameter= [161.243764, 569.374358]
Solidity     = [0.919246,   0.994677]
Roundness    = [0.489618,   0.990685]
ShapeFactor1 = [0.002778,   0.010451]
ShapeFactor2 = [0.000564,   0.003665]


list_cols = [perimeter, EquivDiameter, Solidity, Roundness,
             ShapeFactor1, ShapeFactor2]
dict_cols = {}

#valores random dentro del rango de cada columna
for i in range(len(df_bean_over.columns)-1): # sin la predictora :O
    dict_cols[df_bean_over.columns[i]] = np.random.uniform(list_cols[i][0],
                                                           list_cols[i][1])

new_data = pd.DataFrame(dict_cols, index= [0])
st_new_data = scaler.transform(new_data)                # escalamiento
pred_new_data = best_model.predict(st_new_data)         # predicción

prob_new_data = best_model.predict_proba(st_new_data)   # probabilidad
prob_new_data

# probabilidad de cada clase
dict_prob = {}
for i in range(len(best_model.classes_)):
    dict_prob[best_model.classes_[i]] = prob_new_data[0][i]

categories= ['BARBUNYA', 'BOMBAY', 'CALI', 'DERMASON', 'HOROZ', 'SEKER', 'SIRA']
encoding_nums = [1, 2, 3, 4, 5, 6, 7]

print(f'probabilities:\n{dict_prob}\n\n', #probabilidad de que el dato pertenezca a cada 'Class'
     f'prediction: {pred_new_data}-> {categories[np.where(encoding_nums == pred_new_data)[0][0]]}') #predicción



# guardamos el modelo
def save_model(model, scaler, name):
    joblib.dump(model, name + '.pkl')
    joblib.dump(scaler, name + '_scaler.pkl')
    print('model saved :D')
    
#save_model(model= best_model, scaler= scaler, name= 'logistic_regression_dry_bean')

Angel Martínez

student•

Por qué obtenemos 0.99 de accuracy? Bueno en la clase anterior escribimos:

df_dea = X_over
df_dea['Class'] = y_over

Debido a esto implícitamente estamos agregando la columna objetivo ('Class') en la variable predictora (X_over).

Es decir estamos incluyendo nuestra variable objetivo como variable predictora, la forma de solucionar esto es cambiando el código mencionado por:

df_dea = X_over.copy(deep = True) 
df_dea['Class'] = y_over

Angel Martínez

student•

Por qué obtenemos 0.99 de accuracy? Bueno en la clase anterior escribimos:

df_dea = X_over
df_dea['Class'] = y_over
```Debido a esto implícitamente estamos agregando la columna objetivo ('Class') en la variable predictora (X\_over)![]()![](https://imgur.com/a/XX3qD0z)![](https://imgur.com/a/XX3qD0z)!\[]\(https://imgur.com/a/XX3qD0z)Es decir estamos incluyendo nuestra variable objetivo como variable predictora, la forma de solucionar esto es cambiando el código mencionado por: df\_dea = X\_over.copy(deep = True) df\_dea\['Class'] = y\_over```python
df_dea = X_over.copy(deep = True) 
df_dea['Class'] = y_over
``` ![](file:///C:/Users/Angel/Desktop/Captura%20de%20pantalla%202024-07-09%20194944.jpg)![]()

fig, ax1 = plt.subplots(figsize=(10,5))

ax = sns.barplot(
        ax=ax1,
        x  = params,
        y = scores
        )
ax.set_title('Beans Accuracy')
ax.set_xticklabels(labels = ax.get_xticklabels(), rotation=66)
ax.bar_label(ax.containers[0])
plt.show()

from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score

kfold = KFold(n_splits=5)

results = cross_val_score(model, X_test, y_test, cv=kfold)
print(results.mean())

0.9863479638430714

model = logistic_model(1, 'saga', 'multinomial')
model.fit(X_train, Y_train)
Y_pred = model.predict(X_test)
print(confusion_matrix(Y_test, Y_pred))
print(accuracy_score(Y_test, Y_pred))
```model = logistic\_model(1, 'saga', 'multinomial')model.fit(X\_train, Y\_train)Y\_pred = model.predict(X\_test)print(confusion\_matrix(Y\_test, Y\_pred))print(accuracy\_score(Y\_test, Y\_pred))



El model al ser entrenado con datos estandarizados de X\_train y con los no estandarizados de Y\_train y realizar predicciones con X\_test std genera algun inconveniente dentro del modelo? O solo realiza la clasificación de los datos relacionando los datos std con los NO std?

import warnings
warnings.filterwarnings("ignore")

multiclass = ['ovr', 'multinomial']
solver_list = ['liblinear', 'newton-cg', 'lbfgs', 'sag', 'saga']
scores = []
params = []

for i in multiclass:
    for j in solver_list:
        try:
            model = LogisticRegression(multi_class=i, solver=j, max_iter=1000)
            model.fit(X_train, y_train)
            predictions = model.predict(X_test)
            params.append(i + ' + ' + j)
            accuracy = accuracy_score(y_test, predictions)
            scores.append(accuracy)
            print(f'Model: {i} + {j} | Accuracy: {accuracy:.4f}')
        except Exception as e:
            print(f'Error with model: {i} + {j} | {e}')

warnings.filterwarnings("default")

# rangos
perimeter    = [524.736000, 1985.37]
EquivDiameter= [161.243764, 569.374358]
Solidity     = [0.919246,   0.994677]
Roundness    = [0.489618,   0.990685]
ShapeFactor1 = [0.002778,   0.010451]
ShapeFactor2 = [0.000564,   0.003665]


list_cols = [perimeter, EquivDiameter, Solidity, Roundness,
             ShapeFactor1, ShapeFactor2]
dict_cols = {}

#valores random dentro del rango de cada columna
for i in range(len(df_bean_over.columns)-1): # sin la predictora :O
    dict_cols[df_bean_over.columns[i]] = np.random.uniform(list_cols[i][0],
                                                           list_cols[i][1])

new_data = pd.DataFrame(dict_cols, index= [0])
st_new_data = scaler.transform(new_data)                # escalamiento
pred_new_data = best_model.predict(st_new_data)         # predicción

prob_new_data = best_model.predict_proba(st_new_data)   # probabilidad
prob_new_data

# probabilidad de cada clase
dict_prob = {}
for i in range(len(best_model.classes_)):
    dict_prob[best_model.classes_[i]] = prob_new_data[0][i]

categories= ['BARBUNYA', 'BOMBAY', 'CALI', 'DERMASON', 'HOROZ', 'SEKER', 'SIRA']
encoding_nums = [1, 2, 3, 4, 5, 6, 7]

print(f'probabilities:\n{dict_prob}\n\n', #probabilidad de que el dato pertenezca a cada 'Class'
     f'prediction: {pred_new_data}-> {categories[np.where(encoding_nums == pred_new_data)[0][0]]}') #predicción



# guardamos el modelo
def save_model(model, scaler, name):
    joblib.dump(model, name + '.pkl')
    joblib.dump(scaler, name + '_scaler.pkl')
    print('model saved :D')
    
#save_model(model= best_model, scaler= scaler, name= 'logistic_regression_dry_bean')

df_dea = X_over
df_dea['Class'] = y_over
```Debido a esto implícitamente estamos agregando la columna objetivo ('Class') en la variable predictora (X\_over)![]()![](https://imgur.com/a/XX3qD0z)![](https://imgur.com/a/XX3qD0z)!\[]\(https://imgur.com/a/XX3qD0z)Es decir estamos incluyendo nuestra variable objetivo como variable predictora, la forma de solucionar esto es cambiando el código mencionado por: df\_dea = X\_over.copy(deep = True) df\_dea\['Class'] = y\_over```python
df_dea = X_over.copy(deep = True) 
df_dea['Class'] = y_over
``` ![](file:///C:/Users/Angel/Desktop/Captura%20de%20pantalla%202024-07-09%20194944.jpg)![]()

Optimización de Modelos de Regresión Logística Multiclase

Fundamentos de regresión logística

Regresión Logística con Python y Scikit Learn

Regresión Logística con Python y Scikit Learn

Cuándo usar la regresión logística en modelos de clasificación

Regresión Logística: Fórmula y Aplicación en Python

Regresión logística binomial

Regresión Logística Aplicada a Dataset Binomial de Churn

Análisis de Correlación y Escalado de Datos en Pandas

Análisis Exploratorio de Datos con Visualización usando Seaborn y Matplotlib

Regresión Logística para Clasificación Binomial

Regresión Logística: Evaluación y Optimización de Modelos

Análisis de Resultados en Modelos de Regresión Logística

Regularizadores L1 y L2 en Regresión Logística

Regresión logística multinomial

Regresión Logística Multiclase: Estrategias y Solvers Efectivos

Clasificación Multiclase con Regresión Logística en Python

Análisis Exploratorio y Escalamiento de Datos para Regresión Logística

Optimización de Modelos de Regresión Logística Multiclase

Conclusiones

Proyecto Final: Diagnóstico de Cáncer de Seno con Regresión Logística

Comparte tu proyecto de regresión logística y certifícate