Regularizadores L1 y L2 en Regresión Logística

Clase 11 de 17 • Curso de Regresión Logística con Python y scikit-learn

Contenido del curso

Fundamentos de regresión logística

Regresión logística binomial

Regresión logística multinomial

Conclusiones

Resumen

Cuando un modelo de regresión logística tiene demasiadas variables independientes, es muy probable que termine memorizando los datos en lugar de aprender patrones útiles. Los regularizadores son la herramienta clave para combatir ese problema, y entender cómo funcionan marca la diferencia entre un modelo que solo funciona en entrenamiento y uno que realmente generaliza.

¿Por qué el overfitting es un problema en regresión logística?

El overfitting ocurre cuando un modelo se ajusta demasiado a los datos de entrenamiento y pierde capacidad de generalización [0:28]. Esto es especialmente común en modelos de regresión logística con muchos features o variables dependientes. Un modelo muy complejo aprende el ruido de los datos, no los patrones reales.

La solución directa es reducir la complejidad del modelo, y eso se logra disminuyendo el peso de cada weight o parámetro dentro de la regresión logística [0:50]. El mecanismo para lograrlo es aplicar una penalización adicional a la función de costo.

¿Cómo funcionan los regularizadores L1 y L2?

Existen dos tipos principales de regularización que se pueden aplicar:

¿Qué hace el regularizador L1?

El regularizador L1 agrega a la función de costo la suma de los valores absolutos de todos los pesos evaluados en cada feature de la regresión logística [1:10]. Esta suma se multiplica por un valor llamado lambda, que es completamente parametrizable.

Valores de lambda muy bajos castigan muy poco y pueden no resolver el overfitting.
Valores de lambda muy altos castigan demasiado y pueden provocar underfitting [1:30].

¿Qué hace el regularizador L2?

El regularizador L2 funciona de manera similar, pero en lugar de usar el valor absoluto, toma el valor cuadrático de todos los pesos para realizar la suma [1:42]. También se multiplica por el valor de lambda.

Ambos regularizadores cumplen el mismo objetivo: reducir la complejidad de los pesos y, en consecuencia, la complejidad general del modelo de regresión logística.

¿Cómo se configuran los regularizadores en scikit-learn?

La implementación es más sencilla de lo que parece, ya que por default la regresión logística ya aplica un regularizador [2:05]:

El parámetro penalty controla qué tipo de regularización se usa. Por defecto siempre viene configurado como L2.
También se puede seleccionar L1, elasticnet o ninguna penalización.
El parámetro C es el equivalente a lambda y controla la intensidad de la penalización [2:25]. Su valor por defecto es 1.0.

Si te encuentras con un problema de overfitting al aplicar regresión logística, el proceso es directo:

Selecciona el tipo de penalizador (L1 o L2).
Ajusta el valor de C iterativamente hasta obtener mejores resultados.
Evalúa el rendimiento del modelo con cada configuración.

La clave está en encontrar el equilibrio correcto del parámetro C: demasiado bajo y el modelo sigue siendo complejo, demasiado alto y pierde capacidad de aprendizaje. Experimentar con diferentes valores es parte fundamental del proceso de optimización de cualquier modelo de machine learning.

Comentarios

FELIX DAVID CORDOVA GARCIA

student•

El notebook que se deja muestra lo mismo que se vio en las clases, no hay ninguna aplicación extra de como se usa un regularizador dentro de un modelo de regresión logística

Melquiades Rodríguez

student•

cuales aplicaciones extra se podrían agregar? 🤔

FELIX DAVID CORDOVA GARCIA

student•

Algo así,cambiando el penalty, el C y otros coeficientes

Alfonso Andres Zapata Guzman

student•

import joblib

class Utils:

    def load_from_csv(self, path):
        return pd.read_csv(path)

    def load_from_mysql(self):
        pass

    def features_target(self, dataset, drop_cols, var_predict):
        X = dataset.drop(drop_cols, axis=1)
        y = dataset[var_predict]
        return X, y

    def model_export(self, clf, score):
        print(score)
        joblib.dump(clf, './models/best_model.pkl')

import numpy as np

from sklearn.model_selection import GridSearchCV


class Models:

    def __init__(self):
        # Grid for classifier
        self.reg_classifier = {
            'LogisticRegressionelasticnet': LogisticRegression(max_iter=100000),
        }

        self.params_classifier = {
            'LogisticRegressionelasticnet': {
                'penalty': ['elasticnet'],
                'solver': ['saga'],
                'l1_ratio': np.arange(0,1,0.01),
            },
        }

        # Grid for regression
        self.reg_regression = {}
        self.params_regression = {}

    def grid_training_classifier(self, X, y):

        best_score = 999
        best_model = None

        for name, reg in self.reg_classifier.items():

            grid_reg = GridSearchCV(reg, self.params_classifier[name], cv=3).fit(X, y.values.ravel())
            score = np.abs(grid_reg.best_score_)

            if score < best_score:
                best_score = score
                best_model = grid_reg.best_estimator_

        utils = Utils()
        utils.model_export(best_model, best_score)

models = Models()
models.grid_training_classifier(x_rsmote, y_rsmote)

Alfonso Andres Zapata Guzman

student•

Aunque con un:

print(best_model, best_score)

ya se obtienen los resultados, pero igual estan las clases creadas en otro curso, mi resultado fue:

LogisticRegression(l1_ratio=0.91, max_iter=100000, penalty='elasticnet',
                   solver='saga') 0.7696106914584545

cone el diccionario pueden agregar las otros valores de regresiones logisticas ya que el solver es distinto para L1, L2 y elasticnet segun se indica en la documentacion: https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html

Alfonso Andres Zapata Guzman

student•

Al tener l1_ratio=0.91, vemos que el regulizador que mejor se tiende adaptar al parecer es el de Lasso.

Nixon Rolando García Ramírez

student•

Hola buena noche, quisiera dejar un link para comprender mejor el tema y profundizar en este: https://www.cienciadedatos.net/documentos/py14-ridge-lasso-elastic-net-python.html

Recuerden, que para mejorar pueden investigar por su cuenta 💪💪💪💪💪💪💪.

Miguel Angel Herrera Chavez

student•

Gracias Nixon.

Julián Uribe Gómez

student•

La regularización L1 y L2 son los modelos Lasso y Ridge, respectivamente, para disminuir la complejidad del modelo y eliminar variables. En el Curso Profesional de Machine Learning con Scikit-Learn con Ariel Ortiz se presentan estos conceptos y otros adicionales como ElasticNet.

Daniel Moreno

student•

Coeficientes del Modelo:

Son valores asignados a cada característica en un modelo de aprendizaje automático.
Ayudan a predecir el resultado objetivo.
Se ajustan durante el entrenamiento del modelo para minimizar la función de costo.

Regularización:

Técnica para evitar el sobreajuste en modelos de aprendizaje automático.
Penaliza la complejidad del modelo durante el entrenamiento.
Ayuda a mejorar la generalización y la estabilidad del modelo.

Tipos de Regularización:

L1 (Lasso):
- Promueve la dispersión de los coeficientes.
- Permite la selección automática de características importantes.
L2 (Ridge):
- Reduce todos los coeficientes por igual.
- Favorece modelos más suaves.
ElasticNet:
- Combina las penalizaciones de L1 y L2.
- Permite capturar las ventajas de ambas técnicas.
Tikhonov (Ridge Regression):
- Controla la multicolinealidad en problemas de regresión lineal.
Group Lasso:
- Agrupa características relacionadas y asigna un solo coeficiente.
ElasticNet de grupo:
- Combina las ideas de ElasticNet y Group Lasso.
- Permite la selección de grupos de características.

Elección de la Técnica de Regularización:

Depende del tipo de datos y el objetivo del modelado.
Fundamental para mejorar la generalización y la estabilidad del modelo de aprendizaje automático.

Mario Alexander Vargas Celis

student•

En regresión logística, los regularizadores L1 y L2 se usan para evitar el sobreajuste del modelo al penalizar coeficientes demasiado grandes. Cada uno actúa de manera diferente sobre los parámetros del modelo.

🔍 ¿Qué son los Regularizadores?

Cuando entrenas un modelo de regresión logística, estás optimizando una función de pérdida (log-loss) para encontrar los mejores coeficientes (pesos). Si no se regulariza, el modelo puede ajustarse demasiado a los datos de entrenamiento y generalizar mal a los nuevos.

La regularización agrega una penalización a la función de pérdida:

L1 (Lasso): Penaliza la suma de los valores absolutos de los coeficientes.
L2 (Ridge): Penaliza la suma de los cuadrados de los coeficientes.

⚖️ Diferencias clave

CaracterísticaL1 (Lasso)L2 (Ridge)Penalización`λ * ∑wᵢEfecto en los pesosFuerza a algunos coeficientes a 0Reduce pero no elimina coeficientesIdeal paraSelección de variables (sparse)Cuando todas las variables importanInterpretabilidadAlta (modelo más simple)Menor (modelo más complejo)

🧠 En Regresión Logística

La función objetivo regularizada sería:

L1: Loss = LogLoss + α * ∑ |wᵢ|
L2: Loss = LogLoss + α * ∑ wᵢ²

🧪 Ejemplo en Python

from sklearn.linear_model import LogisticRegression from sklearn.datasets import load_breast_cancer from sklearn.model_selection import train_test_split from sklearn.preprocessing import StandardScaler from sklearn.metrics import accuracy_score

# Cargar datos X, y = load_breast_cancer(return_X_y=True) X = StandardScaler().fit_transform(X) X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)

# Modelo con L1 (Lasso) model_l1 = LogisticRegression(penalty='l1', solver='liblinear', C=1.0) # C es inverso de α model_l1.fit(X_train, y_train) print("Accuracy (L1):", accuracy_score(y_test, model_l1.predict(X_test)))

# Modelo con L2 (Ridge) model_l2 = LogisticRegression(penalty='l2', solver='liblinear', C=1.0) model_l2.fit(X_train, y_train) print("Accuracy (L2):", accuracy_score(y_test, model_l2.predict(X_test)))

📌 Nota sobre el parámetro C

C en LogisticRegression es el inverso de la regularización (C = 1/λ)
Valores pequeños de C → mayor regularización
Valores grandes de C → menor regularización

✅ Conclusión

Usa L1 si quieres seleccionar automáticamente las variables más importantes (coeficientes 0).
Usa L2 si todas las variables aportan y quieres evitar sobreajuste.
También puedes usar una combinación de ambas: Elastic Net (penalty='elasticnet' con l1_ratio).

Andres Montes

student•

Los regularizadores son técnicas utilizadas en modelos de regresión logística para reducir la complejidad del modelo y minimizar el overfitting. Su función principal es agregar una penalización a la función de costo del modelo.

Existen principalmente dos tipos:

L1 (Lasso): Penaliza la suma de los valores absolutos de los pesos, lo que puede llevar a que algunos pesos se conviertan en cero, permitiendo una selección de características.
L2 (Ridge): Penaliza la suma de los cuadrados de los pesos, ayudando a mantener todos los pesos pero reduciendo su magnitud.

Ambos tipos ayudan a mejorar la generalización del modelo al evitar que se ajuste demasiado a los datos de entrenamiento.

Antonio Demarco Bonino

student•

Una metáfora de Caperucita roja y los regularizadores es esta:

Imagina que Caperucita Roja está caminando por el bosque y tiene que elegir un camino para llegar a la casa de su abuela (encontrar el mejor modelo). El problema es que el bosque está lleno de obstáculos y distracciones (ruido y sobreajuste). Si no tiene cuidado, Caperucita puede tomar un camino demasiado complicado y terminar en el bosque profundo (sobreajuste), donde está el lobo (modelo que no generaliza bien).

Aquí es donde entran los regularizadores: son como los carteles del bosque que le indican a Caperucita que debe evitar los caminos que son demasiado complejos. Estos carteles (L1 y L2) la guían para que tome un camino más directo y seguro, manteniéndose en el camino correcto sin desviarse demasiado. Así, llega a la casa de su abuela (un modelo bien ajustado que generaliza bien).

Marlon Menendez

student•

Hay algunas mejoras que podemos implementar para el entrenamiento del modelo:

- Calcular los pesos de las clases para entrenar el modelo. Recordemos que es un dataset que no esta balanceado, y si le damos pesos a cada clase, esto ayudara a entrenar mejor al modelo. - Usar unicamente los features que tengan un peso significativo en el entrenamiento del modelo. Para ello definimos un umbral para los pesos de las features. Este valor es discrecional, asi que pueden experimentar para mejorar los resultados.- Cambiar el valor de C. C es un valor inverso a la regularizacion que le apliquemos al modelo, por lo que al reducir su valor incrementamos la regularizacion del modelo.

Basado en esto, les dejo mi implementacion del entrenamiento del modelo:

# We obtain the weights of the features
weights = pd.Series(
    model.coef_[0], index=df_processing_scaled.drop("Churn", axis=1).columns.values
)

# We only pull the features with weights above 0.2 or below -0.2
# This is discretional, a different value may work better
useful_features = weights[(weights >= 0.2) | (weights <= -0.2)].index.tolist()
useful_features.extend(["Churn"])
df = df_processing_scaled[useful_features]

# Separate the values into train and test sets
X = df_processing_scaled.drop("Churn", axis=1)
y = df_processing_scaled["Churn"].values
x_train, x_test, y_train, y_test = train_test_split(
    X, y, test_size=0.3, random_state=42
)

# Since the dataset is inbalanced, lets calculate the weights for each
# class using the `compute_class_weight` function
class_weight = compute_class_weight(
    class_weight="balanced",
    classes=df_processing_scaled["Churn"].unique(),
    y=df_processing_scaled["Churn"],
)
class_weight_dict = {0: class_weight[0], 1: class_weight[1]}

# Train the model with a different regularizer
# Keep in mind that C is the inverse of the regularization strenght
model = LogisticRegression(
    solver="lbfgs",
    penalty="l2",
    C=0.75,
    class_weight=class_weight_dict,
    max_iter=250,
    n_jobs=-1,
)
model.fit(x_train, y_train)

# Evaluate the model
preds = model.predict(x_test)

accuracy_score = metrics.accuracy_score(y_test, preds)
f1_value_score = metrics.f1_score(y_test, preds)
precision_score = metrics.precision_score(y_test, preds)
recall_score = metrics.recall_score(y_test, preds)
confusion_matrix = metrics.confusion_matrix(y_test, preds, labels=model.classes_)

figure = plt.figure(figsize=(10, 10))
print(
    f"""Accuracy: {accuracy_score:.4f}
    Recall: {recall_score:.4f}
    Precision: {precision_score:.4f}
    F1 Score: {f1_value_score:.4f}"""
)
cm = metrics.ConfusionMatrixDisplay(
    confusion_matrix=confusion_matrix, display_labels=model.classes_
)
cm.plot()
plt.show()

FELIX DAVID CORDOVA GARCIA

student•

También se pueden llevar sa numérico usando LabelEncoder

jader lopez

student•

idolo

Julián Cárdenas

student•

Gracias!

import joblib

class Utils:

    def load_from_csv(self, path):
        return pd.read_csv(path)

    def load_from_mysql(self):
        pass

    def features_target(self, dataset, drop_cols, var_predict):
        X = dataset.drop(drop_cols, axis=1)
        y = dataset[var_predict]
        return X, y

    def model_export(self, clf, score):
        print(score)
        joblib.dump(clf, './models/best_model.pkl')

import numpy as np

from sklearn.model_selection import GridSearchCV


class Models:

    def __init__(self):
        # Grid for classifier
        self.reg_classifier = {
            'LogisticRegressionelasticnet': LogisticRegression(max_iter=100000),
        }

        self.params_classifier = {
            'LogisticRegressionelasticnet': {
                'penalty': ['elasticnet'],
                'solver': ['saga'],
                'l1_ratio': np.arange(0,1,0.01),
            },
        }

        # Grid for regression
        self.reg_regression = {}
        self.params_regression = {}

    def grid_training_classifier(self, X, y):

        best_score = 999
        best_model = None

        for name, reg in self.reg_classifier.items():

            grid_reg = GridSearchCV(reg, self.params_classifier[name], cv=3).fit(X, y.values.ravel())
            score = np.abs(grid_reg.best_score_)

            if score < best_score:
                best_score = score
                best_model = grid_reg.best_estimator_

        utils = Utils()
        utils.model_export(best_model, best_score)

models = Models()
models.grid_training_classifier(x_rsmote, y_rsmote)

# We obtain the weights of the features
weights = pd.Series(
    model.coef_[0], index=df_processing_scaled.drop("Churn", axis=1).columns.values
)

# We only pull the features with weights above 0.2 or below -0.2
# This is discretional, a different value may work better
useful_features = weights[(weights >= 0.2) | (weights <= -0.2)].index.tolist()
useful_features.extend(["Churn"])
df = df_processing_scaled[useful_features]

# Separate the values into train and test sets
X = df_processing_scaled.drop("Churn", axis=1)
y = df_processing_scaled["Churn"].values
x_train, x_test, y_train, y_test = train_test_split(
    X, y, test_size=0.3, random_state=42
)

# Since the dataset is inbalanced, lets calculate the weights for each
# class using the `compute_class_weight` function
class_weight = compute_class_weight(
    class_weight="balanced",
    classes=df_processing_scaled["Churn"].unique(),
    y=df_processing_scaled["Churn"],
)
class_weight_dict = {0: class_weight[0], 1: class_weight[1]}

# Train the model with a different regularizer
# Keep in mind that C is the inverse of the regularization strenght
model = LogisticRegression(
    solver="lbfgs",
    penalty="l2",
    C=0.75,
    class_weight=class_weight_dict,
    max_iter=250,
    n_jobs=-1,
)
model.fit(x_train, y_train)

# Evaluate the model
preds = model.predict(x_test)

accuracy_score = metrics.accuracy_score(y_test, preds)
f1_value_score = metrics.f1_score(y_test, preds)
precision_score = metrics.precision_score(y_test, preds)
recall_score = metrics.recall_score(y_test, preds)
confusion_matrix = metrics.confusion_matrix(y_test, preds, labels=model.classes_)

figure = plt.figure(figsize=(10, 10))
print(
    f"""Accuracy: {accuracy_score:.4f}
    Recall: {recall_score:.4f}
    Precision: {precision_score:.4f}
    F1 Score: {f1_value_score:.4f}"""
)
cm = metrics.ConfusionMatrixDisplay(
    confusion_matrix=confusion_matrix, display_labels=model.classes_
)
cm.plot()
plt.show()

Regularizadores L1 y L2 en Regresión Logística

Fundamentos de regresión logística

Regresión Logística con Python y Scikit Learn

Regresión Logística con Python y Scikit Learn

Cuándo usar la regresión logística en modelos de clasificación

Regresión Logística: Fórmula y Aplicación en Python

Regresión logística binomial

Regresión Logística Aplicada a Dataset Binomial de Churn

Análisis de Correlación y Escalado de Datos en Pandas

Análisis Exploratorio de Datos con Visualización usando Seaborn y Matplotlib

Regresión Logística para Clasificación Binomial

Regresión Logística: Evaluación y Optimización de Modelos

Análisis de Resultados en Modelos de Regresión Logística