Regularización en Modelos de Machine Learning

Clase 13 de 37 • Curso Profesional de Machine Learning con scikit-learn

Resumen

¿Qué es la regularización en machine learning?

La regularización es una técnica vital en machine learning, diseñada para reducir la complejidad de un modelo al penalizar aquellas variables que aporten menos información. Al aplicar estas penalizaciones, se busca que el modelo no dependa excesivamente de las variables irrelevantes, mejorando así su capacidad de generalización. Visualmente, esto permite a los algoritmos ajustar mejor las predicciones frente a la diversidad de datos en el mundo real.

¿Cómo funciona la regularización?

La técnica de regularización introduce un sesgo en el modelo que ayuda a reducir la varianza de los datos. En un contexto de machine learning, esto implica alterar el comportamiento del modelo para que sea menos ajustado a los datos de entrenamiento y tenga un mejor desempeño con datos no vistos. Esta conceptualización se refleja en la gráfica donde se observa cómo un modelo más regularizado ofrece mejores resultados en una variedad de datos.

Para implementar la regularización, se introduce el concepto de pérdida o "loss", que mide qué tan alejadas están las predicciones de los datos reales. Una menor pérdida indica un mejor modelo. Es crucial evaluar esta pérdida en conjuntos de validación para evitar que el modelo se ajuste excesivamente a los datos de entrenamiento, fenómeno conocido como overfitting.

¿Cuáles son los tipos de regularización más comunes?

En la literatura sobre machine learning, existen principalmente tres tipos de regularización:

Regularización L1 (Lasso): Elimina las características menos relevantes al penalizarlas severamente, lo que provoca que algunos coeficientes se vuelvan cero. Esto es útil para modelos con muchas variables, donde algunas no contribuyen significativamente.
```
# Ejemplo de fórmula simplificada
minimization_L1 = loss + lambda * sum(abs(coef))
```
Regularización L2 (Ridge): Similar a L1, pero en lugar de eliminar por completo las variables, las penaliza haciendo que su impacto sea mínimo, manteniendo así cierta información que podría ser útil a largo plazo.
```
# Ejemplo de fórmula simplificada
minimization_L2 = loss + lambda * sum(coef ** 2)
```
Regularización Elastic Net: Combina las ventajas de L1 y L2, permitiendo mayor flexibilidad al integrar ambas penalizaciones en una sola función. Es especialmente útil cuando se enfrenta a problemas complejos con características correlacionadas.

¿Cuándo usar cada tipo de regularización?

Elegir el tipo de regularización adecuado depende del escenario específico y del conjunto de características:

L1 (Lasso): Es recomendable cuando se tiene un conjunto de características reducido y no tan correlacionado directamente con la variable objetivo. Ayuda a simplificar el modelo eliminando factores irrelevantes.
L2 (Ridge): Es efectiva cuando se cuenta con muchos factores que podrían influir directamente en la variable a predecir. Permite conservar una mayor cantidad de información útil al aplicar penalizaciones moderadas.
Elastic Net: Útil en situaciones donde se quiera capitalizar en lo mejor de ambas regularizaciones. Si enfrentamos un conjunto de datos con correlaciones fuertes y muchas características, Elastic Net proporciona un balance eficiente.

Si el tema te ha interesado, te invito a seguir aprendiendo y experimentando con estas técnicas. La regularización ofrece potentes herramientas para mejorar tus modelos y los resultados pueden ser sorprendentes. Además, si tienes alguna consulta, no dudes en compartirla, estamos aquí para ayudarte.

María Victoria Pérez Mejía

student•

Estoy segura que como yo, otros estudiantes lo llevamos todo tan claro en este curso que no tenemos preguntas. Excelente profesor, explicaciones claras y concisas!

Diego Jurado

student•

Estamos de acuerdo, el profesor aporta mucha claridad, sin embargo estemos de acuerdo tambien en que el tema es denso

Juan Felipe Zárate

student•

La verdad, pienso lo contrario. Siento que este curso es un resumen de lo que se ha visto en otros cursos

María José Medina

student•

Como complemento dejo algunas notas del curso de Redes neuronales con Keras y Scikit-Learn.

En estos casos, L(X, w) vienen siendo las métricas de pérdida y w son los pesos de la red neuronal.

Miguel Angel Velazquez Romero

student•

¿Qué es la regularización y cómo aplicarla?

Esta técnica consiste en disminuir la complejidad de nuestro modelo a través de una penalización aplicada a sus variables más irrelevantes.

Como podemos apreciar en la gráfica 1, hay un sub ajuste, ya que la linea roja se acopla muy bien para los datos de prueba, pero no para los datos de entrenamiento. La linea roja en los datos de prueba da una mala generalización, una mala aproximación. Entonces, la regularización consiste en introducir un poco de sesgo para introducir la varianza de los datos.

Pero para poder aplicar regularización necesitamos un termino adicional el concepto de perdida. El concepto de perdida nos dice que tan lejos están nuestras predicciones de los datos reales, esto quiere decir que entre menor sea la perdida mejor será nuestro modelo.

Como podemos ver en la gráfica que la perdida tiende a disminuir, porque en algún momento van a ser vistos, van a ser operados y el modelo va a tender a ajustarse a esos datos de entrenamiento, pero lo que tenemos que mirar es cómo se va a comportar en el mundo real. En el conjunto de validación o pruebas es muy normal que nuestra perdida comience a disminuir porque hay una buena generalización, pero llega un punto donde nuevos valores comienza a introducirse donde esa perdida vuelve a comenzar a subir ese es el punto donde en general se considera que comienza a haber sobreajuste. Es la perdida la medida que vamos a utilizar para poder utilizar la regularización.

¿Cuántos tipos de regularización existen?

L1 Lasso: Reducir la complejidad a través de eliminación de features que no aportan demasiado al modelo.
Penaliza a los features que aporta poca información volviéndolos cero, eliminado el ruido que producen en el modelo.

L2 Ridge: Reducir la complejidad disminuyendo el impacto de ciertos features a nuestro modelo. Penaliza los features poco relevantes, pero no los vuelve cero. Solamente limita la información que aportan a nuestro modelo.

ElasticNet: Es una combinación de las dos anteriores.

Lasso vs Ridge.

1.- No hay un campeón definitivo para todos los problemas. 2.- Si hay pocos features que se relacionen directamente con la variable a predecir: Probar Lasso. 3.- Si hay varios features relacionados con la variable a predecir: Probar Ridge.

Rafael Rivera

student•

Buen aporte, gracias por compartir

Claudio Chavarría Altamirano

student•

NICE!

Luis Fernando Úbeda Camacho

student•

LUIS MIGUEL ZAVALA FELIX

student•

amigo estas hablando de la norma. norma L2,

L2: Distancia euclidiana (raíz de la suma de cuadrados de los elementos)

Alfonso Andres Zapata Guzman

student•

La norma se usa en machine learning para encontrar errores. La norma L0: devuelve la cantidad de elementos diferentes de 0 del vector. La norma L1: devuelve la suma de los valores absolutos de los elementos del vector. La norma L2: La magnitud del vector desde su origen. La norma infinito: devuelve el valor absoluto más grande del vector Un aporte adicional que nohe visto se explique de forma amplia en Platzi, las normas se usan para determinar el modulo de regularización en la construcción de un modelo. La regularización se usa para castigar la complejidad de un modelo y evitar overfitting, las más comunes son L2 para simplicidad y L1 para esparcidad.

Salvador Cardona Noriega

student•

PCA: Combinábamos variables creando así variables artificiales.

Regularización: Se penaliza a las variables que aportan menos información.

Ambas buscan disminuir la complejidad del modelo.

Juan R. Vergara M.

student•

Gracias por el aporte 👍

Cesar Uribe

student•

En este video explican como funciona cada regularización analizando de forma grafica cada una de las funciones. Espero sea de utilidad https://www.youtube.com/watch?v=Xm2C_gTAl8c

Luis Fernando Úbeda Camacho

student•

JOSE DANIEL HERNANDEZ BETANCUR

student•

Ridge and Lasso Regression: L1 and L2 Regularization:

https://towardsdatascience.com/ridge-and-lasso-regression-a-complete-guide-with-python-scikit-learn-e20e34bcbf0b

Sebastian Manassero

student•

Cuando usarian PCA y cuando regularizacion?

Thomas Gonzalez Rodrigues

student•

PCA es mucho mas fuerte dejándome con solo las features mas importantes, por lo que si no e podido solucionar el overfitting o necesito un modelo que no sea tan complejo y pesado la usaria.

En el caso de la regularización la usaría como método de evitar el overfitting en modeles con muchas features y ninguna es especial mente importante (osea en casos donde pca fallaría).

Nico Quiroz

student•

Si yo parto de un csv con 10 variables(features) originales ¿ el L1_lasso , me podria devolver las 4 (por ejemplo) variables originales que son más relvantes del dataset (csv) ? Esto es muy bueno si es así, me gusta esta info! o estoy equivocado?

Gersonrpq

student•

Saludos NicoCoco,

De hecho, es lo correcto, al penalizar con la tecnica Lasso las features que aportan menor información tienden multiplicarse por un coeficiente de 0, para eliminar el ruido que producen.

Esta técnica puede ser utilizada en para hacer feature selection

Carlos Arturo

student•

En la funcion Lasso, esa es su principal funcion. Seleccionar las mejores etiquetas q aporten mayor valor a nuestro(s) modelo.

santiago de la cruz siado

student•

si mi meta predecir el estado de una planta, por medio de datos obtenidos por sensores, ¿cual seria el adecuado?

Santiago Ahumada Lozano

student•

Yo pienso que depende de qué tantas características sobre-relacionadas hay en tu conjunto de datos.

Matías Collado

student•

Me interesa hacer un proyecto así. Si ya estas en marcha y tenes algo que mostrar, sería genial que lo compartas!

Evelyn Graterol Rosales

student•

Este profesor es excelente.

Luis Fernando Úbeda Camacho

student•

Carlos Daniel Pimentel Díaz

student•

Excelente clase. Muy instructiva y muy bien explicada.

RAUL SERGIO ESPEJO TICONA

student•

Solo puede ser usada en modelos de regresión o puede ser usado en problemas de clasificación.???

Juan Acevedo

student•

regresión logística aplica igual

Ricardo Cruz

student•

Yo tengo un profesor que el en sus modelos le gusta usar la regularización L2 Ridge Siendo que el modelo conlleva datos y si uno le quita la mina de oro puede que tengamos algunas fallas. Con esto me dijo que L1 solo lo utiliza en modelos pequeños y L2 lo usa cuando hace modelos mas grandes y conserva la información que es muy importante.

Espero les sirva mi comentario.!!

Juan Acevedo

student•

Lo que pasa es que al usar modelos con datos mas grandes suelen a su misma vez haber mas features entonces por eso sale que si el modelo es mas complejo el l2 es mejor ya que no elimina directamente el peso de la variable sino que disminuye su valor generando que no aprenda dos veces lo mismo , mientras que el L1 , aproxima su valor a 0 lo mas que puede haciendo que el modelo no cuente con x variable , entonces depende el caso que tengas

Leo Wong

student•

Se puede aplicar la regularización para variables categoricas?

Como se aplicaria en casos para un problema de regressión con variables categóricas o para un problema de clasificación?

Giovany samaca

student•

cuando el profesor dice la palabra penalizar a que se refiere??

Miguel Rodríguez

student•

A disminuir el peso asociado a las features que menos valor aportan en la regresión, o en su caso volverlas cero, depende la regularización que uses.

Pablo Rosa

student•

Una consulta entiendo que tanto Lasso como Ridge difieren en su forma de asigna el peso a las features menos relevantes (función de optimización), pero que tipo de función utilizan para hacer la estimación, en el ejemplo vimos que hace una regresión lineal, pero puede ser otra? una polinomial por ejemplo?

Carlos Arturo

student•

Tengo por entendido que si se puede aplicar para diferentes modelos (Polinomial).

Daniel Moreno

student•

La regularización es una técnica utilizada en aprendizaje automático para evitar el sobreajuste (overfitting) y mejorar la generalización del modelo. Consiste en agregar términos adicionales a la función de costo del modelo para penalizar la complejidad del mismo. Aquí están algunas técnicas comunes de regularización y sus características:

L1 Regularización (Lasso):
- Lasso agrega una penalización basada en la suma de los valores absolutos de los coeficientes del modelo.
- Promueve la dispersión de los coeficientes, lo que puede llevar a la selección de características, es decir, algunos coeficientes pueden volverse exactamente cero.
- Es útil cuando se desea realizar selección de características, es decir, identificar un subconjunto de características relevantes mientras se reduce el riesgo de sobreajuste.
L2 Regularización (Ridge):
- Ridge agrega una penalización basada en la suma de los cuadrados de los coeficientes del modelo.
- No lleva a la selección de características, ya que los coeficientes nunca se vuelven exactamente cero.
- Es útil para reducir la magnitud de los coeficientes y suavizar la solución del modelo, lo que puede ayudar a prevenir el sobreajuste.
ElasticNet:
- ElasticNet combina las penalizaciones L1 y L2, lo que permite controlar tanto la dispersión de los coeficientes como su magnitud.
- Es útil cuando se sospecha que hay múltiples características irrelevantes y altamente correlacionadas en los datos.
- Proporciona un ajuste más flexible que Lasso y Ridge individualmente, permitiendo controlar la selección de características y la magnitud de los coeficientes simultáneamente.
Otros métodos de regularización:
- Además de L1, L2 y ElasticNet, existen otros métodos de regularización como la regularización de Tikhonov (también conocida como regresión de Ridge generalizada), la regularización de norma máxima (MaxNorm), entre otros.

Criterios para seleccionar uno u otro:

Selecciona Lasso (L1) si estás interesado en la selección de características y quieres reducir el número de características en tu modelo.
Selecciona Ridge (L2) si estás más preocupado por controlar la magnitud de los coeficientes y prevenir el sobreajuste sin necesariamente eliminar características.
Selecciona ElasticNet si necesitas un equilibrio entre la selección de características (L1) y la regularización de la magnitud de los coeficientes (L2), especialmente si tus datos tienen características altamente correlacionadas.
Experimenta con diferentes métodos de regularización y elige aquel que mejor se ajuste al rendimiento del modelo en tus datos de validación o mediante técnicas de validación cruzada.