Aprender los conceptos clave

1

Todo lo que aprenderás sobre MA con Scikit-Learn

2

¿Cómo aprenden las máquinas?

3

Problemas que podemos resolver con Scikit-learn

4

Las matemáticas que vamos a necesitar

Iniciar un proyecto con sklearn

5

Configuración de nuestro entorno Python

6

Instalación de librerías en Python

7

Datasets que usaremos en el curso

Optimización de features

8

¿Cómo afectan nuestros features a los modelos de Machine Learning?

9

Introducción al PCA

10

Preparación de datos para PCA e IPCA

11

Implementación del algoritmo PCA e IPCA

12

Kernels y KPCA

13

¿Qué es la regularización y cómo aplicarla?

14

Implementación de Lasso y Ridge

15

Explicación resultado de la implementación

16

ElasticNet: Una técnica intermedia

Regresiones robustas

17

El problema de los valores atípicos

18

Regresiones Robustas en Scikit-learn

19

Preparación de datos para la regresión robusta

20

Implementación regresión robusta

Métodos de ensamble aplicados a clasificación

21

¿Qué son los métodos de ensamble?

22

Preparación de datos para implementar métodos de ensamble

23

Implementación de Bagging

24

Implementación de Boosting

Clustering

25

Estrategias de Clustering

26

Implementación de Batch K-Means

27

Implementación de Mean-Shift

Optimización paramétrica

28

Validación de nuestro modelo usando Cross Validation

29

Implementación de K-Folds Cross Validation

30

Optimización paramétrica

31

Implementación de Randomized

32

Bonus: Auto Machine Learning

Salida a producción

33

Revisión de nuestra arquitectura de código

34

Importar y exportar modelos con Sklearn

35

Creación de una API con Flask para el modelo

36

Cierre del curso

37

Material adicional para consultar

No tienes acceso a esta clase

¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera

¿Qué es la regularización y cómo aplicarla?

13/37
Recursos

Aportes 23

Preguntas 8

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad?

o inicia sesión.

Estoy segura que como yo, otros estudiantes lo llevamos todo tan claro en este curso que no tenemos preguntas.
Excelente profesor, explicaciones claras y concisas!

Como complemento dejo algunas notas del curso de Redes neuronales con Keras y Scikit-Learn.

En estos casos, L(X, w) vienen siendo las métricas de pérdida y w son los pesos de la red neuronal.

<h1>¿Qué es la regularización y cómo aplicarla?</h1>

Esta técnica consiste en disminuir la complejidad de nuestro modelo a través de una penalización aplicada a sus variables más irrelevantes.

Como podemos apreciar en la gráfica 1, hay un sub ajuste, ya que la linea roja se acopla muy bien para los datos de prueba, pero no para los datos de entrenamiento. La linea roja en los datos de prueba da una mala generalización, una mala aproximación.
Entonces, la regularización consiste en introducir un poco de sesgo para introducir la varianza de los datos.

Pero para poder aplicar regularización necesitamos un termino adicional el concepto de perdida. El concepto de perdida nos dice que tan lejos están nuestras predicciones de los datos reales, esto quiere decir que entre menor sea la perdida mejor será nuestro modelo.

Como podemos ver en la gráfica que la perdida tiende a disminuir, porque en algún momento van a ser vistos, van a ser operados y el modelo va a tender a ajustarse a esos datos de entrenamiento, pero lo que tenemos que mirar es cómo se va a comportar en el mundo real. En el conjunto de validación o pruebas es muy normal que nuestra perdida comience a disminuir porque hay una buena generalización, pero llega un punto donde nuevos valores comienza a introducirse donde esa perdida vuelve a comenzar a subir ese es el punto donde en general se considera que comienza a haber sobreajuste. Es la perdida la medida que vamos a utilizar para poder utilizar la regularización.

¿Cuántos tipos de regularización existen?

  • L1 Lasso: Reducir la complejidad a través de eliminación de features que no aportan demasiado al modelo.
    Penaliza a los features que aporta poca información volviéndolos cero, eliminado el ruido que producen en el modelo.
  • L2 Ridge: Reducir la complejidad disminuyendo el impacto de ciertos features a nuestro modelo.
    Penaliza los features poco relevantes, pero no los vuelve cero. Solamente limita la información que aportan a nuestro modelo.
  • ElasticNet: Es una combinación de las dos anteriores.

Lasso vs Ridge.

1.- No hay un campeón definitivo para todos los problemas.
2.- Si hay pocos features que se relacionen directamente con la variable a predecir: Probar Lasso.
3.- Si hay varios features relacionados con la variable a predecir: Probar Ridge.

En este video explican como funciona cada regularización analizando de forma grafica cada una de las funciones. Espero sea de utilidad
https://www.youtube.com/watch?v=Xm2C_gTAl8c

PCA:
Combinábamos variables creando así variables artificiales.

Regularización:
Se penaliza a las variables que aportan menos información.

Ambas buscan disminuir la complejidad del modelo.

si mi meta predecir el estado de una planta, por medio de datos obtenidos por sensores, ¿cual seria el adecuado?

Este profesor es excelente.

Excelente clase. Muy instructiva y muy bien explicada.

(

Así es. Al tener experiencia y muy claros los conceptos es que los puede explicar muy bien

La regularización es una técnica utilizada en el aprendizaje automático y la estadística para prevenir el sobreajuste (overfitting) de los modelos. El sobreajuste ocurre cuando un modelo se ajusta demasiado a los datos de entrenamiento y captura el ruido en lugar de los patrones subyacentes, lo que puede llevar a un rendimiento deficiente en datos nuevos y no vistos.

La idea detrás de la regularización es agregar una penalización a la función de costo del modelo en función de ciertos parámetros, lo que hace que el modelo sea más reacio a ajustarse en exceso a los datos. Las dos formas más comunes de regularización son la L1 (regularización Lasso) y la L2 (regularización Ridge).

Regularización L1 (Lasso):

  • La regularización L1 agrega la suma de los valores absolutos de los coeficientes a la función de costo. Esto tiende a forzar algunos coeficientes a ser exactamente cero, lo que puede llevar a la selección automática de características y, por lo tanto, simplificar el modelo.

Regularización L2 (Ridge):

  • La regularización L2 agrega la suma de los cuadrados de los coeficientes a la función de costo. Esto tiende a empujar los coeficientes hacia valores pequeños pero no exactamente cero, lo que reduce su magnitud sin eliminarlos por completo.

PCA y regularización

PCA [[PCA]] (Análisis de Componentes Principales) y la regularización son técnicas utilizadas en contextos diferentes:

  1. PCA se utiliza para reducir la dimensionalidad de un conjunto de datos. Se aplica cuando se tienen muchas características (variables) y se desea resumirlas en un conjunto más pequeño de componentes principales. PCA ayuda a eliminar la redundancia y la correlación entre las características, lo que puede simplificar el análisis y mejorar la eficiencia computacional. Además, puede proporcionar una visualización de las relaciones entre las muestras y los componentes principales. PCA se utiliza comúnmente en tareas como la compresión de datos, la extracción de características y la visualización de datos de alta dimensión.

  2. La regularización, en particular la regularización de tipo L1 y L2, se utiliza en el contexto del aprendizaje automático para controlar la complejidad de un modelo y evitar el sobreajuste. Se aplica cuando se desea evitar que los coeficientes del modelo sean demasiado grandes y, por lo tanto, reducir la posibilidad de que el modelo se ajuste demasiado a los datos de entrenamiento y no se generalice bien a nuevos datos. La regularización ayuda a encontrar un equilibrio entre minimizar el error de entrenamiento y controlar la complejidad del modelo.

En resumen, se utiliza PCA para reducir la dimensionalidad y extraer las características principales de un conjunto de datos, mientras que la regularización se utiliza para controlar la complejidad de un modelo y evitar el sobreajuste. Ambas técnicas son útiles en diferentes etapas del análisis de datos y pueden combinarse en un flujo de trabajo para mejorar el rendimiento y la interpretabilidad de los modelos de aprendizaje automático.

Basicamente si son pocos los features que se relacionan con el target los hacemos cero con Laso y si son muchos los features los que se relacionan con el target los reducimos al minimo con Ridge.

Clarisimo, pero cuando son pocos y cuando son muchos?

Una lastima que no se puedan descargar las presentaciones 😦

chicos si yo siempre uso el L3, siempre voy a llegar, con un mayor costo computacional ,no??

¿En que consiste la Regularización?

Excelente profesor y una excelente explicación sobre ciertos aspectos tanto de Lasso como de Ridge.

Cuando se hablan de las diferencias entre Lasso y Ridge, ¿A qué se refiere con que estén relacionados? ¿Tendríamos que primero sacar una matriz de correlación de los features para poder decir con confianza que están o no relacionados a la variable a predecir? ¿O basta con que sea mera intuición?

La regularización aumenta el sesgo con el objetivo de disminuir la varianza. Mejorar la generalización.