Aprender los conceptos clave

1

Todo lo que aprenderás sobre MA con Scikit-Learn

2

¿Cómo aprenden las máquinas?

3

Problemas que podemos resolver con Scikit-learn

4

Las matemáticas que vamos a necesitar

Iniciar un proyecto con sklearn

5

Configuración de nuestro entorno Python

6

Instalación de librerías en Python

7

Datasets que usaremos en el curso

Optimización de features

8

¿Cómo afectan nuestros features a los modelos de Machine Learning?

9

Introducción al PCA

10

Preparación de datos para PCA e IPCA

11

Implementación del algoritmo PCA e IPCA

12

Kernels y KPCA

13

¿Qué es la regularización y cómo aplicarla?

14

Implementación de Lasso y Ridge

15

Explicación resultado de la implementación

16

ElasticNet: Una técnica intermedia

Regresiones robustas

17

El problema de los valores atípicos

18

Regresiones Robustas en Scikit-learn

19

Preparación de datos para la regresión robusta

20

Implementación regresión robusta

Métodos de ensamble aplicados a clasificación

21

¿Qué son los métodos de ensamble?

22

Preparación de datos para implementar métodos de ensamble

23

Implementación de Bagging

24

Implementación de Boosting

Clustering

25

Estrategias de Clustering

26

Implementación de Batch K-Means

27

Implementación de Mean-Shift

Optimización paramétrica

28

Validación de nuestro modelo usando Cross Validation

29

Implementación de K-Folds Cross Validation

30

Optimización paramétrica

31

Implementación de Randomized

32

Bonus: Auto Machine Learning

Salida a producción

33

Revisión de nuestra arquitectura de código

34

Importar y exportar modelos con Sklearn

35

Creación de una API con Flask para el modelo

36

Cierre del curso

37

Material adicional para consultar

No tienes acceso a esta clase

¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera

No se trata de lo que quieres comprar, sino de quién quieres ser. Aprovecha el precio especial.

Antes: $249

Currency
$209

Paga en 4 cuotas sin intereses

Paga en 4 cuotas sin intereses
Suscríbete

Termina en:

14 Días
4 Hrs
41 Min
48 Seg

¿Qué es la regularización y cómo aplicarla?

13/37
Recursos

Aportes 26

Preguntas 9

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad?

Estoy segura que como yo, otros estudiantes lo llevamos todo tan claro en este curso que no tenemos preguntas.
Excelente profesor, explicaciones claras y concisas!

Como complemento dejo algunas notas del curso de Redes neuronales con Keras y Scikit-Learn.

En estos casos, L(X, w) vienen siendo las métricas de pérdida y w son los pesos de la red neuronal.

<h1>¿Qué es la regularización y cómo aplicarla?</h1>

Esta técnica consiste en disminuir la complejidad de nuestro modelo a través de una penalización aplicada a sus variables más irrelevantes.

Como podemos apreciar en la gráfica 1, hay un sub ajuste, ya que la linea roja se acopla muy bien para los datos de prueba, pero no para los datos de entrenamiento. La linea roja en los datos de prueba da una mala generalización, una mala aproximación.
Entonces, la regularización consiste en introducir un poco de sesgo para introducir la varianza de los datos.

Pero para poder aplicar regularización necesitamos un termino adicional el concepto de perdida. El concepto de perdida nos dice que tan lejos están nuestras predicciones de los datos reales, esto quiere decir que entre menor sea la perdida mejor será nuestro modelo.

Como podemos ver en la gráfica que la perdida tiende a disminuir, porque en algún momento van a ser vistos, van a ser operados y el modelo va a tender a ajustarse a esos datos de entrenamiento, pero lo que tenemos que mirar es cómo se va a comportar en el mundo real. En el conjunto de validación o pruebas es muy normal que nuestra perdida comience a disminuir porque hay una buena generalización, pero llega un punto donde nuevos valores comienza a introducirse donde esa perdida vuelve a comenzar a subir ese es el punto donde en general se considera que comienza a haber sobreajuste. Es la perdida la medida que vamos a utilizar para poder utilizar la regularización.

¿Cuántos tipos de regularización existen?

  • L1 Lasso: Reducir la complejidad a través de eliminación de features que no aportan demasiado al modelo.
    Penaliza a los features que aporta poca información volviéndolos cero, eliminado el ruido que producen en el modelo.
  • L2 Ridge: Reducir la complejidad disminuyendo el impacto de ciertos features a nuestro modelo.
    Penaliza los features poco relevantes, pero no los vuelve cero. Solamente limita la información que aportan a nuestro modelo.
  • ElasticNet: Es una combinación de las dos anteriores.

Lasso vs Ridge.

1.- No hay un campeón definitivo para todos los problemas.
2.- Si hay pocos features que se relacionen directamente con la variable a predecir: Probar Lasso.
3.- Si hay varios features relacionados con la variable a predecir: Probar Ridge.

PCA:
Combinábamos variables creando así variables artificiales.

Regularización:
Se penaliza a las variables que aportan menos información.

Ambas buscan disminuir la complejidad del modelo.

En este video explican como funciona cada regularización analizando de forma grafica cada una de las funciones. Espero sea de utilidad
https://www.youtube.com/watch?v=Xm2C_gTAl8c

si mi meta predecir el estado de una planta, por medio de datos obtenidos por sensores, ¿cual seria el adecuado?

Este profesor es excelente.

Excelente clase. Muy instructiva y muy bien explicada.

(

Yo tengo un profesor que el en sus modelos le gusta usar la regularización *L2 Ridge* Siendo que el modelo conlleva datos y si uno le quita la mina de oro puede que tengamos algunas fallas. Con esto me dijo que L1 solo lo utiliza en modelos pequeños y L2 lo usa cuando hace modelos mas grandes y conserva la información que es muy importante. Espero les sirva mi comentario.!!
Pongo una metáfora de Caperucita roja para que sea más claro el concepto: *Imagina que Caperucita está tratando de identificar al lobo, pero tiene demasiados detalles en cuenta (como el tamaño exacto de los dientes, la longitud de la cola, etc.). Al aplicar **regularización**, Caperucita empieza a **ignorar algunos detalles irrelevantes** o los **minimiza**, enfocándose solo en las características importantes que le permiten tomar una decisión más rápida y precisa. **Lasso** sería como eliminar algunas características completamente (por ejemplo, "ya no me importa la forma exacta de las patas"), mientras que **Ridge** solo reduce la importancia de ciertos detalles sin ignorarlos por completo (por ejemplo, "observo la cola, pero no es tan importante").*
La regularización es una técnica utilizada en aprendizaje automático para evitar el sobreajuste (overfitting) y mejorar la generalización del modelo. Consiste en agregar términos adicionales a la función de costo del modelo para penalizar la complejidad del mismo. Aquí están algunas técnicas comunes de regularización y sus características: 1. **L1 Regularización (Lasso)**: * Lasso agrega una penalización basada en la suma de los valores absolutos de los coeficientes del modelo. * Promueve la dispersión de los coeficientes, lo que puede llevar a la selección de características, es decir, algunos coeficientes pueden volverse exactamente cero. * Es útil cuando se desea realizar selección de características, es decir, identificar un subconjunto de características relevantes mientras se reduce el riesgo de sobreajuste. 2. **L2 Regularización (Ridge)**: * Ridge agrega una penalización basada en la suma de los cuadrados de los coeficientes del modelo. * No lleva a la selección de características, ya que los coeficientes nunca se vuelven exactamente cero. * Es útil para reducir la magnitud de los coeficientes y suavizar la solución del modelo, lo que puede ayudar a prevenir el sobreajuste. 3. **ElasticNet**: * ElasticNet combina las penalizaciones L1 y L2, lo que permite controlar tanto la dispersión de los coeficientes como su magnitud. * Es útil cuando se sospecha que hay múltiples características irrelevantes y altamente correlacionadas en los datos. * Proporciona un ajuste más flexible que Lasso y Ridge individualmente, permitiendo controlar la selección de características y la magnitud de los coeficientes simultáneamente. 4. **Otros métodos de regularización**: * Además de L1, L2 y ElasticNet, existen otros métodos de regularización como la regularización de Tikhonov (también conocida como regresión de Ridge generalizada), la regularización de norma máxima (MaxNorm), entre otros. **Criterios para seleccionar uno u otro**: * Selecciona Lasso (L1) si estás interesado en la selección de características y quieres reducir el número de características en tu modelo. * Selecciona Ridge (L2) si estás más preocupado por controlar la magnitud de los coeficientes y prevenir el sobreajuste sin necesariamente eliminar características. * Selecciona ElasticNet si necesitas un equilibrio entre la selección de características (L1) y la regularización de la magnitud de los coeficientes (L2), especialmente si tus datos tienen características altamente correlacionadas. * Experimenta con diferentes métodos de regularización y elige aquel que mejor se ajuste al rendimiento del modelo en tus datos de validación o mediante técnicas de validación cruzada.

Así es. Al tener experiencia y muy claros los conceptos es que los puede explicar muy bien

La regularización es una técnica utilizada en el aprendizaje automático y la estadística para prevenir el sobreajuste (overfitting) de los modelos. El sobreajuste ocurre cuando un modelo se ajusta demasiado a los datos de entrenamiento y captura el ruido en lugar de los patrones subyacentes, lo que puede llevar a un rendimiento deficiente en datos nuevos y no vistos.

La idea detrás de la regularización es agregar una penalización a la función de costo del modelo en función de ciertos parámetros, lo que hace que el modelo sea más reacio a ajustarse en exceso a los datos. Las dos formas más comunes de regularización son la L1 (regularización Lasso) y la L2 (regularización Ridge).

Regularización L1 (Lasso):

  • La regularización L1 agrega la suma de los valores absolutos de los coeficientes a la función de costo. Esto tiende a forzar algunos coeficientes a ser exactamente cero, lo que puede llevar a la selección automática de características y, por lo tanto, simplificar el modelo.

Regularización L2 (Ridge):

  • La regularización L2 agrega la suma de los cuadrados de los coeficientes a la función de costo. Esto tiende a empujar los coeficientes hacia valores pequeños pero no exactamente cero, lo que reduce su magnitud sin eliminarlos por completo.

PCA y regularización

PCA [[PCA]] (Análisis de Componentes Principales) y la regularización son técnicas utilizadas en contextos diferentes:

  1. PCA se utiliza para reducir la dimensionalidad de un conjunto de datos. Se aplica cuando se tienen muchas características (variables) y se desea resumirlas en un conjunto más pequeño de componentes principales. PCA ayuda a eliminar la redundancia y la correlación entre las características, lo que puede simplificar el análisis y mejorar la eficiencia computacional. Además, puede proporcionar una visualización de las relaciones entre las muestras y los componentes principales. PCA se utiliza comúnmente en tareas como la compresión de datos, la extracción de características y la visualización de datos de alta dimensión.

  2. La regularización, en particular la regularización de tipo L1 y L2, se utiliza en el contexto del aprendizaje automático para controlar la complejidad de un modelo y evitar el sobreajuste. Se aplica cuando se desea evitar que los coeficientes del modelo sean demasiado grandes y, por lo tanto, reducir la posibilidad de que el modelo se ajuste demasiado a los datos de entrenamiento y no se generalice bien a nuevos datos. La regularización ayuda a encontrar un equilibrio entre minimizar el error de entrenamiento y controlar la complejidad del modelo.

En resumen, se utiliza PCA para reducir la dimensionalidad y extraer las características principales de un conjunto de datos, mientras que la regularización se utiliza para controlar la complejidad de un modelo y evitar el sobreajuste. Ambas técnicas son útiles en diferentes etapas del análisis de datos y pueden combinarse en un flujo de trabajo para mejorar el rendimiento y la interpretabilidad de los modelos de aprendizaje automático.

Basicamente si son pocos los features que se relacionan con el target los hacemos cero con Laso y si son muchos los features los que se relacionan con el target los reducimos al minimo con Ridge.

Clarisimo, pero cuando son pocos y cuando son muchos?

Una lastima que no se puedan descargar las presentaciones 😦

chicos si yo siempre uso el L3, siempre voy a llegar, con un mayor costo computacional ,no??

¿En que consiste la Regularización?

Excelente profesor y una excelente explicación sobre ciertos aspectos tanto de Lasso como de Ridge.

Cuando se hablan de las diferencias entre Lasso y Ridge, ¿A qué se refiere con que estén relacionados? ¿Tendríamos que primero sacar una matriz de correlación de los features para poder decir con confianza que están o no relacionados a la variable a predecir? ¿O basta con que sea mera intuición?

La regularización aumenta el sesgo con el objetivo de disminuir la varianza. Mejorar la generalización.