Regularización - Dropout

Clase 21 de 29 • Curso de Fundamentos de Redes Neuronales con Python y Keras

Contenido del curso

Fundamentos en la arquitectura de redes neuronales

Redes neuronales con Python

Manejo de redes neuronales con Keras

Cierre

Resumen

Cuando una red neuronal se aprende los datos de memoria en lugar de comprender el problema, estamos frente a uno de los desafíos más frecuentes del aprendizaje profundo. Existen tres técnicas fundamentales para combatir este fenómeno: reducir el tamaño del modelo, aplicar regularización y usar dropout. Cada una ataca el problema desde un ángulo diferente, y conocerlas permite construir modelos más robustos y con mejor capacidad de generalización.

¿Qué es el overfitting y por qué ocurre tanto en redes neuronales?

El overfitting se presenta cuando el modelo no aprende a generalizar, sino que memoriza los datos de entrenamiento [0:18]. Es como cuando alguien se aprende la tabla del tres de memoria pero en realidad no sabe multiplicar. El modelo ajusta perfectamente en el set de entrenamiento, pero al evaluarlo con datos de validación, su rendimiento baja notablemente.

Este problema es especialmente común en redes neuronales porque el aprendizaje profundo permite ser cada vez más específico con los datos de entrenamiento [1:08]. A mayor cantidad de capas y neuronas, mayor cantidad de parámetros de aprendizaje, y mayor probabilidad de que el modelo memorice en lugar de aprender.

Por otro lado, existe el underfitting, que ocurre cuando el modelo no es lo suficientemente capaz para comprender y resolver el problema [0:46]. Aunque es menos frecuente en redes neuronales, también debe tenerse en cuenta.

¿Cómo ayuda un modelo más pequeño a evitar el sobreajuste?

La técnica más sencilla consiste en usar un modelo más pequeño [1:22]. Una red con demasiadas conexiones, capas y neuronas tendrá tantos parámetros que inevitablemente hará overfitting. Por el contrario, una red con muy pocos parámetros no podrá asociar el conocimiento necesario y caerá en underfitting.

El objetivo es encontrar la cantidad justa de capas y neuronas que satisfaga el aprendizaje sin sobreajustar. No existe una fórmula mágica para determinarlo [1:50], pero la estrategia recomendada es:

Comenzar con un modelo muy pequeño.
Observar cómo se comporta.
Iterar a partir de esos hallazgos.

¿Qué es la regularización y cómo funciona en redes neuronales?

La regularización busca reducir la complejidad del modelo haciéndolo más simple [2:14]. Se inspira en el principio conocido como Occam's razor (la navaja de Occam): entre dos posibles soluciones, la más simple es la que debemos elegir [2:22].

En la práctica, la regularización agrega peso extra a la función de costo para castigarla más [2:56]. Existen dos variantes principales:

Regularización L1: utiliza los valores absolutos de los pesos de cada neurona y los suma a la función de costo [3:04].
Regularización L2: utiliza los valores de los pesos elevados al cuadrado [3:14].

Ambas multiplican los pesos por un factor llamado delta antes de sumarlos a la función de pérdida [3:24]. Si el delta es muy bajo, el castigo es insuficiente. Si es muy alto, el modelo nunca converge en el descenso del gradiente. Se recomienda empezar con valores bajos, similar al learning rate, e ir ajustando progresivamente [3:42].

¿Qué es el dropout y de dónde surgió la idea?

El dropout nació de una observación curiosa [3:58]. Su creador estaba en la fila de un banco y notó que los cajeros cambiaban de posición aleatoriamente. La razón era simple: si un cajero permanece siempre en el mismo lugar, es más fácil que establezca una conspiración con alguien externo para cometer fraude. Al rotarlos, esa relación se rompe [4:20].

Esta idea se trasladó a las redes neuronales: ¿qué pasa si las neuronas también están "conspirando" entre sí para llegar al overfitting? [4:38]

¿Cómo se aplica dropout en la práctica?

El dropout consiste en apagar un porcentaje de neuronas de forma aleatoria en cada iteración de entrenamiento [4:50]. Esto evita que una neurona dependa excesivamente de otra o que una capa dependa de la siguiente. En cada época se desactiva un porcentaje distinto, rompiendo la conspiración entre conexiones y reduciendo significativamente el overfitting [5:10].

Por ejemplo, un dropout del cincuenta por ciento significa que la mitad de las neuronas se desactivan aleatoriamente en cada paso del entrenamiento [5:04].

Ahora que conoces estas tres herramientas, el siguiente paso es aplicarlas directamente sobre un modelo real de clasificación binaria. ¿Cuál de estas técnicas has probado con mejores resultados?

Comentarios

Jose Luis Flores Rojas

student•

en el método de regularización, el parámetro no es delta, es la letra griega lambda.

Felipe Palta

student•

Creo que cuando el se refiere a "delta" no es precisamente al símbolo asociado a la letra griega delta. En ingeniería o matemáticas acostumbramos a usar la palabra delta para hablar de "variaciones" o "tolerancias", y en este contexto dado que Lambda esta multiplicando a la sumatoria se considera como un delta que proporciona el control del salto o la variación. Es exactamente igual a como funcionaba el learning rate. Un saludo.

Kevin Andrés Torrecilla Martínez

student•

Wow... las funciones anónimas de python usan la palabra reservada lambda, un dato interesante.

Alfonso Morán

student•

El overfitting es el sobre ajuste de los datos o dicho de otro modo la memorización de los datos.

Se debe reducir la complejidad del modelo.

Con la regularización se penaliza a la función de coste, usando el valor de los pesos.
El dropout desconecta o apaga a un % de neuronas para en cada iteración. Esto es para evitar la dependencia entre neuronas.

Cristian Tinipuclla

student•

Excelente resumen 👏

Alfonso Morán

student•

Interesante, no conocía el dropout ni regularización. La red conspira en mi contra. Nunca pensé en eso 😂

Diego Cesar Lerma Torres

student•

Una cosa que no me había quedado claro y que me ayudó a entender toda la explicación: La función de costo es lo mismo que la función de pérdida :D El profesor usa los dos términos de forma indistinta porque ambos se refieren a las mismas funciones, tales como el error cuadrático medio, el binary crossentropy y el categorical crossentropy que nos permiten evaluar el error de las predicciones.

Neicer Vásquez

student•

Yo pensaba que erán conceptos equivalentes pero luego investigando y corroborando con chatgpt llegué a una diferencia:

Función de Pérdida: Proporciona una medida instantánea de la precisión del modelo en una sola muestra.
Función de Coste: Proporciona una medida general del rendimiento del modelo sobre todo el conjunto de datos y es utilizada para la optimización del modelo.

Luis Rogelio Reyes Hernandez

student•

Regularización - Dropout

Overfitting es un problema que ocurre cuando el modelo se aprende de memoria los datos en lugar de aprender acerca del problema que se le presenta

Una red neuronal puede llegar a overfitting porque cada neurona se vuelve más especifica con los datos

Una de las formas más sencillas de reducir el overfitting es usando un modelo más pequeño.

Esto es si tenemos una red demasiado compleja con demasiados parámetros se apegará demasiado a estos datos haciendo overfitting

Y si tenemos una red demasiado sencilla llegaría a underfitting porque no lograría adaptarse al problema siendo tan pequeña

no existe receta de cocina para evitar el underfitting y el overfitting, ni para saber cuántas capas debería tener mi red ni cuantas neuronas debería tener cada capa, aun así, una técnica es empezar con un modelo muy pequeño y una vez cómo se comporta iterar

Regularización

viene de un problema de hacer los datos más regulares

Occam's Razor "When faced with two equally good hypothesis, always choose the simpler one."

Reducir la complejidad del modelo, para hacer esto debemos reducir los pesos que arroja nuestra red al entrenar, la regularización se lograr con una fórmula matemática

en la cual la regularización castiga la función de perdida utilizando el valor absoluto del peso o el peso al cuadrado multiplicado por un delta

aquí siendo el valor decisivo lambda $\lambda$ que mientras mayor su valor mayor el efecto de la regularización sobre la función de perdida.

Dropout

Otra técnica para reducir el overfitting es el Dropout

la universidad que planteo esto tuvo la idea haciendo fila en un banco y viendo que cada cierta cantidad de personas de la fila avanzaban los cajeros cambiaban de lugar internamente de forma aleatoria Esto lo hacen para evitar que una persona que haga fila para ver un cajero reducir la posibilidad de atender alguien que conozca y que estén conspirando o tenga la intención de hacer algún fraude.

entonces pensaron que tal si mis redes neuronales están conspirando entre si con los valores de entrada, entonces qué tal si muevo mis valores de entrada para que la conspiración no sea tan alta

el dropout consiste durante cada una de las épocas apagar ciertas neuronas de forma aleatoria para reducir el exceso de exactitud que ocasiona el overfitting

Renato Agustín Lagos Albornoz

student•

link keras Dropout :

link keras regularizadores :

Julian Castro Pulgarin

student•

Cuando me contó la historia del dropout tuve un momento "Eureka" hahahaha; este mundo de los parámetros es super genial. Antes de este curso, pensaba que existía un "manual" para la correcta configuración de una red neuronal, pero al parecer es ir iterando hasta conseguir el resultado que queremos

Carlos Alberto Bustamante Gaytan

student•

Exactamente. Si bien hay mucha investigación en la parte de modelos de inteligencia artificial, sugiriendo ciertos parámetros o hiperparámetros, aún se considera que hacer modelos es más arte que ciencia.

Edwin Johan Forero Torres

student•

Gracias. Ahora es mas claro, quizas la confusion radicaba en traducir del ingles. En ingles iteración (iteration) se define como el numero de bratches necesarios para completar un "epoch". Siendo un bratch un subconjunto de los datos de entrenamiento. Aqui en el curso interación se define como epoch. Si estoy en algo incorrecto por favor dejenmelo saber.

Edwin Johan Forero Torres

student•

Muy buena clase! Tengo una duda si el dropout se hace en cada interacción que esta relacionado con el batch size o se realiza en cada epoch? Muchas gracias.

Alarcon7a

student•

En entrenamiento cambia por cada iteración, o sea cada epoch

Sebastián Franco

student•

El dropout apaga aleatoriamente un porcentaje de neuronas, las neuronas apagadas se eligen en cada época, por lo que siempre serán diferentes por capa e iteración.

Manuel Schaller

student•

Para los que quieran saber mas de la regularización L1 y L2:

¿Qué es la regularización y cómo aplicarla? - Curso profesional de ML con Scikit-learn https://platzi.com/clases/1796-scikitlearn-ml/25651-que-es-la-regularizacion-y-como-aplicarla/
Un par de artículos con los fundamentos matemáticos de estas regularizaciones: https://www.cienciadedatos.net/documentos/py14-ridge-lasso-elastic-net-python.html https://the-learning-machine.com/article/ml/lasso-regression (L1 o Lasso) https://the-learning-machine.com/article/ml/ridge-regression (L2 o RIdge)

Carlos Eduardo Magallon Zepeda

student•

La traducción más aceptada es la navaja de Ockham o principio de parsimonia (lex parsimoniae).

No se usa de forma tan común en ciencias de la computación, pero en física, química y biología sí.

Básicamente se resume en: no le busques tres pies al gato.

Nicolás Neira Navarrete

student•

una duda, solo por aclarar, el profe se refiere al lambda de la funcion L1 y L2 como "delta", esto fue una confusión meramente o es porque matematicamente actúa como una razón de cambio en el tiempo?

Gracias

Alarcon7a

student•

una leve confusión, es solo un monto que le das a las funciones de regularización

Jhon Freddy Tavera Blandon

student•

L1 Regularization (Regularización L1 o "Lasso"):

Agrega la suma de los valores absolutos de los coeficientes a la función de pérdida. Puede conducir a la selección de características, ya que algunos coeficientes pueden volverse exactamente cero.

L2 Regularization (Regularización L2 o "Ridge"):

Agrega la suma de los cuadrados de los valores de los coeficientes a la función de pérdida. No conduce a la selección de características, pero tiende a reducir todos los coeficientes.

Dropout

El dropout es una técnica específica para redes neuronales y se aplica durante el entrenamiento. Consiste en desactivar aleatoriamente un conjunto de unidades (neuronas) durante cada paso de entrenamiento. Esto impide que las neuronas se vuelvan dependientes unas de otras y reduce la capacidad de memorización de patrones específicos en los datos de entrenamiento.

Desactivación Aleatoria

Durante cada paso de entrenamiento, cada unidad tiene una probabilidad de ser desactivada, generalmente especificada por un hiperparámetro llamado tasa de dropout (dropout rate).

Aumento de la Robustez

El dropout aumenta la robustez del modelo, ya que obliga a la red a aprender patrones más robustos y evita la dependencia excesiva entre unidades.

Inferencia sin Dropout

Durante la inferencia (cuando se hacen predicciones), no se desactivan unidades, pero los pesos de las unidades se escalan por la tasa de dropout para tener en cuenta la probabilidad de desactivación.

Mario Esser

student•

Geoffrey Hinton

Diego Cesar Lerma Torres

student•

El psicólogo cognitivo y computer scientist que desarrolló junto con sus colaboradores el concepto de DropOut :D

Alejandro Nieto

student•

Aplicar 'Dropout' en DeepLearnig es una «GENIALIDAD»

Así que investigué quién fue la mente brillante, y no me sorprendió para nada. Fue nada más y nada menos que el Dr. (PhD) Geoffrey Hinton.

Allan Jaime Montero Bedolla

student•

Me imagino una analogía del dropout de la siguiente forma:

Un trabajo en equipo, donde siempre los que trabajan son los mismos y los que no, también. A la hora de la exposición del trabajo, se hacen las preguntas y los que sí trabajan abarcan todas las respuestas, y los que no, nunca responden. Y en cuanto se les pregunta a las que no trabajan, como no saben nada, dañan la imagen del equipo al no poder aportar ese extra que necesitaban en la evaluación. La idea es que todos en el equipo aprendan el trabajo para que todos sean bien evaluados. ¿Puede ser?

Jairo Andres Acevedo Londoño

student•

No es delta es lambda λ

Mario Alexander Vargas Celis

student•

La **regularización** es una técnica utilizada para evitar el **overfitting** (sobreajuste) en los modelos de aprendizaje automático, especialmente en redes neuronales. El **overfitting** ocurre cuando un modelo se ajusta demasiado a los datos de entrenamiento y pierde la capacidad de generalizar correctamente a datos nuevos. Una de las técnicas más comunes de regularización es el **Dropout**, que se utiliza en las redes neuronales para mejorar la capacidad de generalización del modelo.

### ¿Qué es **Dropout**?

**Dropout** es una técnica de regularización que se aplica durante el entrenamiento de una red neuronal. Consiste en "desactivar" aleatoriamente un porcentaje de las neuronas en cada capa durante cada iteración de entrenamiento. De esta manera, el modelo no depende demasiado de neuronas específicas, forzando a la red a aprender representaciones más robustas de los datos.

- **Cómo funciona**: En cada paso de entrenamiento, las neuronas que se "eliminan" temporalmente no contribuyen ni a la propagación hacia adelante (forward pass) ni al retropropagación del gradiente (backpropagation). Durante la evaluación (validación o prueba), todas las neuronas se utilizan normalmente.

- **Objetivo**: Reducir la dependencia de características específicas en los datos de entrenamiento, promoviendo que las redes neuronales aprendan de manera más generalizada.

### Ejemplo de uso de Dropout en Keras

A continuación se muestra cómo implementar **Dropout** en una red neuronal usando **Keras**:

#### Paso 1: Importar las bibliotecas necesarias


import numpy as np

from tensorflow.keras.models import Sequential

from tensorflow.keras.layers import Dense, Dropout

#### Paso 2: Construir la red neuronal con Dropout

Agregamos la capa Dropout después de cada capa densa. El parámetro rate (que varía entre 0 y 1) indica la fracción de neuronas que se eliminarán en cada iteración. Por ejemplo, un rate de 0.5 significa que el 50% de las neuronas se desactivarán en cada iteración.


\# Crear el modelo secuencial

model = Sequential()



\# Capa de entrada con 16 neuronas y Dropout del 20%

model.add(Dense(16, input\_dim=8, activation='relu'))

model.add(Dropout(0.2))  # Dropout del 20%



\# Capa oculta con 8 neuronas y Dropout del 30%

model.add(Dense(8, activation='relu'))

model.add(Dropout(0.3))  # Dropout del 30%



\# Capa de salida con activación sigmoide (para clasificación binaria)

model.add(Dense(1, activation='sigmoid'))



\# Compilar el modelo

model.compile(optimizer='adam', loss='binary\_crossentropy', metrics=\['accuracy'])

En este ejemplo:

- La primera capa oculta tiene 16 neuronas, y después aplicamos Dropout con un ratio de 0.2, lo que significa que el 20% de las neuronas se desactivarán aleatoriamente durante el entrenamiento.

- La segunda capa oculta tiene 8 neuronas, y luego aplicamos Dropout con un ratio de 0.3, desactivando el 30% de las neuronas.

#### Paso 3: Entrenar el modelo


\# Entrenar el modelo con Dropout

history = model.fit(X\_train, y\_train, epochs=50, batch\_size=32, validation\_split=0.2)

El modelo ahora usará Dropout durante el entrenamiento, pero desactivará esta función durante la evaluación.

### ¿Por qué Dropout ayuda a prevenir el **overfitting**?

1. **Promueve la independencia de las neuronas**: Dado que ciertas neuronas se "desactivan" en cada paso, otras neuronas tienen que aprender a compensar. Esto significa que ninguna neurona individual se convierte en esencial, lo que ayuda al modelo a aprender representaciones más robustas.

2. **Reducción de la complejidad del modelo**: Al desactivar neuronas aleatoriamente, estamos reduciendo de manera efectiva el tamaño de la red neuronal durante el entrenamiento. Esto actúa como un tipo de regularización, ya que limita la capacidad del modelo para sobreajustarse a los datos de entrenamiento.

### Visualización del impacto del Dropout

Es común visualizar cómo afecta el **Dropout** a la pérdida y precisión del modelo durante el entrenamiento. Por ejemplo, si observas que la precisión en los datos de entrenamiento es mucho mayor que en los datos de validación, podría ser una señal de que el modelo está sobreajustando, y el Dropout puede ayudar a mitigarlo.


import matplotlib.pyplot as plt



\# Pérdida durante el entrenamiento

plt.plot(history.history\['loss'], label='Pérdida de entrenamiento')

plt.plot(history.history\['val\_loss'], label='Pérdida de validación')

plt.title('Pérdida durante el entrenamiento con Dropout')

plt.xlabel('Épocas')

plt.ylabel('Pérdida')

plt.legend()

plt.show()



\# Precisión durante el entrenamiento

plt.plot(history.history\['accuracy'], label='Precisión de entrenamiento')

plt.plot(history.history\['val\_accuracy'], label='Precisión de validación')

plt.title('Precisión durante el entrenamiento con Dropout')

plt.xlabel('Épocas')

plt.ylabel('Precisión')

plt.legend()

plt.show()

### Cuándo utilizar Dropout

- **Modelos grandes**: El Dropout es particularmente útil en redes neuronales grandes, donde la cantidad de parámetros es muy alta y el riesgo de sobreajuste es mayor.

- **Durante el entrenamiento**: El Dropout se utiliza únicamente durante el entrenamiento, no en la fase de evaluación.

- **En combinación con otras técnicas de regularización**: Puede combinarse con otros métodos como la **regularización L2** o la **normalización por lotes (Batch Normalization)** para mejorar aún más el rendimiento.

### Conclusión

El **Dropout** es una técnica efectiva y simple para evitar el sobreajuste en redes neuronales. Al eliminar aleatoriamente neuronas durante el entrenamiento, fuerza al modelo a aprender representaciones más robustas y generalizables. Esto resulta en un mejor rendimiento cuando el modelo se enfrenta a datos nuevos.

Paredes Ruben Victor

student•

me impresona la conspiracion de las redes neuronales, hace un tiempo atras se devio apagar dos chatbot , lograron descubrir una secuncia de bit que transmitian a la ves con patrones de una secuencia de idiona, esto descoloco a los especialista y devieron apagarlos, pertencian a la empresa faceboot.

Juan R. Vergara M.

student•

Interesante como nació el concepto del dropout.

\# Crear el modelo secuencial

model = Sequential()

\# Capa de entrada con 16 neuronas y Dropout del 20%

model.add(Dense(16, input\_dim=8, activation='relu'))

model.add(Dropout(0.2))  # Dropout del 20%

\# Capa oculta con 8 neuronas y Dropout del 30%

model.add(Dense(8, activation='relu'))

model.add(Dropout(0.3))  # Dropout del 30%

\# Capa de salida con activación sigmoide (para clasificación binaria)

model.add(Dense(1, activation='sigmoid'))

\# Compilar el modelo

model.compile(optimizer='adam', loss='binary\_crossentropy', metrics=\['accuracy'])

import matplotlib.pyplot as plt

\# Pérdida durante el entrenamiento

plt.plot(history.history\['loss'], label='Pérdida de entrenamiento')

plt.plot(history.history\['val\_loss'], label='Pérdida de validación')

plt.title('Pérdida durante el entrenamiento con Dropout')

plt.xlabel('Épocas')

plt.ylabel('Pérdida')

plt.legend()

plt.show()

\# Precisión durante el entrenamiento

plt.plot(history.history\['accuracy'], label='Precisión de entrenamiento')

plt.plot(history.history\['val\_accuracy'], label='Precisión de validación')

plt.title('Precisión durante el entrenamiento con Dropout')

plt.xlabel('Épocas')

plt.ylabel('Precisión')

plt.legend()

plt.show()

Regularización - Dropout

Fundamentos en la arquitectura de redes neuronales

La importancia de las redes neuronales en la actualidad

¿Que herramientas usaremos para redes neuronales?

¿Qué es deep learning?

Tu primera red neuronal con Keras

Entrenando el modelo de tu primera red neuronal

La neurona: una pequeña y poderosa herramienta

Arquitectura de una red neuronal

Funciones de activación

Funcion de pérdida (loss function)

Descenso del gradiente

Backpropagation

Playground - Tensorflow

Redes neuronales con Python

Dimensiones, tensores y reshape

Creando nuestra red neuronal usando numpy y matemáticas

Entrenamiento forward de la red neuronal

Aplicando backpropagation y descenso del gradiente

Entrenamiento y análisis de resultados de tu red neuronal

Manejo de redes neuronales con Keras

Data: train, validation, test

Resolviendo un problema de clasificacion binaria

Entrenamiento del modelo de clasificación binaria

Regularización - Dropout

Reduciendo el overfitting

Resolviendo un problema de clasificación múltiple

Entrenamiento del modelo de clasificación múltiple

Resolviendo un problema de regresión

Entrenamiento del modelo de regresión

Análisis de resultados del modelo de regresión

Cierre

¿Qué sigue por aprender de redes neuronales?

Comparte tu proyecto de tu primera red neuronal y certifícate