Descenso del gradiente

Clase 10 de 29 • Curso de Fundamentos de Redes Neuronales con Python y Keras

Resumen

¿Qué es el algoritmo del descenso del gradiente?

El algoritmo del descenso del gradiente es una potente herramienta matemática utilizada en el aprendizaje automático y la optimización de funciones. A través del cálculo de derivadas, nos permite encontrar la pendiente de una función, su inclinación, y utilizarla para descender hacia el punto más bajo posible de una función de pérdida. Este punto es crucial, ya que representa predicciones más precisas. Comprender cómo funciona este algoritmo es fundamental para cualquier profesional en ciencia de datos.

¿Por qué es importante derivar una función?

Las derivadas juegan un papel esencial en la optimización de funciones matemáticas:

Encuentra la pendiente: Al derivar una función, se obtiene la pendiente, ayudando a determinar si se está en un valle (punto de baja pérdida) o en una cima (punto de alta pérdida).
Optimización: Buscamos minimizar la función de pérdida, ya que un valor bajo indica una mejor precisión en las predicciones.
Análisis de puntos críticos: Identificar donde la pendiente es cero ayuda a reconocer puntos potencialmente mínimos o máximos.

¿Cómo funciona el learning rate?

El concepto de learning rate, o tasa de aprendizaje, es clave en el algoritmo de descenso del gradiente. Este parámetro controla el tamaño de los pasos que el algoritmo da para encontrar el mínimo de la función.

Tasa de aprendizaje baja: Resulta en pasos pequeños, otorgando precisión pero a costa de tiempo de cálculo y eficiencia.
Tasa de aprendizaje alta: Genera pasos grandes, que pueden saltarse el mínimo deseado hindering la convergencia.
Balance ideal: Necesitamos un término medio que nos permita converger de manera eficaz sin comprometer la eficiencia computacional.

¿Cómo nos ayuda la física a optimizar?

El concepto de momentum, tomada de la física, es aplicado para superar mínimos locales en la función de pérdida.

Momentum: Proporciona la aceleración necesaria para que la esfera del algoritmo sobrepase brechas o pequeñas montañas, dirigiéndose hacia el mínimo global más óptimo.
Implementación en Machine Learning: Optimiza cómo se actualizan los pesos durante el descenso del gradiente, dando lugar a variantes del algoritmo como RMSprop que consideramos en redes neuronales.

¿Cómo optimizamos la función de pérdida con derivadas parciales?

Para optimizar la función de pérdida en dimensiones múltiples, se emplean las derivadas parciales:

Derivadas parciales: Ayudan a encontrar la pendiente en cada dimensión por separado, proporcionando una ruta más clara hacia el mínimo.
Gradiente: Combina estas pendientes para indicar la dirección de subida, la cual se invierte (multiplicando por -1) para descender hacia el mínimo.

Adentrarse en el descenso del gradiente no solo mejora el conocimiento matemático, sino que también perfecciona habilidades prácticas cruciales para el desarrollo efectivo de modelos predictivos en ciencia de datos. Cualquier experto en la materia debe dominar estos conceptos para innovar y mejorar continuamente sus trabajos en machine learning.

Cesar Augusto Morales Godoy

student•

@youtube

Jose Diomedes

student•

Excelente, el canal es de los mejores.

Israel Hipolito Mejía Alba

student•

mi canal fav de ML 🧡

Alfonso Morán

student•

Dejo este artículo el cual explica el descenso del gradiente y va comentando a la par otros conceptos que se han visto hasta esta clase.

Andrés Felipe Bolívar Gallego

student•

Muy buen complemento a la clase.

Tomás Retamal Venegas

student•

Recomiendo esta serie de videos para entender gráficamente cómo funciona el GD

https://www.youtube.com/watch?v=IHZwWFHWa-w

Alarcon7a

student•

gran aporte

Dicson Quimbayo

student•

Me ha gustado mucho el cómo el profe hace la interconexión de los conceptos de redes neuronales con otros como los de matemáticas y física

Andres Gutiérrez Castillo

student•

En general nuestro objetivo en la NN es disminuir la fusión de coste, esto lo podemos hacer al obtener la derivada parcial de la fucnion de coste respecto a los pesos de cada neurona, es decir queremos saber que tanto cambia la función de coste, cuando variamos un poco los pesos de esta forma obtenemos un vector de direccion que nos indique hacia donde debemos actualizar los pesos para mejorar la loss. es lo que hace el descenso del gradiente.

Optimizador: me dice como debo actualizar los pesos, para disminuir el error. Hay varios tipos: gradient Decent, AdaGrand, AdaDelta, Momentum, Nesterov, ADAM, RMS prop
Lr: magnitud en la actualizacion de los pesos.
Momentum: para evitar caer en mínimos globales hay optimizadores que aplican momentum (como el concepto de física, es el impulso extra que acumulo en la bajada de bajada) como el RMS prop, el cual es una variación del GD + momentum

FELIX DAVID CORDOVA GARCIA

student•

Les recomiendo este video: https://www.youtube.com/watch?v=mwHiaTrQOiI

Jorge Andres Alvarez Ore

student•

Me acuerdo en los cursos antiguos no explicaban bien está parte. Uno tenía que ir a los vídeos de los comentarios para recién entenderlo.

Pedro Quiñonez Verdugo

student•

muy bien explicado, excelente.

Alberto Castro

student•

un libro gratuito de como funcionan las redes neuronales abarca todos los temas del curso neuralnetworksanddeeplearning .com

Rodrigo Ramos Xochiteotzin

student•

un punto bajo en la función de pérdida significa mayor precisión en nuestros datos

Por eso derivamos esta función de manera iterativa en el vector de la clase pasada. El objetivo es la optimización buscando mínimos

Hugo Montoya Diaz

student•

Uriel Torres

student•

Tengo la duda, entonces como se que función usar para cada aplicación, de alguna manera ya se maneja algún estándar o ¿Cómo puedo empezar a conocer las opciones y recomendaciones?

Alarcon7a

student•

Si, hay una especie de estandar, esto se observa mas adelante en la solucione de clasificaciones y regresiones. :)

Jhon Freddy Tavera Blandon

student•

Caso simple para ilustrar el concepto.

En problemas del mundo real, el descenso del gradiente se aplica a funciones de pérdida más complejas y en conjuntos de datos más grandes. Además, en la práctica, se utilizan bibliotecas de machine learning como TensorFlow o PyTorch para gestionar este proceso de optimización de manera eficiente.

Mario Alexander Vargas Celis

student•

El **descenso de gradiente** es uno de los algoritmos clave utilizados para optimizar redes neuronales y otros modelos de aprendizaje automático. Es un método iterativo que ajusta los pesos del modelo para minimizar una función de pérdida (o costo). En el caso de redes neuronales, la función de pérdida mide qué tan lejos están las predicciones del modelo respecto a los valores reales.

### ¿Cómo funciona el descenso de gradiente?

1. **Inicialización de los pesos**: El modelo comienza con pesos iniciales (generalmente aleatorios).

2. **Cálculo del gradiente**: Se calcula el gradiente de la función de pérdida con respecto a los pesos. Este gradiente indica la dirección de la mayor pendiente (ascenso) de la función de pérdida.

3. **Actualización de los pesos**: Los pesos se actualizan en la dirección opuesta al gradiente para reducir la pérdida. Esta actualización se realiza según la siguiente fórmula:

w_{\text{nuevo}} = w_{\text{viejo}} - \eta \cdot \nabla L(w)

Donde:

- \(w_{\text{nuevo}}\) son los nuevos pesos después de la actualización.

- \(w_{\text{viejo}}\) son los pesos actuales.

- \(\eta\) es la tasa de aprendizaje (*learning rate*), un parámetro que controla el tamaño del paso que damos.

- \(\nabla L(w)\) es el gradiente de la función de pérdida con respecto a los pesos.

4. **Iteración**: El proceso se repite hasta que la función de pérdida converja a un valor mínimo o hasta alcanzar un número máximo de iteraciones.

### Tipos de Descenso de Gradiente

- **Descenso de Gradiente Estocástico (SGD)**: Actualiza los pesos para cada muestra del conjunto de datos. Es más rápido pero más ruidoso, ya que puede saltar alrededor del mínimo.

- **Descenso de Gradiente por Mini-Lotes**: Divide el conjunto de datos en pequeños lotes y actualiza los pesos después de procesar cada lote. Es un compromiso entre el descenso de gradiente estocástico y el descenso de gradiente batch.

- **Descenso de Gradiente Batch**: Calcula el gradiente usando todo el conjunto de datos. Es más estable, pero puede ser lento para conjuntos de datos grandes.

### Implementación en Python y Keras

Keras, que está integrado con TensorFlow, simplifica la implementación del descenso de gradiente. Aquí te mostraré cómo funciona el descenso de gradiente en el contexto de una red neuronal en Keras.

#### Paso 1: Instalación de las librerías necesarias

Si no tienes Keras instalado, puedes instalarlo con:


pip install tensorflow

#### Paso 2: Construir una red neuronal simple

Vamos a crear un modelo básico con Keras para clasificar imágenes del conjunto de datos MNIST.


import tensorflow as tf

from tensorflow.keras.models import Sequential

from tensorflow.keras.layers import Dense, Flatten

from tensorflow.keras.datasets import mnist

from tensorflow.keras.utils import to\_categorical



\# Cargar el dataset MNIST

(x\_train, y\_train), (x\_test, y\_test) = mnist.load\_data()



\# Preprocesamiento de los datos

x\_train = x\_train.reshape((60000, 28 \* 28)).astype('float32') / 255

x\_test = x\_test.reshape((10000, 28 \* 28)).astype('float32') / 255



y\_train = to\_categorical(y\_train)

y\_test = to\_categorical(y\_test)



\# Definir el modelo

model = Sequential(\[

&#x20;   Flatten(input\_shape=(28\*28,)),  # Aplana las imágenes de 28x28 píxeles

&#x20;   Dense(128, activation='relu'),  # Capa oculta con 128 neuronas

&#x20;   Dense(10, activation='softmax') # Capa de salida con 10 clases

])



\# Compilar el modelo

model.compile(optimizer='sgd',  # Descenso de gradiente estocástico

&#x20;             loss='categorical\_crossentropy',

&#x20;             metrics=\['accuracy'])



\# Entrenar el modelo

model.fit(x\_train, y\_train, epochs=10, batch\_size=32)



\# Evaluar el modelo

test\_loss, test\_acc = model.evaluate(x\_test, y\_test)

print(f'Precisión en el conjunto de prueba: {test\_acc:.4f}')

### Explicación del Código

1. **Carga y preprocesamiento del conjunto de datos**:

- Cargamos el conjunto de datos MNIST, que contiene imágenes de dígitos escritos a mano (28x28 píxeles).

- Reescalamos los valores de los píxeles a un rango entre 0 y 1 (dividiendo por 255).

- Convertimos las etiquetas en una representación categórica (one-hot encoding) usando to\_categorical().

2. **Definición del modelo**:

- Utilizamos un modelo secuencial (Sequential), que es el tipo más sencillo de modelo en Keras.

- La primera capa aplana la imagen de 28x28 píxeles en un vector de 784 elementos.

- La segunda capa es una capa densa (fully connected) con 128 neuronas y activación ReLU.

- La última capa tiene 10 neuronas (una por cada dígito, 0-9) con activación softmax para realizar la clasificación.

3. **Compilación del modelo**:

- Utilizamos el optimizador **SGD** (descenso de gradiente estocástico) con la función de pérdida **categorical_crossentropy**.

- Elegimos la métrica de precisión (*accuracy*) para monitorear el rendimiento del modelo durante el entrenamiento.

4. **Entrenamiento del modelo**:

- El modelo se entrena durante 10 épocas con un tamaño de lote de 32. Keras ajustará los pesos de la red utilizando descenso de gradiente estocástico en cada lote.

5. **Evaluación del modelo**:

- Después del entrenamiento, el modelo se evalúa en el conjunto de datos de prueba, y se imprime la precisión final.

### Otros Optimizadores Basados en Descenso de Gradiente

Keras proporciona varios otros optimizadores que también están basados en el descenso de gradiente, pero con mejoras o ajustes:

- **Adam**: Combina las ventajas de AdaGrad y RMSProp, ajustando dinámicamente la tasa de aprendizaje de cada parámetro. Muy utilizado en la práctica.

```python

model.compile(optimizer='adam', loss='categorical_crossentropy', metrics=['accuracy'])

```

- **RMSProp**: Utiliza la media cuadrada del gradiente para ajustar la tasa de aprendizaje de forma adaptativa.

```python

model.compile(optimizer='rmsprop', loss='categorical_crossentropy', metrics=['accuracy'])

```

### Resumen

- El **descenso de gradiente** es una técnica iterativa que ajusta los pesos de la red neuronal para minimizar la función de pérdida.

- **SGD**, **Adam**, y **RMSProp** son variantes del descenso de gradiente utilizadas para optimizar redes neuronales.

- Keras simplifica el uso del descenso de gradiente al permitir que especifiques el optimizador al compilar el modelo.

Alberto Castro

student•

Encontré esto que habla de como el momentun que nos explica Carlos no esta para nada mal, pero este mismo hace mucho mas y en este post se lo explica, es interesante de ver además tiene muchas referencias (casi todas para pagar :( ). https://distill.pub/2017/momentum/

Tomas Beltran

student•

La primer referencia se encuentra en: https://web.archive.org/web/20150922064556/https://www.jmlr.org/proceedings/papers/v28/sutskever13.pdf

Jorge Enrique Pérez Escobar

student•

que buena explicacion del momentum

LUIS ANTONIO CALVO QUISPE

student•

Recomiendo hacer el ejercicio del video Gradient Descent para entender como funciona el Método del Descenso del Gradiente.

LUIS ANTONIO CALVO QUISPE

student•

Por ejemplo, aquí podemos ver como mediante el método del descenso del gradiente … llegamos a un mínimo

Nicolas Cordoba

student•

Un problema con la optimización son los mínimos locales. Hay técnicas de optimización global como la optimización por enjambre que usando paralelización nos puede ayudar a encontrar un buen punto de partida para empezar a optimizar de forma local desde este.

José Joaquín Tripp Gudiño

student•

Recomiendo tomar los cursos de "cálculo" y "fundamentos de cálculo para Ciencia de Datos" para tener un mejor entendimiento en este punto. En mi caso me ayudo bastante para nuevamente recordar mis clases de cálculo en la universidad :D

José Joaquín Tripp Gudiño

student•

Jhonntan Andres Castaño Rojas

student•

Donde puedo encontrar la animacion del gradiente Optimizadores del minuto 7:40?