Backpropagation

Clase 11 de 29 • Curso de Fundamentos de Redes Neuronales con Python y Keras

Contenido del curso

Fundamentos en la arquitectura de redes neuronales

Redes neuronales con Python

Manejo de redes neuronales con Keras

Cierre

Resumen

Cuando una red neuronal produce una predicción incorrecta, surge una pregunta fundamental: ¿qué capa o neurona es responsable del error? El algoritmo de backpropagation resuelve exactamente este problema, distribuyendo el error desde la última capa hasta la capa de entrada mediante derivadas parciales. Comprender este mecanismo es esencial para entender cómo aprenden las redes neuronales.

¿Cómo funciona el ciclo de entrenamiento antes del backpropagation?

Antes de hablar de backpropagation, conviene repasar el flujo completo de entrenamiento [0:24]. Cada capa de la red neuronal posee pesos que realizan operaciones de producto punto con los datos de entrada. La información pasa capa por capa, volviéndose más específica en cada nivel.

En la capa final se obtiene una predicción.
Esa predicción se compara con los valores reales a través de una función de pérdida [0:47].
La función de pérdida indica qué tan lejos está la predicción del resultado correcto.
Un optimizador, como el descenso del gradiente, utiliza esa información para actualizar los pesos [1:03].

Con los pesos actualizados, el ciclo vuelve a comenzar: nueva predicción, nueva evaluación de la función de pérdida, nueva actualización de pesos. En cada iteración, el objetivo es encontrar el punto mínimo global de la función de pérdida [1:35].

¿Por qué no podemos culpar solo a la última capa del error?

Aquí ocurre algo muy interesante [1:44]. La función de pérdida calcula un error y se lo asigna a la última capa, la que generó la predicción. Pero esa capa no es la única responsable: los cálculos que realizó dependían de la información que le entregó la capa anterior.

Y esa capa anterior, a su vez, recibió sus datos de la capa que la precede. El problema se propaga hacia atrás:

La última capa dice: la información me llegó de la capa anterior.
La capa anterior repite lo mismo.
Ninguna capa individual es la culpable exclusiva del error [2:16].

Este dilema motivó la creación del algoritmo de backpropagation, que evalúa la red en sentido inverso, desde la capa de salida hasta la capa de entrada, distribuyendo el error y calculando cómo debe actualizarse cada peso [2:42].

¿Cómo se calculan las actualizaciones con la regla de la cadena?

La herramienta matemática que hace posible el backpropagation es la derivada parcial, y específicamente la regla de la cadena [3:17]. Por eso es tan importante que las funciones de activación y la función de pérdida sean diferenciables.

¿Qué ocurre en la última capa?

En la capa final tenemos tres elementos encadenados [3:30]:

Z: los resultados del producto punto.
La función de activación aplicada sobre Z.
La función de costo que evalúa la activación contra el valor real.

Aplicando la regla de la cadena, separamos la derivada en dos factores: la derivada de la función de costo con respecto a la activación, multiplicada por la derivada de la activación con respecto a Z [3:49]. Esto nos da las deltas que indican cuánto y en qué dirección ajustar los pesos de la última capa.

¿Cómo se propaga el error a las capas ocultas?

Para las capas ocultas, el proceso es ligeramente diferente [4:14]. Se toman los pesos de la capa actual y se multiplican en producto punto por las deltas obtenidas de la capa posterior. El resultado se multiplica por la derivada de la activación con respecto a Z en la capa L menos uno.

Además, para evaluar el error en cada capa oculta, esas deltas se multiplican en producto punto por la activación de la capa anterior (L menos dos) [4:38]. De esta forma, el error se distribuye proporcionalmente a lo largo de toda la red.

Derivadas parciales, deltas, activaciones, productos punto: son varios elementos que interactúan [4:56]. Sin embargo, estos conceptos se vuelven mucho más claros al implementarlos desde cero con NumPy en Python, que es el siguiente paso en la ruta de aprendizaje.

Si alguno de estos conceptos como el learning rate, las capas ocultas o el descenso del gradiente todavía genera dudas, practicar en el playground de TensorFlow es una excelente forma de consolidar la comprensión antes de escribir código. ¿Qué parte del backpropagation te resulta más desafiante? Comparte tu experiencia en los comentarios.

Mario Alexander Vargas Celis

student•

**Backpropagation** (retropropagación) es un algoritmo clave en el entrenamiento de redes neuronales que permite ajustar los pesos de la red de manera eficiente para minimizar la función de pérdida. Es una extensión del algoritmo de **descenso de gradiente**, y su principal función es propagar el error desde la capa de salida hacia las capas internas (ocultas) para ajustar sus pesos mediante el gradiente descendente.

### ¿Cómo funciona Backpropagation?

1. **Propagación hacia adelante (Forward Pass)**:

- Los datos de entrada se pasan a través de la red, capa por capa, multiplicándose por los pesos de cada capa y aplicando funciones de activación. Al final, se obtiene una predicción.

2. **Cálculo del error (Loss)**:

- La salida obtenida en el paso anterior se compara con la etiqueta verdadera o valor esperado usando una función de pérdida (por ejemplo, el **error cuadrático medio** para regresión o **entropía cruzada** para clasificación). Esto nos da el error o "pérdida" del modelo.

3. **Propagación hacia atrás (Backward Pass)**:

- Se calcula el **gradiente** de la función de pérdida con respecto a cada peso en la red, comenzando desde la capa de salida hacia las capas anteriores, mediante la aplicación de la **regla de la cadena** (derivadas parciales sucesivas). Este paso ajusta los pesos para que, en la siguiente iteración, la función de pérdida se reduzca.

4. **Actualización de los pesos**:

- Una vez que se calculan los gradientes, los pesos de cada capa se actualizan usando el algoritmo de descenso de gradiente. Este ajuste se realiza en la dirección opuesta al gradiente para minimizar la pérdida.

La actualización de los pesos se hace con la fórmula:

w_{\text{nuevo}} = w_{\text{viejo}} - \eta \cdot \frac{\partial L}{\partial w}

Donde:

- \( \eta \) es la **tasa de aprendizaje**, que determina qué tan grande es el paso que se da en cada actualización.

- \( \frac{\partial L}{\partial w} \) es el gradiente de la función de pérdida con respecto a los pesos.

### Ejemplo: Proceso Detallado de Backpropagation

Imagina que tienes una red neuronal simple con:

- Una capa de entrada

- Una capa oculta

- Una capa de salida

Para entrenar la red, el proceso de backpropagation sigue estos pasos:

#### 1. Propagación hacia adelante:

- Los datos de entrada \(x_1, x_2, ..., x_n\) se multiplican por los pesos iniciales en la primera capa, pasan a través de la función de activación y se envían a la siguiente capa.

- En la capa de salida, los valores de salida son generados después de aplicar los pesos finales y la función de activación de la capa de salida (por ejemplo, softmax en clasificación).

#### 2. Cálculo del error:

- Comparamos la salida predicha con la etiqueta verdadera usando una función de pérdida como la **entropía cruzada** en problemas de clasificación.

#### 3. Propagación hacia atrás:

- Se comienza calculando el gradiente del error con respecto a los pesos de la última capa (derivada parcial de la función de pérdida con respecto a los pesos).

- Luego, se usa la **regla de la cadena** para calcular el gradiente de las capas ocultas, propagando los gradientes hacia atrás a través de la red hasta llegar a la primera capa.

#### 4. Actualización de los pesos:

- Una vez calculados los gradientes, se ajustan los pesos de la red en la dirección que minimiza el error. Se repite este proceso para cada lote de entrenamiento.

### Implementación en Python y Keras

Keras, que usa TensorFlow en el backend, implementa backpropagation automáticamente cuando entrenas un modelo. Vamos a ver cómo funciona en un ejemplo práctico.


import tensorflow as tf

from tensorflow.keras.models import Sequential

from tensorflow.keras.layers import Dense, Flatten

from tensorflow.keras.datasets import mnist

from tensorflow.keras.utils import to\_categorical



\# Cargar el dataset MNIST

(x\_train, y\_train), (x\_test, y\_test) = mnist.load\_data()



\# Preprocesamiento de los datos

x\_train = x\_train.reshape((60000, 28 \* 28)).astype('float32') / 255

x\_test = x\_test.reshape((10000, 28 \* 28)).astype('float32') / 255



y\_train = to\_categorical(y\_train)

y\_test = to\_categorical(y\_test)



\# Definir el modelo

model = Sequential(\[

&#x20;   Flatten(input\_shape=(28\*28,)),  # Aplana las imágenes de 28x28 píxeles

&#x20;   Dense(128, activation='relu'),  # Capa oculta con 128 neuronas

&#x20;   Dense(10, activation='softmax') # Capa de salida con 10 clases

])



\# Compilar el modelo

model.compile(optimizer='adam',  # Descenso del gradiente con Adam (usa backpropagation)

&#x20;             loss='categorical\_crossentropy',

&#x20;             metrics=\['accuracy'])



\# Entrenar el modelo (el backpropagation se ejecuta aquí automáticamente)

model.fit(x\_train, y\_train, epochs=10, batch\_size=32)



\# Evaluar el modelo

test\_loss, test\_acc = model.evaluate(x\_test, y\_test)

print(f'Precisión en el conjunto de prueba: {test\_acc:.4f}')

### Explicación del Código:

1. **Forward Pass**: En el paso de model.fit(), los datos de entrada pasan a través de las capas del modelo, y se genera una predicción para cada muestra.

2. **Cálculo del Error**: La función de pérdida categorical\_crossentropy compara las predicciones con las etiquetas verdaderas y calcula el error.

3. **Backpropagation**: Internamente, TensorFlow y Keras calculan los gradientes de la función de pérdida con respecto a los pesos usando la retropropagación.

4. **Actualización de los Pesos**: El optimizador Adam (o cualquier otro optimizador que elijas) ajusta los pesos usando los gradientes calculados durante la retropropagación.

### Optimización y Variantes de Backpropagation

Existen muchas variantes del algoritmo de descenso de gradiente que mejoran la eficiencia del backpropagation, entre ellas:

- **Adam**: Ajusta la tasa de aprendizaje de manera adaptativa para cada parámetro, acelerando la convergencia.

- **RMSProp**: Ajusta la tasa de aprendizaje utilizando un promedio exponencial de los gradientes pasados.

- **Momentum**: Acelera el descenso de gradiente al considerar las actualizaciones anteriores y mantener la inercia.

### Resumen

- **Backpropagation** es un algoritmo que ajusta los pesos de una red neuronal mediante el cálculo de los gradientes de la función de pérdida con respecto a los pesos.

- **Propagación hacia adelante**: Se obtienen predicciones utilizando los pesos actuales.

- **Propagación hacia atrás**: Se calcula el error y se propaga a través de la red para actualizar los pesos.

- **Keras** implementa backpropagation automáticamente en el proceso de entrenamiento, y el optimizador ajusta los pesos del modelo para minimizar la pérdida.

Este proceso se repite en múltiples épocas hasta que la red neuronal converge en un conjunto de pesos que minimizan la función de pérdida y mejoran la precisión del modelo.

Hugo Montoya Diaz

Santiago Zuluaga Saldarriaga

Tomas Dale

JAVIERTH LISNERTH ENRIQUE ARAUCO

Jaime Salas

Andrés Felipe Sierra Álvarez

Dicson Quimbayo

Jhon David Corimanya Ramos

Mauricio Rojas Nova

Gonzalo Ceron Denetro

Jhon Freddy Tavera Blandon

Pepe Sosa

Mario Alberto Hernández Pintor

Julio César Alvarez Guillén

Jorge Andrés Robledo Ariza

José Ramón García

Sebastian Hurtado Moreno

Diego Ferrua Huivin

Andres Gutiérrez Castillo

Philip Maister

Andres Silva Vega

Backpropagation

Fundamentos en la arquitectura de redes neuronales

La importancia de las redes neuronales en la actualidad

¿Que herramientas usaremos para redes neuronales?

¿Qué es deep learning?

Tu primera red neuronal con Keras

Entrenando el modelo de tu primera red neuronal

La neurona: una pequeña y poderosa herramienta

Arquitectura de una red neuronal

Funciones de activación

Funcion de pérdida (loss function)

Descenso del gradiente