Backpropagation

Clase 11 de 29 • Curso de Fundamentos de Redes Neuronales con Python y Keras

Resumen

¿Qué es el back propagation en redes neuronales?

El back propagation o retropropagación es un concepto fundamental en el entrenamiento de redes neuronales. Consiste en la distribución del error desde la capa de salida hacia las capas previas, permitiendo ajustar los pesos de la red para optimizar las predicciones. Este proceso se inicia con la evaluación de la predicción generada por la red comparada con los valores reales a través de una función de pérdida. La función de pérdida determina qué tan lejos está la predicción de ser correcta, enviando esta información al proceso de optimización de la red mediante el descenso del gradiente.

¿Cómo se distribuye el error en las capas de la red?

El error proviene de la capa final, pero como la predicción depende de las capas anteriores, la distribución del error no puede limitarse a la última capa. Aquí es donde entra en juego el algoritmo de back propagation, que utiliza el aprendizaje inverso: comienza en la última capa y retrocede hacia la primera, distribuyendo el error de manera proporcional a través del cálculo de derivadas parciales. Esta metodología es clave para saber cómo ajustar los pesos de cada capa de la red.

¿Cómo se implementa el algoritmo de back propagation?

Para implementar este algoritmo, es esencial entender cómo funcionan las derivadas parciales en combinación con la regla de la cadena. Las funciones de activación y pérdida deben ser derivables para que el cálculo sea preciso y eficiente. En la última capa, los deltas necesarios para actualizar se calculan utilizando las siguientes operaciones:

Se separan los términos que componen la derivada aplicando la regla de la cadena.
Cálculo de la derivada de la función de costo en relación con la activación de la última capa.
Multiplicación por la derivada de la función de activación respecto a los datos de la capa.

En las capas ocultas, el proceso varía ligeramente:

Se multiplican los pesos de cada capa por las deltas de la capa siguiente (hacia atrás).
Se realiza un producto punto del resultado anterior con la activación de la capa inmediatamente anterior.

Este proceso puede parecer complejo inicialmente, debido a la utilización de conceptos matemáticos como las derivadas parciales y las reglas de cálculo, pero resulta más claro cuando lo aplicamos prácticamente usando herramientas como NumPy en Python.

¿Cómo preparar la mente para entender mejor el back propagation?

Luego de comprender las nociones básicas del funcionamiento de las redes neuronales, como las funciones de activación, las capas ocultas y el rol del learning rate, es útil poner en práctica estos conceptos. Visitar un playground de TensorFlow permite visualizar de manera tangible el proceso y entender mejor cómo se desarrollan las actualizaciones de pesos y los ajustes del modelo. Esta experiencia práctica refuerza la teoría y facilita el dominio del back propagation.

¿Sigues interesado en dominar el back propagation? Aprender mediante la práctica y la experimentación es clave en este tutorial paso a paso que se desarrolla en las siguientes clases. ¡No te desanimes! Cada esfuerzo te acerca más al dominio total de las redes neuronales.

Hugo Montoya Diaz

student•

Santiago Zuluaga Saldarriaga

student•

Se entienden los conceptos, pero siento que con ayuda visual podría haber hecho mejor explicación de los conceptos.

Tomas Dale

student•

La BackPropagation

Tipo de red de aprendizaje supervisado
Emplea un ciclo propagación – adaptación de dos fases. Una vez que se ha aplicado un patrón a la entrada de la red como estímulo, este se propaga desde la primera capa a través de las capas superiores de la red, hasta generar una salida.

JAVIERTH LISNERTH ENRIQUE ARAUCO

student•

Backpropagation

Backpropagation (propagación hacia atrás) es un algoritmo de entrenamiento utilizado en redes neuronales artificiales para ajustar los pesos de las conexiones entre las neuronas. Es una técnica de optimización que utiliza el descenso del gradiente para minimizar la función de error entre las salidas de la red y los valores objetivo.

La propagación hacia atrás se llama así porque el error se propaga a través de la red desde la capa de salida hasta la capa de entrada, de manera inversa al flujo de la información durante la fase de entrenamiento hacia adelante (feedforward). Durante el proceso de entrenamiento, se calcula el error de la salida de la red en función de los valores objetivo, y luego se propagan estos errores hacia atrás a través de la red para actualizar los pesos de las conexiones.

Jaime Salas

student•

Esto es básico de cálculo diferencial. No hay mucha ciencia les aseguro que derivadas es un chiste alado de integrales

Andrés Felipe Sierra Álvarez

student•

Siempre sentí que las integrales eran más pesadas que las derivadas, en serio. Creí tener un sesgo porque lo ví con el profesor más pesado de la U, pero la experiencia me ha dicho que no.

Dicson Quimbayo

student•

Es verdad, me costó al principio el entender las integrales y poder aplicar sus conceptos a problemas

Jhon David Corimanya Ramos

student•

Muy buenos aportes compañeros, ayudan a complementar lo explicado por el profesor !!!

Mauricio Rojas Nova

student•

Algo que tal vez se omitió fue decir que gracias a este método podemos actualizar los pesos y bias usando los valores de las funciones de activaciones previamente caluladas en el feedforward. Esto hace que backpropagation, respecto a otros métodos como diferencias finitas, tengan un gasto computacional menor y así poder entrenar redes mucho más profundas.

Mario Alexander Vargas Celis

student•

**Backpropagation** (retropropagación) es un algoritmo clave en el entrenamiento de redes neuronales que permite ajustar los pesos de la red de manera eficiente para minimizar la función de pérdida. Es una extensión del algoritmo de **descenso de gradiente**, y su principal función es propagar el error desde la capa de salida hacia las capas internas (ocultas) para ajustar sus pesos mediante el gradiente descendente.

### ¿Cómo funciona Backpropagation?

1. **Propagación hacia adelante (Forward Pass)**:

- Los datos de entrada se pasan a través de la red, capa por capa, multiplicándose por los pesos de cada capa y aplicando funciones de activación. Al final, se obtiene una predicción.

2. **Cálculo del error (Loss)**:

- La salida obtenida en el paso anterior se compara con la etiqueta verdadera o valor esperado usando una función de pérdida (por ejemplo, el **error cuadrático medio** para regresión o **entropía cruzada** para clasificación). Esto nos da el error o "pérdida" del modelo.

3. **Propagación hacia atrás (Backward Pass)**:

- Se calcula el **gradiente** de la función de pérdida con respecto a cada peso en la red, comenzando desde la capa de salida hacia las capas anteriores, mediante la aplicación de la **regla de la cadena** (derivadas parciales sucesivas). Este paso ajusta los pesos para que, en la siguiente iteración, la función de pérdida se reduzca.

4. **Actualización de los pesos**:

- Una vez que se calculan los gradientes, los pesos de cada capa se actualizan usando el algoritmo de descenso de gradiente. Este ajuste se realiza en la dirección opuesta al gradiente para minimizar la pérdida.

La actualización de los pesos se hace con la fórmula:

w_{\text{nuevo}} = w_{\text{viejo}} - \eta \cdot \frac{\partial L}{\partial w}

Donde:

- \( \eta \) es la **tasa de aprendizaje**, que determina qué tan grande es el paso que se da en cada actualización.

- \( \frac{\partial L}{\partial w} \) es el gradiente de la función de pérdida con respecto a los pesos.

### Ejemplo: Proceso Detallado de Backpropagation

Imagina que tienes una red neuronal simple con:

- Una capa de entrada

- Una capa oculta

- Una capa de salida

Para entrenar la red, el proceso de backpropagation sigue estos pasos:

#### 1. Propagación hacia adelante:

- Los datos de entrada \(x_1, x_2, ..., x_n\) se multiplican por los pesos iniciales en la primera capa, pasan a través de la función de activación y se envían a la siguiente capa.

- En la capa de salida, los valores de salida son generados después de aplicar los pesos finales y la función de activación de la capa de salida (por ejemplo, softmax en clasificación).

#### 2. Cálculo del error:

- Comparamos la salida predicha con la etiqueta verdadera usando una función de pérdida como la **entropía cruzada** en problemas de clasificación.

#### 3. Propagación hacia atrás:

- Se comienza calculando el gradiente del error con respecto a los pesos de la última capa (derivada parcial de la función de pérdida con respecto a los pesos).

- Luego, se usa la **regla de la cadena** para calcular el gradiente de las capas ocultas, propagando los gradientes hacia atrás a través de la red hasta llegar a la primera capa.

#### 4. Actualización de los pesos:

- Una vez calculados los gradientes, se ajustan los pesos de la red en la dirección que minimiza el error. Se repite este proceso para cada lote de entrenamiento.

### Implementación en Python y Keras

Keras, que usa TensorFlow en el backend, implementa backpropagation automáticamente cuando entrenas un modelo. Vamos a ver cómo funciona en un ejemplo práctico.


import tensorflow as tf

from tensorflow.keras.models import Sequential

from tensorflow.keras.layers import Dense, Flatten

from tensorflow.keras.datasets import mnist

from tensorflow.keras.utils import to\_categorical



\# Cargar el dataset MNIST

(x\_train, y\_train), (x\_test, y\_test) = mnist.load\_data()



\# Preprocesamiento de los datos

x\_train = x\_train.reshape((60000, 28 \* 28)).astype('float32') / 255

x\_test = x\_test.reshape((10000, 28 \* 28)).astype('float32') / 255



y\_train = to\_categorical(y\_train)

y\_test = to\_categorical(y\_test)



\# Definir el modelo

model = Sequential(\[

&#x20;   Flatten(input\_shape=(28\*28,)),  # Aplana las imágenes de 28x28 píxeles

&#x20;   Dense(128, activation='relu'),  # Capa oculta con 128 neuronas

&#x20;   Dense(10, activation='softmax') # Capa de salida con 10 clases

])



\# Compilar el modelo

model.compile(optimizer='adam',  # Descenso del gradiente con Adam (usa backpropagation)

&#x20;             loss='categorical\_crossentropy',

&#x20;             metrics=\['accuracy'])



\# Entrenar el modelo (el backpropagation se ejecuta aquí automáticamente)

model.fit(x\_train, y\_train, epochs=10, batch\_size=32)



\# Evaluar el modelo

test\_loss, test\_acc = model.evaluate(x\_test, y\_test)

print(f'Precisión en el conjunto de prueba: {test\_acc:.4f}')

### Explicación del Código:

1. **Forward Pass**: En el paso de model.fit(), los datos de entrada pasan a través de las capas del modelo, y se genera una predicción para cada muestra.

2. **Cálculo del Error**: La función de pérdida categorical\_crossentropy compara las predicciones con las etiquetas verdaderas y calcula el error.

3. **Backpropagation**: Internamente, TensorFlow y Keras calculan los gradientes de la función de pérdida con respecto a los pesos usando la retropropagación.

4. **Actualización de los Pesos**: El optimizador Adam (o cualquier otro optimizador que elijas) ajusta los pesos usando los gradientes calculados durante la retropropagación.

### Optimización y Variantes de Backpropagation

Existen muchas variantes del algoritmo de descenso de gradiente que mejoran la eficiencia del backpropagation, entre ellas:

- **Adam**: Ajusta la tasa de aprendizaje de manera adaptativa para cada parámetro, acelerando la convergencia.

- **RMSProp**: Ajusta la tasa de aprendizaje utilizando un promedio exponencial de los gradientes pasados.

- **Momentum**: Acelera el descenso de gradiente al considerar las actualizaciones anteriores y mantener la inercia.

### Resumen

- **Backpropagation** es un algoritmo que ajusta los pesos de una red neuronal mediante el cálculo de los gradientes de la función de pérdida con respecto a los pesos.

- **Propagación hacia adelante**: Se obtienen predicciones utilizando los pesos actuales.

- **Propagación hacia atrás**: Se calcula el error y se propaga a través de la red para actualizar los pesos.

- **Keras** implementa backpropagation automáticamente en el proceso de entrenamiento, y el optimizador ajusta los pesos del modelo para minimizar la pérdida.

Este proceso se repite en múltiples épocas hasta que la red neuronal converge en un conjunto de pesos que minimizan la función de pérdida y mejoran la precisión del modelo.

Gonzalo Ceron Denetro

student•

Backpropagation es un método que nos permite aplicar descenso del gradiente en una red neuronal.

Y es que el error que tenemos en la capa de salida, ese error depende de las neuronas de las capas anteriores. Como hay una dependencia, necesitamos propagar el error hacía atrás, necesitamos ver como varía la función de costo cuando modificamos la salida de neuronas de capas anteriores.

1° En la capa de salida calculamos de derivada de la función con respecto a los parámetros (w) de la última capa. La función de costo respecto a w es una composición de funciones, es decir, tenemos una función dentro de otra.

La derivada de un composición de funciones, es la derivada la función exterior evaluada en la función interior, por la derivada de la función interior.

Aplicando esto, así quedaría la derivada de nuestra función de costo respecto al parámetro (w).

De esta expresión la podemos separa en dos, la derivada de la función de costo respecto a z (la suma ponderada) es nuestro error imputada a la neurona, Esta derivada nos dice la responsabilidad que tiene la neurona en el resultado final, si es un número grande tiene mayor peso.

El error imputado se puede representar de la siguiente manera:

2° Propagar el error hacía atrás.

Para propagar el error hacía atrás, ahora queremos ver como cambia la función de costo, si modificamos los parámetros de la capa oculta (w^L-1).

Entonces volvemos aplicar la regla de la cadena pero más profunda, queremos ver como cambia la suma ponderada z si modificamos la salida de a^L-1 (la salida de la neurona de la capa oculta, que es la entrada de la última capa.

La expresión quedaría:

Cada vez que obtengamos la derivada de la función de costo respecto al parámetro, ya podemos actualizar los parámetros, con descenso del gradiente.

Jhon Freddy Tavera Blandon

student•

La retropropagación (backpropagation) es un algoritmo utilizado en el entrenamiento de redes neuronales para ajustar los pesos de la red con el objetivo de minimizar la función de pérdida. Es una forma eficiente de calcular el gradiente de la función de pérdida con respecto a cada peso en la red, permitiendo la optimización mediante métodos como el descenso del gradiente. Aquí te explico detalladamente cómo funciona la retropropagación y te proporciono un ejemplo básico.

Predicciones finales:
[[0.92615669]
 [0.92497151]
 [0.05019443]
 [0.1084767 ]]

Pepe Sosa

student•

Profe, no le cambie el nombre a las cosas al vuelo, que si función de pérdida o que si función de costo, si ya de por sí es complicado entender todo este flujo de información, se complica más cuando le da dos nombres a la misma cosa.

Mario Alberto Hernández Pintor

student•

Un video de Dot Csv donde se explica lo mismo: @[youtube](M5QHwkkHgAA&t=394s |https://www.youtube.com/watch?v=M5QHwkkHgAA&t=394s)

Julio César Alvarez Guillén

student•

Muy buena clase

Jorge Andrés Robledo Ariza

student•

Excelente clase, muy claro cada concepto

José Ramón García

student•

Hola, hice un resumen del cálculo de Backpropagation, por si alguien quiere profundizar en las matemáticas.

Use "notación de Einstein", en realidad no correctamente, las reglas que usé son simples.

Si un índice se repite, implica que hay suma, ejemplo si i=1,2

f = a_i * b_i = a_1 * b_1 + a_2*b_2

pero si

f_i = a_i * b_i entonces no hay suma

Sebastian Hurtado Moreno

student•

este video de coursera lo explica mucho mejor y paso por paso: https://www.coursera.org/learn/introduction-to-deep-learning-with-keras/lecture/lfbxX/backpropagation

Diego Ferrua Huivin

student•

Anotaciones: Distribuimos el error para cambiar y mejorar los pesos para las siguientes interecciones de la red neuronal.

Regla de la cadena.

Z(Funcion de costo-Funcion de activacion-producto punto)

El flujo es de forma descendente(o<-oo<-o)

Ultima capa:

Z(Delta de la ultima capa)= dCosto/dActivacionUltima capa * dActivacion ultima capa/d datos de la ultima capa

Penultima capa:

Pesos de esa capa * dActivacion ultima capa/d datos de la ultima capa

Capa ocultas:

Deltas * Activacion de la ultima capa.

Andres Gutiérrez Castillo

student•

backpropagation

Es un algoritmo que nos permite responsabilizar a cada neurona con un porcentaje del error final. este porcentaje del error lo llamaremos error imputado a la neurona y será el que utilizaremos para actualizar los pesos de cada neurona y así optimizar la red

Philip Maister

student•

Yo lo que quiero es generar una red neuronal que prevea el consumo eléctrico de la empresa en donde trabajo, más bien que afine la predicción. Tenemos datos específicos de las máquinas que estarán en funcionamiento, y en base a esos datos mandamos las previsiones a los proveedores de energía, cuanto menos precisas sean más costos. Por ahora el curso muy bueno, va bastante al grano.

Andres Silva Vega

student•

Echenle una mirada a esta excelente explicación en español https://www.youtube.com/watch?v=1EUAoM1EhM0&list=PLBjZ-ginWc1e0_Dp4heHglsjJmacV_F20&index=5

Andres Silva Vega

student•

https://youtu.be/1EUAoM1EhM0?si=Ad2HZaclz2SFup6J

Andres Silva Vega

student•

Sobre este mismo tema, una clase del MIT en español https://youtu.be/lZrIPRnoGQQ?si=_IocZx1sbYSy1VBQ