Propagación hacia atrás

Clase 7 de 9 • Curso de Redes Neuronales y Backpropagation 2017

Contenido del curso

Retropropagación: Visión general

1
Cómo funciona el aprendizaje supervisado en una Red Neuronal
10:21 min
2
Un LEGO a la vez: Explicando las matemáticas de cómo aprenden las Redes Neuronales
02:25 min

Evaluación de errores

Optimización matemática

El objetivo de este paso es actualizar los pesos de la red neuronal en una dirección que minimiza la función de pérdida. Como veremos mas adelante, este es un algoritmo recursivo, el cual reutiliza gradientes previamente calculadas y se basada plenamente en funciones diferenciables. Ya que estas actualizaciones reducen la función de pérdida, una red ‘aprende’ a aproximar las etiquetas de nuevas observaciones. Una propiedad llamada generalización.

Este paso va en orden reverso que la propagación hacia adelante. Este calcula la primera derivada de la función de pérdida con respecto a los pesos de la red neuronal de la capa de salida (dLoss/dW2) y luego los de la capa escondida (dLoss/dW1). Expliquemos en detalle cada uno.

dLoss/dW2:

La regla de la cadena dice que podemos descomponer el calculo de gradientes de una red neuronal en funciones diferenciables:

Aquí están las definiciones de funciones usadas arriba y sus primeras derivadas:

Mas visualmente, queremos actualizar los pesos W2 (en azul) en la figura de abajo. Para eso necesitamos calcular tres derivadas parciales a lo largo de la cadena.

Insertando esos valores esas derivadas parciales nos permiten calcular gradientes con respecto a los pesos W2 como sigue.

El resultado es una matriz de 3x2 llamada dLoss/dW2, la cual actualizara los valores originales de W2 en una dirección que minimiza la función de pérdida.

dLoss/dW1:

Calculando la regla de la cadena para actualizar los pesos de la primera capa escondida W1 exhibe la posibilidad de reutilizar cálculos existentes.

Mas visualmente, el camino desde la capa de salida hasta los pesos W1 toca derivadas parciales ya calculadas en capas mas superiores.

Por ejemplo, la derivada parcial dLoss/dh2 y dh2/dz2 ha sido ya calculada como una dependencia para aprender los pesos de la capa de salida dLoss/dW2 en la sección anterior.

Ubicando todas las derivadas juntas, podemos ejecutar la regla de la cadena de nuevo para actualizar los pesos de la capa escondida W1:

Finalmente, asignamos los nuevos valores de los pesos y hemos completado una iteración del entrenamiento de la red neuronal!

Comentarios

Andres Leonardo Arevalo

student•

Si alguien fuera tan amable de explicarme. No logro comprender porque se dan estos cambios
dW2 por dh1

Y el cambio de dz2/ dh1 por la matriz de pesos W2,

Juan Esteban Lucero Cabezas

student•

En el orden de tus preguntas,

dW2 no se cambia dh1, el dh1 aparece cuando haces regla de la cadena (reglas de derivacion) a la derivada dLoss/dh1. Como la funcion Loss depende de z2 y z2 depende de h1, usando la regla de la cadena puedes hacer la relacion entre Loss y h1, la cual es la se muestra en la primera imagen. Por eso dW2 no tiene nada que ver.
De videos pasados sabemos que z2 = W2 * h1, entonces como z2 es una transformacion lineal entre h1 y los pesos W2 (en terminos simples, porque se multiplican), la derivada dz2/dh1 = W2

Andres Leonardo Arevalo

student•

Te agradezco mucho tu explicación me fue de mucha ayuda, para el segundo punto el profesor lo muestra también en el siguiente cuadro.

Enrique Ortuno

student•

Por que en dLoss/dW2 se usa la transpuesta? Cuando en la formula inicial NO se menciona para nada la transpuesta?

Alonso Melgar Lopez

student•

Existe un pequeño error de dedo, en la derivada del primero renglón de la cuadricula ya que se realiza la derivada de “Loss” con respecto a “W2” cuando en realidad eso es lo que lo se esta buscando en ultima instancia, por lo que la derivada de “Loss” es con respecto a “h2”

Aprovecho la ocasión para felicitarlos por tan excelente curso y esperando que sea el inicio de muchos cursos mas con esta temática.

Victor Daniel Aguirre Gil

student•

Una manera muy simple de explicarlo, muchas gracias.

Miguel

student•

Porque α es igual a 0.001

Diego Fernando Charfuelan Burbano

student•

es una tasa de aprendizaje, se escoge segun la necesidad y experiencia del diseñador de la red

Bryan David Rosas Rojas

student•

que criterio utiliza el diseñador para elegir este valor?

Propagación hacia atrás

Retropropagación: Visión general

Cómo funciona el aprendizaje supervisado en una Red Neuronal

Un LEGO a la vez: Explicando las matemáticas de cómo aprenden las Redes Neuronales

Evaluación de errores

Función de costo, supuestos y probabilidad

Un Ejemplo Concreto: Aprendiendo la Función XOR

Optimización matemática

Cuál es el algoritmo de retropropagación

Actualizar los pesos de la red neuronal utilizando gradientes

Propagación hacia atrás

Demo: aprendiendo a separar clases

Implementación y ejemplos de redes neuronales funcionando