Un Ejemplo Concreto: Aprendiendo la Función XOR

Clase 4 de 9 • Curso de Redes Neuronales y Backpropagation 2017

Abramos la caja negra. Construiremos a continuación una red neuronal desde cero que aprende la función XOR. La elección de esta función no lineal no es por casualidad. Sin backpropagation seria difícil aprender a separar clases con una línea recta.

Para ilustrar este importante concepto, note a continuación cómo una línea recta no puede separar 0s y 1s, las salidas de la función XOR. Los problemas reales también son linealmente no separables.

La topología de la red es simple:

Entrada X es un vector de dos dimensiones
Pesos W1 son una matriz de 2x3 dimensiones con valores inicializados de forma aleatoria
Capa escondida h1 consiste de 3 neuronas. Cada neurona recibe como entrada la suma de sus observaciones escaladas por sus pesos, este es el producto punto resaltado en verde en la figura de abajo: z1 = [x1, x2][w1, w2]
Pesos W2 son una matriz de 3x2 con valores inicializados de forma aleatoria
Capa de salida h2 consiste de 2 neuronas ya que la función XOR retorna 0 (y1=[0,1]) o 1 (y2 = [1,0]) Mas visualmente:

Entrenemos ahora el modelo. En nuestro ejemplo los valores entrenables son los pesos, pero tenga en cuenta que la investigación actual está explorando nuevos tipos de parámetros a ser optimizados. Por ejemplo: atajos entre capas, distribuciones estables en las capas, topologías, velocidades de aprendizaje, etc.

Backpropagation es un método para actualizar los pesos en la dirección (gradiente) que minimiza una métrica de error predefinida, conocida como Función de Pérdida on función de costo, dado un conjunto de observaciones etiquetadas. Este algoritmo ha sido repetidamente redescubierto y es un caso especial de una técnica mas general llamada diferenciación automática en modo acumulativo reverso.

Inicialización de la red

Inicialicemos los pesos de la red con valores aleatorios.

Propagación hacia adelante:

El objetivo de este paso es propagar hacia delante la entrada X a cada capa de la red hasta calcular un vector en la capa de salida h2.

Es así como sucede:

Se proyecta linealmente la entrada X usando pesos W1 a manera de kernel:

Se escala esta suma z1 con una función Sigmoid para obtener valores de la primera capa escondida. Note que el vector original de 2D ha sido proyectado ahora a 3D.

Un proceso similar toma lugar para la segunda capa h2. Calculemos primero la suma z2 de la primera capa escondida, la cual es ahora un vector de entrada.

Y luego calculemos su activación Sigmoid. Este vector [0.37166596 0.45414264] representa el logaritmo de la probabilidad o vector predecido, calculado por la red dado los datos de entrada X.

Calculando el error total

También conocido como "valor real menos predecido", el objetivo de la función de pérdida es cuantificar la distancia entre el vector predecido h2 y la etiqueta real proveída por un ser humano, y.

Note que la función de pérdida contiene un componente de regularización que penaliza valores de los pesos muy altos a manera de una regresión L2. En otras palabras, grandes valores cuadrados de los pesos incrementaran la función de pérdida, una métrica de error que en realidad queremos reducir.

Comentarios

Andres Leonardo Arevalo

student•

La función sigmoide que se calcula corresponde a la siguiente:

Mayor explicación acerca de la función

Osmandi Gomez

student•

Hola profesor Omar,

Es una manera muy práctica de explicar algo tan complejo.

Una pregunta, ¿el valor de las matrices es el resultado de las derivadas del algoritmo en el slide?

Luis Carlos Parra Raffán

student•

No, las matrices W son valores generados aleatoriamente, los valores de X son los valores de entrada de la red neuronal y por su puesto Y son los valores de salida de la red neuronal.

Por otro lado cuando aplicas la función Sigmoid en ese momento estas realizando o más bien simulando el proceso neuronal del cerebro humano, lo que significa aplicar la función que en videos anteriores se explicó en clase.

Osmandi Gomez

student•

Hola Luis, gracias por tu respuesta.

¿Lograste correr el demo con las gráficas?

johan Stever Rodriguez Molina

student•

Aquí es donde me siento feliz de ser matemático.

Carlos Nexans

student•

La función XOR es simplemente la operación lógica disyunción exclusiva, en Python podríamos escribir:

def xor(p, q):
	return (p or q) and not (p and q)

Hebert lughi villafuerte ccacala

student•

que crjs es esto xd…! a estudiar matematicas xdxd!!!

Cristian Orozco Benjumea

student•

Para aclarar unos conceptos les dejo un video de DotCSV en donde explica una red neuronal y las compuertas lógicas.

Profe ésta clase se me dificulto hubiera sido mejor construir la red desde cero y no sólo compartilo en GitHub.

Omar Florez

teacher•

Te refieres a esto? https://platzi.com/clases/redes-neuronales/concepto/optimizacion-matematica/demo-aprendiendo-a-separar-clases/material/?time=459

Cristian Orozco Benjumea

student•

Si luego vi que lo explicas en la siguiente clase.

Maximiliano Rodríguez Porras

student•

Para los que tienen problemas para ejecutar el ejemplo, seguir estos pasos en ubuntu (Pueden hacer una máquina virtual):

Tener instalado la última versión de python 2.7.

Debes de tener instalado git y descargar el archivo como se indica.

Hay que sacar el archivo scratch_mlp.py a una carpeta superior. (Si miras el código, busca dentro de la carpeta “scratch_mlp”, eso está mal)
Si hiciera un listado del directorio quedaría así:

└── redes_neuronales
    ├── scratch_mlp.py
    ├── scratch_mlp
        ├── docs
        ├── __init__.py
        ├── __init__.pyc
        ├── plots
        ├── __pycache__
        ├── slides
        ├── utils.py
        └── utils.pyc

Te recomiendo correr en virtualenv, pero si no sabes cómo, no hay problema.

Lirerias

Para poder correr el ejemplo tendrás que instalar python-tk. Código para instalarlo en linux:

apt-get install python-tk

Tendrás que tener instalado pip, puedes instalarlo en ubuntu con:

$ sudo apt-get install python-pip python-dev build-essential
$ sudo pip install --upgrade pip 
$ sudo pip install --upgrade virtualenv

Y necesitarás instalar las siguientes librerias:

pip install numpy, matplotlib, ipdb, imageio
Saludos.

Juan Sebastian Torres

student•

Faltó el tener el cuenta el vector de sesgos o bias el cual representa el bias correspondiente a cada neurona de la capa en la que se encuentre.

Gustavo David Guillen Gutierrez

student•

Tengo el siguiente error cuando intento ejecutar

Epoch 9999      Loss: 0.246042 Average L1 error: 0.492016 Accuracy: 0.540000
Traceback (most recent call last):
  File "scratch_mlp/scratch_mlp.py", line 125, in <module>
    run()
  File "scratch_mlp/scratch_mlp.py", line 118, in run
    utils.plot_decision_boundary(X, y_actual, lambda x: inference(x, [w1, w2]),
NameError: name 'utils' is not defined

If you suspect this is an IPython bug, please report it at:
    https://github.com/ipython/ipython/issues
or send an email to the mailing list at ipython-dev@python.org

You can print a more detailed traceback right now with "%tb", or use "%debug"
to interactively debug it.

Extra-detailed tracebacks for bug-reporting purposes can be enabled via:
    %config Application.verbose_crash=True

Diego Forero

Team Platzi•

Sin ver el código es difícil ayudarte, lo que muestra el error es que estas usando utils pero no esta definido, ya sea porque falta importarlo o porque estas importando mal.

Gustavo David Guillen Gutierrez

student•

Pero si precisamente realize un git clone.

git clone https://github.com/omar-florez/scratch_mlp/
python scratch_mlp/scratch_mlp.py

O sea en teoria deberiafuncionar, pq no he tocado nada.

Cristhian Bernal

student•

_¿Cuál es la razón para que la salida [0 1] sea 0 y [1 0] sea 1?
_Si la salida toma el valor [0 0] o [1 1] ¿Cuál sería su representación en la Tabla binaria del XOR?

└── redes_neuronales
    ├── scratch_mlp.py
    ├── scratch_mlp
        ├── docs
        ├── __init__.py
        ├── __init__.pyc
        ├── plots
        ├── __pycache__
        ├── slides
        ├── utils.py
        └── utils.pyc

Epoch 9999      Loss: 0.246042 Average L1 error: 0.492016 Accuracy: 0.540000
Traceback (most recent call last):
  File "scratch_mlp/scratch_mlp.py", line 125, in <module>
    run()
  File "scratch_mlp/scratch_mlp.py", line 118, in run
    utils.plot_decision_boundary(X, y_actual, lambda x: inference(x, [w1, w2]),
NameError: name 'utils' is not defined

If you suspect this is an IPython bug, please report it at:
    https://github.com/ipython/ipython/issues
or send an email to the mailing list at ipython-dev@python.org

You can print a more detailed traceback right now with "%tb", or use "%debug"
to interactively debug it.

Extra-detailed tracebacks for bug-reporting purposes can be enabled via:
    %config Application.verbose_crash=True

Un Ejemplo Concreto: Aprendiendo la Función XOR

Retropropagación: Visión general

Cómo funciona el aprendizaje supervisado en una Red Neuronal

Un LEGO a la vez: Explicando las matemáticas de cómo aprenden las Redes Neuronales

Evaluación de errores

Función de costo, supuestos y probabilidad

Un Ejemplo Concreto: Aprendiendo la Función XOR

Optimización matemática

Cuál es el algoritmo de retropropagación

Actualizar los pesos de la red neuronal utilizando gradientes

Propagación hacia atrás

Demo: aprendiendo a separar clases

Implementación y ejemplos de redes neuronales funcionando