Un Ejemplo Concreto: Aprendiendo la Función XOR

Clase 12 de 28 • Curso de Introducción al Deep Learning 2018

Contenido del curso

Introducción a la Inteligencia Artificial

Proyecto práctico

4
Un problema aun no resuelto: La computación afectiva (affective computing)
07:02 min

Sesión interactiva: Configurar tu ambiente de trabajo

Conceptos básicos

Algoritmos de Deep Learning y Redes Neuronales

Construiremos a continuación una red neuronal desde cero que aprenda la función XOR. La elección de esta función no lineal no es por casualidad. Sin backpropagation sería difícil aprender a separar clases con una línea recta.

Para ilustrar este importante concepto, nota a continuación cómo una línea recta no puede separar 0s y 1s, las salidas de la función XOR. Los problemas reales también son linealmente no separables.

La topología de la red es simple:

Entrada X es un vector de dos dimensiones
Pesos W1 son una matriz de 2x3 dimensiones con valores inicializados de forma aleatoria
Capa escondida h1 consiste de 3 neuronas. Cada neurona recibe como entrada la suma de sus observaciones escaladas por sus pesos, este es el producto punto resaltado en verde en la figura de abajo: z1 = [x1, x2][w1, w2]
Pesos W2 son una matriz de 3x2 con valores inicializados de forma aleatoria
Capa de salida h2 consiste de 2 neuronas ya que la función XOR retorna 0 (y1=[0,1]) o 1 (y2 = [1,0])

Más visualmente:

Entrenemos ahora el modelo. En nuestro ejemplo los valores entrenables son los pesos, pero ten en cuenta que la investigación actual está explorando nuevos tipos de parámetros a ser optimizados. Por ejemplo: atajos entre capas, distribuciones estables en las capas, topologías, velocidades de aprendizaje, etc.

Backpropagation es un método para actualizar los pesos en la dirección (gradiente) que minimiza una métrica de error predefinida, conocida como Función de Pérdida o Función de costo, dado un conjunto de observaciones etiquetadas. Este algoritmo ha sido repetidamente redescubierto y es un caso especial de una técnica más general llamada diferenciación automática en modo acumulativo reverso.

Inicialización de la red

Inicialicemos los pesos de la red con valores aleatorios.

Propagación hacia adelante:

El objetivo de este paso es propagar hacia delante la entrada X a cada capa de la red hasta calcular un vector en la capa de salida h2. Es así como sucede:

Se proyecta linealmente la entrada X usando pesos W1 a manera de kernel:

Se escala esta suma z1 con una función Sigmoid para obtener valores de la primera capa escondida. Nota que el vector original de 2D ha sido proyectado ahora a 3D.

Un proceso similar toma lugar para la segunda capa h2. Calculemos primero la suma z2 de la primera capa escondida, la cual es ahora un vector de entrada.

Y luego calculemos su activación Sigmoid. Este vector [0.37166596 0.45414264] representa el logaritmo de la probabilidad o vector predecido, calculado por la red dado los datos de entrada X.

Calculando el error total

También conocido como “valor real menos predecido”, el objetivo de la función de pérdida es cuantificar la distancia entre el vector predecido h2 y la etiqueta real proveída por un ser humano, y.

Note que la función de pérdida contiene un componente de regularización que penaliza valores de los pesos muy altos a manera de una regresión L2. En otras palabras, grandes valores cuadrados de los pesos incrementaran la función de pérdida, una métrica de error que en realidad queremos reducir.

Comentarios

Wilson Fernando Antury Torres

student•

Excelente explicación.

Mi resumen:

entrada x1, x2
pesos w1 matriz 2x3
capa escondida h1=3 neuronas
z1 = [x1, x2][w1,w2]
pesos w2 matrix 3x2
capa salida h2 = 2 neuronas
Recordar que las dimensiones de la matrices se forman: como filas la cantidad de neuronas de la capa anterior y columnas como la cantidad de neuronas en la capa actual.

**Backpropagation ** Es un método para actualizar los pesos en la dirección (gradiente) que minimiza una métrica de error predefinida, conocida como Función de Pérdida o Función de costo, dado un conjunto de observaciones etiquetadas. (Actualizar los pesos) Propagación hacia adelante : El objetivo de este paso es propagar hacia delante la entrada X a cada capa de la red hasta calcular un vector en la capa de salida h2.

pablo joaquin mariño rodriguez

student•

No se ha calculado la actualización de los pesos, en este desarrollo. Sólo se ha hecho el forward mas no el backward.

Amylkar Urrea Montoya

student•

La verdad no me quedó claro que tiene que ver la función XOR en todo esto.

Kevin Naranjo

student•

se usa la funcion XOR por que es un ejemplo practico que realmente nos muestra que una sola neurona no va a poder hacer esta clasificacion cada neurona actua similar a una regresion lineal

Usuario anónimo

user•

Kevin Naranjo, pero aquí se uso más de una neurona, creo que el problema es no haber hecho backpropagation o tal vez que se utilizó una sola capa o no sé si es porque no mostro el uso de softmax...

daniel Alejandro Terán Fernández

student•

En 5 cursos que he hecho de ML, no había visto una explicación tan detallada! Sé que puede enredar pero me parece necesaria.

Usuario anónimo

user•

Muy interesante el tema .. con este ejercicio tan sencillo se comprende mejor porque se necesitan usar computadores para aplicar las redes neuronales mas complejas.

Usuario anónimo

user•

Totalmente de acuerdo cotigo.

Usuario anónimo

user•

Muchas gracias por la explicación tan detallada, no tuve que usar computador ni nada para entender el tema, de verdad que así deberían ser todos los cursos.

Usuario anónimo

user•

Muchas gracias por la explicación, muy clara.

David Marín García

student•

Porque la capa escondida tiene 3 neuronas?? porque no 2 o 4??????

daniel Alejandro Terán Fernández

student•

El ejemplo de hacerlo con XOR me parece correcto, un problema muy simple para hacer en un algoritmo pero muestra la complejidad del trabajo que hacen las redes neuronales para aprender.

Joseba Fuentes

student•

Podrias explicar, por que usas una capa en vez de 2, 3, u otra cantidad? Podrias explicar por que en la capa oculta 1, usas 3 neuronas? Podrias explicar que son exactamente esos valores que se le pasan para entrenar, es decir los de X, y por que son esos?

Los conceptos se entienden mas o menos, pero en el ejemplo no se dejan esas cosas claras, y creo que es lo mas basico para entender el porque de las cosas.

Un saludo.

Kevin Naranjo

student•

la idea del ejemplo mas qe todo es ver como es la operacion matematica entre las matrices pero el numero de capas y neuronas puede ser el que desees asi como utilizo 3 neuronas hubiese podido usar 100 pero la idea en inteligencia artificial

Usuario anónimo

user•

La redes neuronales, son tan complejas.

Usuario anónimo

user•

Muy buena la explicación

Usuario anónimo

user•

Súper interesante el ejercicio.

Usuario anónimo

user•

Muy bueno.

Usuario anónimo

user•

Excelente.

Usuario anónimo

user•

Muy claro el documento. Buenisimo.

Un Ejemplo Concreto: Aprendiendo la Función XOR

Introducción a la Inteligencia Artificial

Todo lo que aprenderás sobre Deep Learning

¿Qué es la Inteligencia Artificial (IA), Machine Learning y Deep Learning?

Objetivo del curso

Proyecto práctico

Un problema aun no resuelto: La computación afectiva (affective computing)

Sesión interactiva: Configurar tu ambiente de trabajo

Configura tu ambiente de trabajo

Resumen

Conceptos básicos

¿Qué es una neurona?

¿Qué es una red neuronal?

Función softmax(z)

¿Cómo aprende una red neuronal?

Navegando la superficie de error con gradientes

Un Ejemplo Concreto: Aprendiendo la Función XOR

Recapitulación

Proyecto: Diccionario en español

Algoritmos de Deep Learning y Redes Neuronales

Modelo #1: Logistic Classifier

Sesión interactiva: Implementación de Logistic Classifier valores de entrada

Sesión interactiva: Implementación de Logistic Classifier arquitectura

Modelo #2: Multi Layer Perceptron (MLP)

Sesión interactiva: Implementación de MLP ingresando datos

Sesión interactiva: Implementación de MLP a nivel de arquitectura

Modelo #3: Long-Short Term Memory (LSTM)

Sesión interactiva: Implementación de LSTM definiendo entradas

Sesión interactiva: Implementación de LSTM arquitectura y optimización

Corriendo modelos

Recapitulando

Evaluando un modelo

Precisión, Accuracy, Recall, y F1 Confussion Matrix

Conclusiones del curso

A gran poder, gran responsabilidad: Ética e Inteligencia Artificial

Contenido Bonus

El Algoritmo Maestro