Un LEGO a la vez: Explicando las matemáticas de cómo aprenden las Redes Neuronales

Clase 2 de 9 • Curso de Redes Neuronales y Backpropagation 2017

Una red neuronal es un composición inteligente de módulos lineales y no lineales. Cuando los escogemos sabiamente, tenemos una herramienta muy poderosa para optimizar cualquier función matemática. Por ejemplo una que separe clases con un limite de decisión no lineal.

Un tópico que no es siempre explicado en detalle, a pesar de su naturaleza intuitiva y modular, es el algoritmo de retro-alimentación (backpropagation algorithm), responsable de actualizar parámetros "entrenables" en la red. Construyamos una red neuronal desde cero para ver el funcionamiento interno de una red neuronal usando piezas de LEGO como una analogía, un bloque a la vez.

Puedes ver el código implementando estos conceptos en el siguiente repositorio: https://github.com/omar-florez/scratch_mlp

Las Redes Neuronales como una Composición de Piezas

La figura de arriba muestra algo de la matemática usada para entrenar una red neuronal. Haremos sentido de esto durante el artículo. Una red neuronal es una pila de módulos con diferentes propósitos:

Entrada X alimenta la red neuronal con datos sin procesar, la cual se almacena en una matriz en la cual las observaciones con filas y las dimensiones son columnas.
Pesos W1 proyectan entrada X a la primera capa escondida h1. Pesos W1 trabajan entonces como un kernel lineal.
Una función Sigmoid que previene los números de la capa escondida de salir del rango 0-1. El resultado es un array activaciones neuronales h1 = Sigmoid(WX).

Hasta este punto estas operaciones solo calculan un sistema general lineal, el cual no tiene la capacidad de modelar interacciones no lineales. Esto cambia cuando ponemos otro elemento en el pila, añadiendo profundidad a la estructura modular. Mientras más profunda sea la red, más interacciones no-lineales podremos aprender y problemas mas complejos podremos resolver, lo cual puede explicar en parte la popularidad de redes neuronales.

¿Por qué debería leer esto?

Si uno entiende las partes internas de una red neuronal, es mas fácil saber qué cambiar primero cuando el algoritmo no funcione como es esperado, y permite definir una estrategia para probar invariantes y comportamientos esperados que uno saben son parte del algoritmo. Esto también es útil cuando quieres crear nuevos algoritmos que actualmente no están implementados en la librería de Machine Learning de preferencia.

¿Por qué hacer debugging de modelos de aprendizaje de máquina es una tarea compleja?

Por experiencia, los modelos matemáticos no funcionan como es esperado al primer intento. A veces estos pueden darte una exactitud baja para datos nuevos, tomar mucho tiempo de entrenamiento o mucha memoria RAM, devolver una gran cantidad de falsos negativos o valores NaN (Not a Number), etc. Déjame mostrarte algunos casos donde saber cómo funciona el algoritmo puede ser útil:

Si toma mucho tiempo para entrenar, es quizás una buena idea incrementar el tamaño del mini-batch o array de observaciones que alimentan a la red neuronal, para reducir la varianza en las observaciones y así ayudar al algoritmo a converger.
Si se observa valores NaN, el algoritmo ha recibido gradientes con valores muy altos produciendo desborde de memoria RAM. Piensa esto como una secuencia de multiplicaciones de matrices que explotan después de varias iteraciones. Reducir la velocidad de aprendizaje tendrá el efecto de escalar estos valores. Reduciendo el número de capas reducirá el número de multiplicaciones. Y poniendo una cota superior a los gradientes (clipping gradients) controlará este problema explícitamente.

Comentarios

Ricardo Celis

teacher•

La varianza es la media aritmética (AKA promedio) del cuadrado de las desviaciones respecto a la media de una distribución estadística

Omar Florez

teacher•

Otro excelente aporte tuyo, Ricardo. De manera práctica, en machine learning usamos la varianza como una métrica de dispersión. Mientras más varianza exista, más incertidumbre también!

Ricardo Celis

teacher•

entiendo, muchas gracias =)!

Pablo Fernández

student•

Back Propagation es el algoritmo de entrnamiento de la red, mientras que Forward Propagation es el algoritmo de predicción. Back propagation tiene como finalidad, optimizar en sentido matematico, la funcion de perdida o loss, la cual esta en funcion de todos los pesos de la red. Una vez optimizada atraves de la manupulacion de estos pesos (W), estara preparada para hacer predicciones (Forwar propagation).

Hugo Parischewsky Zapata

student•

Hola, tengo varias preguntas;

·) A qué se refeire con “capa escondida”, de qué manera ésta afecta al funcionamiento de la red, y en qué etapa de la red trabaja ?.

·) Cuando habla de los gradientes que recibe el algoritmo, a qué se refiere con gradiente ?.

·) La velocidad de aprendizaje de una red neuronal, de qué depende?, bajo que parámetros o estructuras aumenta o disminuye su velocidad?.

·) En la práctica, que vendría siendo una observación y una dimensión ( de la entrada X ) ?, podría dar un ejemplo práctico ?.

De antemano muchas gracias.

Hugo Parischewsky Zapata

student•

Muchas gracias por la pornta respuesta.
El precio ( vector de salida Y ) iría dentro de las dimensiones ?? siendo así el precio de cada casa en base a las características que estas posean, o sería el precio estimado de la casa a la cual le quiero predecir el precio ?

Pablo Fernández

student•

cuando entrenas a una red neronal necesitas dos cosas, una lista de datos y sus correspondiente salidas. Un ejemplo seria: Imaginate que quieres que tu RED, te diga el tipo de animal que sale en la foto. Tus datos serian las fotografias y sus salidas, serian el tipo de animal que es. Tu a un niño, no le puedes poner una foto de un perro delante y esperar a que te diga que es un perro sin antes enseñarle que eso que ve es un perro. A una red le pasa lo mismo, por mucha informacion que le des no le vale de nada si no le das su correspondiente etiqueta. Saludos

Cristian Orozco Benjumea

student•

Que es un Kernel Lineal?

Omar Florez

teacher•

Un kernel lineal es la simple suma de la multiplicacion de cada entrada de dos vectores (x, w) de igual tamanio. El termino matematico para esto se le llama producto punto y tambien se le define como el coseno del angulo de esos dos vectores multiplicado por el producto de sus longitudes () .

En las redes neuronales, uno de esos dos vectores (w) representa los pesos (w=weights) de las sinapsis associadas con cada elemento de la entrada, lo cual quiere decir que estamos multiplicando cada elemento de la entrada con un valor (peso) que presenta cuan importante es esa entrada para predecir la clase correcta!

Cristian Orozco Benjumea

student•

Perfecto gracias Omar, entonces al hablar de Kernel Lineal estamos hablando en términos de Algebra Lineal y es lo mismo que Producto Punto.
Pero al hablar simplemente de Kernel (Ejemplo Kaggle o Jupyter) a que se refiere?

Dharman Ballesteros Bedoya

student•

Muy buena explicación con el lego.

Carlos Nexans

student•

No me queda 100% claro el dibujo con legos, entiendo los símbolos escritos pero no lo relaciono con el resto del texto. ¿Alguien tiene alguna referencia acerca de el modelo matematico de una red neuronal?

Pablo Lozano M

student•

Tengo entendido que dependiendo de la salida deseada o de los resultados que esperamos podemos implementar diversas formas de aprendizaje, o en su caso podemos utilizar diferentes tipos de entrenamientos, al día de hoy me interesa seguir aprendiendo “Backpropagation”.
Agradezco enormemente la forma tan amena que utilizan para explicar este tema tan interesante.

Valentina Carranza Collazos

student•

Hola, alguien puede aclararme esta parte :
Si toma mucho tiempo para entrenar, es quizás una buena idea incrementar el tamaño del ** mini-batch o array de observaciones que alimentan a la red neuronal** , para reducir la varianza en las observaciones y así ayudar al algoritmo a converger.

a que se refiere exactamente? el numero de neuronas de la capa de entrada ?

Pablo Fernández

student•

Las redes neuronales, son como bebes que no saben nada. Poco a poco, van atribuyendo etiquetas (palabras) a los objetos que ven gracias a que su madre se las va mostrando y diciendo. Tu a la red neuronal le tienes que dar infomacion asociada con etiquetas. Esa informacion se la das atrabes de la capa de entrada. Si tu informacion es una imagen, es imagen tendrias que desmontarla en pixeles, de tal manera que cada pixel serina una neurona perteneciente a la capa de entrada.

Ya respondiendo a tu pregunta, cuando dice que aumentes el array de observaciones, realmente a lo que se refiere a que aumentes el numero de neuronas de entrada. En cado anterior de una imagen, seria porejemplo aumentar la resolucion de las imagenes. Otro ejemplo seria el siguiente: Imagina que quieres predecir el costo de una vivienda en funcion de las habitaciones que tenga, y su localizacion en entorno a la ciudad. A la hora de entrenar tu red, esta se podria demorar mucho al intentar relacionar el numero de baños (1º neurona de entrada) y la localizacion de la vivienda (2º neurona de entrada)con el precio de cada respectiva vivienda que este dentro de tus datos de entrada (etiqueta, ej: una cada de -> [3 habitaciones, a 400 metros del centro urbanistico, 300.000 dolares). Lo que te dice que puedes hacer es aumentar el numero de caracteristicas, es decir, el numero de datos, yo añadiria los metros cuadrados de la vivienda. Saludos

Carlos Nexans

student•

¿Alguna leyenda que indique el significado del lambda y del alpha? Entiendo que N es el tamaño del vector de entrada

Andrés Felipe Aguirre Fajardo

student•

ese alpha hace referencia a la magnitud del gradiente, imagina que el gradiente es un vector que siempre esta apuntando al mínimo local, de la función del error que queremos minimizar, ese alpha estaría incrementando o disminuyendo la magnitud de ese vector. Sin embargo, se debe poner un valor optimo ya que poner uno muy grande podría generar que en el entrenamiento, se aleje del mínimo y el error incremente.

Gonzalo Ferrando

student•

👏 Tremendo aporte!

Darwin Felipe Uzcategui Gonzalez

student•

++Modelo Requerido Basado Impresora Fiscal (Facturación de acuerdo a la Normativas Calculo de Impuesto al Valor agregado) ++

1 Recolectar Información : Aquí se puede recolectar los datos de las memoria fiscal de la impresoras, Memoria de Auditoria y del sistemas de facturación.

2 Representación de Datos : se representara los datos en una bigData , para recolectar :

1.Cantidades

1.1 Cantidad Unidades
1.1.1 Cantidad: Numero documento fiscales impresos (REPORTE Z o de Cierre, Factura ,Nota de Débito y Nota de Crédito )
1.1.2 Cantidad documentos no fiscales ( REPORTES X o Cierre de cajero,Reimpresión de documentos fiscales, corte de cuenta y cierre de turnos.
1.1.3 Cantidad Ítem o lineas Impresa por la impresora
fiscal.
1.1.4 Cantidad de Rollo o consumibles utilizados.

1.2 Datos de Cantidad Dinero
1.2.1 Cantidad Dinero generado por Cierre de reportes
de cierre de Día, tomado por REPORTE Z Y validado por sistema de facturación Fiscal

1.3 Cantidad en Otras Unidades de medidas ( culombio-> Miliculombio. 1 mC = 10-3 C
Microculombio. 1 µC = 10-6 C
Nanoculombio. 1 nC = 10-9 C
Picoculombio. 1 pC = 10-12 C )
1.3.1 Cantidad de consumo eléctrico de la impresora.

**2. Datos visuales **
2.1 Imágenes de IMPRESIONES REALIZADAS.
2.2 Impresión de Test de Cabezal y papel.
2.2 Foto de la Maquina corta papel.
2.3 Foto de Impresora Partes exterior.
2.4 Foto de Impresora parte Interior.

3 Creación de algoritmo necesario para determinar:
Cambio de pieza electrónica del equipo como por ejemplo cabezal de impresión, corta papel etc., Determinar cambio de memoria fiscal,determinar agotamiento de memoria auditoria,determinar cambio firnware de impresora,determinación de mantenimiento preventivo, cambio en las ventas y predicción de mejora en inventario.

Evaluación del modelo para la predicción de los datos adecuados y entrenamientos de resultados.

Nota: Con este procesos se determinara el crecimientos de la empresa que tiene el Aplicación, para la empresa de la empresa prestadora de servicio o distribuidora de equipos fiscal el mantenimiento de la impresora y del sistemas,predicción de resultados de compra de papel o cambio de pieza y para la empresa fabricante de equipo fisca el mejor uso y la escalabilidad de dicha impresoras fiscales para el mercado Global.

Un LEGO a la vez: Explicando las matemáticas de cómo aprenden las Redes Neuronales

Retropropagación: Visión general

Cómo funciona el aprendizaje supervisado en una Red Neuronal

Un LEGO a la vez: Explicando las matemáticas de cómo aprenden las Redes Neuronales

Evaluación de errores

Función de costo, supuestos y probabilidad

Un Ejemplo Concreto: Aprendiendo la Función XOR

Optimización matemática

Cuál es el algoritmo de retropropagación

Actualizar los pesos de la red neuronal utilizando gradientes

Propagación hacia atrás

Demo: aprendiendo a separar clases

Implementación y ejemplos de redes neuronales funcionando