Entrenamiento forward de la red neuronal

Clase 15 de 29 • Curso de Fundamentos de Redes Neuronales con Python y Keras

Resumen

¿Cómo se avanza en el entrenamiento de redes neuronales en Python y Keras?

Entrar al mundo de las redes neuronales puede parecer un desafío monumental, pero al abordar el proceso paso a paso, este se convierte en un camino accesible y fascinante. La clase centra su atención en las operaciones de producto punto, un aspecto crucial del entrenamiento hacia adelante ("forward pass") en redes neuronales. En el contexto de Python y Keras, estas operaciones se realizan usando NumPy para manipular matrices de manera eficiente.

¿Cómo se inician las operaciones de producto punto?

El producto punto es esencial para calcular cómo los datos de entrada fluyen a través de la red. Esto se hace multiplicando los vectores de entrada por matrices de pesos asociadas a cada capa. Esta operación compacta la información y crea representaciones más ricas que después pasan a la siguiente capa.

En NumPy, esta operación es sencilla:

np.matmul(x, params['W1'])

O, más concisamente, con el operador @:

x @ params['W1']

Aquí, x representa los datos de entrada y params['W1'] simboliza los pesos de la capa actual.

¿Qué función de activación se utiliza y por qué?

La relu (rectified linear unit) es la función de activación elegida en este contexto por su simplicidad y eficiencia. Actúa transformando la salida del producto punto para introducir no-linealidad al modelo, algo esencial en una red profunda.

A1 = relu(Z1)

En el código, relu es aplicada sobre Z1, que es el resultado del producto punto sumado al bias (params['b1']). Esto es crucial, ya que permite desentrañar y aprender patrones más complejos en los datos.

¿Cómo se estructuran las capas subsiguientes?

El procedimiento debe repetirse en varias capas para construir una red neuronal más profunda, usando los resultados de cada capa previa como entrada para la siguiente:

Z2 = A1 @ params['W2'] + params['b2']
A2 = relu(Z2)

Para la última capa, que típicamente realiza una predicción, se utiliza sigmoid para obtener una distribución de probabilidad:

output = sigmoid(Z3)

Esta salida expresa la probabilidad de clase, vital para tareas de clasificación binaria. Elegimos sigmoid porque al operar entre 0 y 1, es ideal para evaluar las clases posibles.

¿Qué sigue después del entrenamiento hacia adelante?

A pesar de haber completado el paso hacia adelante, las predicciones iniciales resultan generalmente muy imprecisas debido a los pesos aleatorios. El siguiente paso es crucial: evaluar la función de pérdida. Este resultado sirve para optimizar y ajustar iterativamente los pesos de la red mediante técnicas como el gradient descent, lo que permite reducir el error de predicción. Este refinamiento continuo es lo que otorga poderosas capacidades a las redes neuronales al aprender de los datos.

En conclusión, este entrenamiento hacia adelante marca el comienzo de un proceso iterativo de mejora que garantiza llegar a predicciones precisas mediante ajustes sucesivos y optimizaciones. ¡Continúa explorando y aprendiendo para dominar la creación de redes neuronales eficientes!

Felipe Palta

student•

Hola a todos, me gustaría mucho aportar estas dos imágenes que realice para dejar un poco más claro la arquitectura de este ejercicio y segundo algunas dudas que quizá pueden surgir:

En la imagen se observa como la matriz de entrada tiene una dimensión de 1000x2 (nxm) donde n es la cantidad de muestras para realizar el entrenamiento y m la cantidad de características por cada muestra.

La primera capa consta de 4 neuronas, por tanto la matriz que representa los pesos sinápticos debe de ser de nxCn donde n sigue siendo la cantidad de características usadas por cada muestra y Cn la cantidad de neuronas usadas en esta capa. La salida como bien menciona el profesor en el video al multiplicar la matriz de características (1000x2) con la matriz de pesos sinápticos (2x4) de la primera capa tendrá una dimensión salida de 1000x4 donde cada fila tendrá 4 columnas las cuales serán la salida individual de cada neurona 1, 2, 3 y 4 para cada muestra.

El mismo proceso se repite para la siguiente capa, la cual se tendrá que multiplicar con una matriz de pesos sinápticos de 4x8 donde 4 son los valores cada uno de los valores que salen de las 4 neuronas que alimentan a las 8 neuronas siguientes. Lo anterior generando una matriz de 1000x8.

Finalmente en la última capa se multiplica por los pesos sinápticos de la capa de salida (única neurona) que deberá de tener una dimensión de 8x1, obteniendo una matriz final de resultado de dimensión 1000x1.

En la primera imagen dibujé todo lo relacionado a la primera capa, lo demás lo deje incompleto por la falta de espacio, pero creo que con una sola capa se entiende las demás dado que es el mismo proceso prácticamente solo que cambia la cantidad de neuronas y en la capa de salida la función de activación.

Un gran saludo.

Elian Camilo Ricardo Duran Blanco

student•

Excelente trabajo!

camilo franco

student•

Super Bien explicado!!, muchas Gracias!!

Cesar Augusto Morales Godoy

student•

Forward Function

Alfonso Morán

student•

Me encanta hasta ahora de lo que va del curso como se empezó de golpe a explicar como hacer una red neuronal con Keras y como ha ido poco a poco explicando cada cosa.

Jose Luis Higuera Caraveo

student•

Otra forma de realizar una operación de producto punto es:

X.dot(params['W1'])

Adrian Alberto Rodriguez

student•

Aclarar que es multiplicación de matrices y no producto punto, la misma función de np lo indica np.matmul() matrix multiplication o matrix product (Multiplicación de matrices). Lo importante del curso no solo es saber programar las redes neuronales sino también conocer los procesos y sus nombres.

Matías Collado

student•

Exacto, no confundir o explicar mal, tenga gran repercusión o no, se debe evitar.

Luis Camilo Jimenez Alvarez

student•

Por favor, cada vez que dices producto punto me desconcentro, es producto matricial, el producto punto es un producto entre vectores, y produce un escalar, son conceptualmente dos cosas muy diferentes.

Luis David Tolentino Barrera

student•

¿Me puedes explicar la diferencia? Es que en la documentación dice que matmul no permite operaciones con escalares pero a la hora de realiizar las operaciones, tiene los mismos resultados que np.dot

Luis David Tolentino Barrera

student•

estos resultados los corroboré con

np.all(X@params['W1'] == np.dot(X, params['W1']))

Sebastian Portilla

student•

Alarcon7a

student•

al parecer tiene una forma que no coincide para el producto punto, mira el shape de ambos

Ricardo Félix Díaz López

student•

a mi también me paso lo mismo, lo solucione verificando la función que inicializa parametros cuando corría esa función b1 era dimension (0,4) no (4,0),eso viene en video pasado

Emmanuel López Maldonado

student•

Holaa, llevo un buen tiempo en este error pero no encuentro la solución! !

params
params['A0'] = X

params['Z1'] = np.matmul(params['A0'],params['W1']) + params['b1']
params['A1'] = relu(params['Z1'])

params['Z2'] = np.matmul(params['A1'],params['W2']) + params['b2']
params['A2'] = relu(params['Z2'])

params['Z3'] = np.matmul(params['A2'],params['W3']) + params['b3']
params['A3'] = sigmoid(params['Z3'])

output = params['A3']

me sale el siguiente error en colab: ValueError Traceback (most recent call last) <ipython-input-141-420ec6ac960f> in <module> 5 params['A1'] = relu(params['Z1']) 6 ----> 7 params['Z2'] = np.matmul(params['A1'],params['W2']) + params['b2'] 8 params['A2'] = relu(params['Z2']) 9

ValueError: matmul: Input operand 0 does not have enough dimensions (has 0, gufunc core with signature (n?,k),(k,m?)->(n?,m?) requires 1)

estuve probando y es como si no tomara los valores de A1

Videl Chavez Benavente

student•

Hola, por lo que leo, para aplicar el producto entre matrices, se debe tener en cuenta que ** la columna de la primera matriz debe ser igual a la fila de tu segunda matriz** . Recuerda, la multiplicación de matrices no es conmutativa.

Videl Chavez Benavente

student•

Si tengo este codigo:

import numpy as np

A = np.array([1, 2, 3])
B = np.array([[1, 2], [3, 4], [5, 6]])

C = np.matmul(A, B)

Se producirá el error ++ValueError: matmul: Input operand 0 does not have enough dimensions.++

Para solucionar este error, asegúrate de que las matrices tengan la dimensión correcta y que estén definidas correctamente antes de realizar la multiplicación de matrices.

Daniel Estevan Madroñero Moreno

student•

def forward(params):
  params['A0']=X
  for l in range(1,len(layers_dim)-1):
    params[f'Z{l}'] = np.matmul(params[f'A{l-1}'],params[f'W{l}']) + params[f'b{l}']
    params[f'A{l}'] = relu(params[f'Z{l}'])
  params[f'Z{len(layers_dim)-1}'] = np.matmul(params[f'A{len(layers_dim)-2}'],params[f'W{len(layers_dim)-1}']) + params[f'b{len(layers_dim)-1}']
  return sigmoid(params[f'Z{len(layers_dim)-1}'])

Anabel Chavez Berumen

student•

jimmy ibañez

student•

El entrenamiento inicia analizando y tomando los parámetros que hayamos en la creacion de la red neuronal

Producto punto

El producto punto es la forma en que podemos manegar nuestros pesos y parametros

np.matmul(X,params['W1'])

entrega

array([[ 0.27393107,  0.41550962,  0.14988944,  0.2624036 ],
       [-0.14713836, -0.38778106, -0.10876271, -0.34705941],
       [ 0.05797307, -0.02410487,  0.01249071, -0.08476814],
       ...,
       [-0.10742151, -0.16628473, -0.05935272, -0.10708787],
       [ 0.23753234,  0.53896604,  0.16063974,  0.45127066],
       [-0.28509678, -0.10407463, -0.09963654,  0.13809973]])

Tambien podemos usar X@params['W1'] para el mismo resultado que con np.matmul

Entrenamiento

params
params['A0'] = X # entrada de los valores

params['Z1']= np.matmul(params['A0'], params['W1']) + params['b1']  #El producto punto de los parametros con el peso  mas el vayas #informacion mas rica y detallada
params['A1'] =relu(params['Z1']) # Funcion de activacion

params['Z2']= np.matmul(params['A1'], params['W2']) + params['b2']  # Recibi el analisis de la anterior neurona
params['A2'] =relu(params['Z2']) # el facil de usar, tiene derivada 

params['Z3']= np.matmul(params['A2'], params['W3']) + params['b3']  #El producto punto de los parametros con el peso  mas el vayas #informacion mas rica y detallada
params['A3'] = sigmoid(params['Z3']) # Funcion de activacion

output = params['A3']

Output

output

entrega

Sebastian Portilla

student•

Buenas noches, necesito de su ayuda cuando ejecuto el penúltimo bloque de los parámetros me sale el siguiente error: ValueError Traceback (most recent call last) <ipython-input-19-8974507d0745> in <module>() 2 params['A0'] = X 3 ----> 4 params['Z1'] = np.matmul(params['A0'],params['W1']) + params['b1'] 5 params['A1'] = relu(params['Z1']) 6

ValueError: operands could not be broadcast together with shapes (1000,4) (0,4)

Ya he revisado mil veces el código y es el mismo del profesor , Gracias

Omar Daniel Centeno

student•

¡Hola!

Muchas veces hay pequeños cambios o typos que no podemos ver y que en algún momento se vuelven muy claros. Para poder ver que está pasando comparte el código que tienes. Puedes copiar y pegar utilizando el botón de </> código. También te puede ayudar leer la documentación sobre Broadcast de Numpy.

¡Saludos!

Juan Camilo Arguelles Delgado

student•

Buenas tardes Me paso lo mismo, el problema radica en que cuando se construye b1 que esta contenido en params (con la función definida), la dimensión de b1 queda (0,4). Debes ajustar la función, indicando que arranque desde 1 en ves de l.

def initialize_parameters_deep(layers_dim): parameters = {} L = len(layers_dim) for l in range (0,L-1): parameters['W'+str(l+1)]=(np.random.rand(layers_dim[l],layers_dim[l+1])*2)-1 parameters['b'+str(l+1)]=(np.random.rand(1,layers_dim[l+1])*2)-1 return parameters

Una vez arreglado procedes a visualizar los resultados en output

Brandom Cárdenas

student•

Hola, ojalá me puedan ayudar con esta pregunta:

params['A0'], de dónde sale 'A' ?

Si sólo habíamos definido W y b.

Stalin Israel Moposita Pullupaxi

student•

¡Buenas! La primera vez que se menciona 'A0' en el código es para agregar esa definición al diccionario params. Lo mismo para cuando aparecen por primera vez: 'Z1', 'A1', 'Z2', 'A2',...

Jhon Freddy Tavera Blandon

student•

(forward propagation), es el proceso en el cual una entrada se pasa a través de la red neuronal capa por capa, y las activaciones de cada capa se calculan hasta llegar a la capa de salida. Esto permite obtener las predicciones de la red para un conjunto de datos de entrada.

Capa de Entrada (X):
[[0.5 0.6 0.1]]

Capa Oculta (a1):
[[0.58443165 0.65469946 0.59938556 0.71423167]]

Capa de Salida (output):
[[0.70380863]]

Jose Barboza

student•

producto punto metido en la funcion de activacion y iteracion

Cesar supo

student•

Para multiplicar matrices:

X @ params["W1"]