Creando nuestra red neuronal usando numpy y matemáticas

Clase 14 de 29 • Curso de Fundamentos de Redes Neuronales con Python y Keras

Contenido del curso

Fundamentos en la arquitectura de redes neuronales

Redes neuronales con Python

Manejo de redes neuronales con Keras

Cierre

Resumen

Construir una red neuronal sin depender de frameworks de alto nivel es una de las formas más efectivas de comprender cómo funcionan internamente las capas, los pesos y las funciones de activación. Aquí se recorre paso a paso la implementación en Python con NumPy, desde la generación de datos hasta la inicialización de parámetros, dejando todo listo para el entrenamiento.

¿Cómo generar un dataset de clasificación con make_gaussian_quantiles?

Antes de construir la red, se necesita un conjunto de datos sobre el cual trabajar. En lugar de cargar un dataset externo, se genera uno sintético con la función make_gaussian_quantiles de scikit-learn [01:22].

La configuración utilizada es:

n = 1000 ejemplos (samples).
2 features: cada punto vive en un plano bidimensional.
2 clases: el modelo debe distinguir entre dos categorías.
cov = 0.1: controla la dispersión de la distribución gaussiana.
shuffle = True: mezcla los datos aleatoriamente.

python from sklearn.datasets import make_gaussian_quantiles

n = 1000 X, Y = make_gaussian_quantiles(cov=0.1, n_samples=n, n_features=2, n_classes=2, shuffle=True, random_state=None)

Al graficar con plt.scatter, se observa un patrón de círculos concéntricos: una clase se concentra en el centro y la otra en los bordes [03:15]. Este es el problema de clasificación que la red deberá resolver.

Un detalle importante: a Y se le agrega una dimensión extra con np.newaxis para que su forma sea (1000, 1), compatible con la salida de la red [02:50].

¿Qué funciones de activación y de pérdida se necesitan?

Se reutilizan las implementaciones de clases anteriores, cada una con su respectiva derivada, indispensable para el proceso de backpropagation [04:00].

¿Cómo funcionan sigmoide y ReLU con sus derivadas?

La función sigmoide comprime cualquier valor al rango (0, 1). Cuando se activa el parámetro deriv=True, devuelve la derivada calculada con Wolfram Alpha [04:10].

python def sigmoid(x, deriv=False): if deriv: return np.exp(-x) / ((1 + np.exp(-x)) ** 2) return 1 / (1 + np.exp(-x))

La función ReLU devuelve cero si el valor es negativo y deja pasar el valor original si es positivo. Se implementa con np.maximum(0, x). Su derivada es 0 cuando x ≤ 0 y 1 cuando x > 0 [04:35].

python def relu(x, deriv=False): if deriv: return np.where(x <= 0, 0, 1) return np.maximum(0, x)

Como función de pérdida se emplea el mean squared error (error cuadrático medio), que mide la distancia promedio entre las predicciones y los valores reales [05:15].

¿Cómo inicializar los pesos y bias de cada capa?

La función initialize_parameters_deep recibe una lista que describe la topología de la red: cantidad de neuronas en cada capa [05:40].

python layer_dims = [2, 4, 8, 1]

Esto significa:

Capa de entrada: 2 neuronas (coincide con las 2 features).
Primera capa oculta: 4 neuronas.
Segunda capa oculta: 8 neuronas.
Capa de salida: 1 neurona (clasificación binaria).

Dentro de la función se itera sobre cada capa y se generan los pesos (W) con np.random.rand, multiplicados por 2 y restando 1 para obtener valores en el rango [-1, 1] en lugar de [0, 1] [07:20]. El bias (b) sigue la misma lógica pero siempre tiene dimensión 1 en uno de sus ejes [08:05].

python def initialize_parameters_deep(layer_dims): parameters = {} L = len(layer_dims) for l in range(0, L - 1): parameters['W' + str(l + 1)] = np.random.rand(layer_dims[l], layer_dims[l + 1]) * 2 - 1 parameters['b' + str(l + 1)] = np.random.rand(1, layer_dims[l + 1]) * 2 - 1 return parameters

Al inspeccionar los resultados, W1 tiene forma (2, 4), W2 tiene forma (4, 8) y W3 tiene forma (8, 1) [09:10]. Cada matriz conecta la capa anterior con la siguiente mediante un producto punto, y cada capa cuenta con su propio vector de bias.

Con los datos generados, las funciones de activación definidas, la función de pérdida lista y los parámetros inicializados aleatoriamente, todos los componentes están preparados para ejecutar el forward propagation, el cálculo de la pérdida y el ajuste de pesos con gradient descent. ¿Qué arquitectura de capas probarías tú para resolver este problema de clasificación?

Comentarios

Uriel Torres

student•

Algo que me ayudo mucho a entender como se definió la estructura de la red neuronal fue esta imagen, por si a alguien más le ayuda a igual que a mi.

Jose Barboza

student•

por lo que entendí la última función genera los pesos y bias aleatorios. cada neurona salta al siguiente enviando un peso para cada neurona que existe entonces si tenemos 4 neuronas y en el siguiente hay 8, las 4 enviaran 1 peso para cada una de las 8 neuronas en total un array de 8 pesos [ 0.0745977 , 0.04288076, -0.62746378, -0.255678 , 0.47424288, -0.69875522, -0.14856328, -0.28820036] asi cada una de las 4 neuronas enviara su arreglo.

Juan Jose Sepulveda Calderon

student•

¡Increíble aporté! 😍, esa imagen muestra perfectamente la estructura de una red neuronal. Es el mapa de exactamente lo que tienes que hacer para implementar una red neuronal desde 0.

JAVIERTH LISNERTH ENRIQUE ARAUCO

student•

Para interpretar el codigo inicial: make_gaussian_quantiles: es una función de la biblioteca Scikit-learn de Python que se utiliza para crear un conjunto de datos sintéticos de dos clases, donde cada clase sigue una distribución gaussiana multivariable.

mean=None: este parámetro se utiliza para especificar las medias de las distribuciones gaussianas de las dos clases. Al dejarlo en None, la función asume una media de cero para ambas clases.

cov=0.1: este parámetro se utiliza para especificar la matriz de covarianza de las distribuciones gaussianas. En este caso, se ha especificado una matriz de covarianza de 0.1 para ambas clases.

n_samples=N: este parámetro se utiliza para especificar el número total de muestras en el conjunto de datos sintéticos. El valor de N se define previamente en el código.

n_features=2: este parámetro se utiliza para especificar el número de características (o dimensiones) de cada muestra. En este caso, se ha especificado un valor de 2 para que cada muestra tenga dos características.

n_classes=2: este parámetro se utiliza para especificar el número de clases en el conjunto de datos. En este caso, se ha especificado un valor de 2 para que el conjunto de datos tenga dos clases.

shuffle=True: este parámetro se utiliza para especificar si las muestras en el conjunto de datos sintéticos deben ser aleatorizadas o no. Al establecerlo en True, la función aleatoriza las muestras.

random_state=None: este parámetro se utiliza para especificar la semilla aleatoria utilizada para generar los datos sintéticos. Al establecerlo en None, la función utiliza una semilla aleatoria diferente cada vez.

X, Y = gaussian_quantiles: esta línea de código asigna las características generadas en X y las etiquetas de clase generadas en Y al conjunto de datos sintéticos. Las características en X tienen forma de matriz y las etiquetas en Y tienen forma de vector.

Roxana María Romero Luna

student•

Super!!

Ramsés Alejandro Camas Nájera

student•

Siguiendo la clase, creo que la estructura de la red neuronal quedaría de la siguiente forma, con 2 capas ocultas.

DIEGO JUNIOR SINCHE ESTACIO

student•

Víctor Trigo

student•

RECICLAJE

Funciones de activación

def sigmoid(x, derivate = False):
    if derivate:
        return np.exp(-x)/(( np.exp(-x) +1)**2)
    else:    
        return 1 / (1 + np.exp(-x))

def relu(x, derivate = False):
    if derivate:
        x[x <= 0] = 0
        x[x > 0 ] = 1
        return x
    else:    
        return np.maximum(0, x)

Funciones de perdida

def mse(y, y_hat, derivate = False):
  if derivate:
    return (y_hat - y)
  else:
    return np.mean((y_hat - y)**2)

Deibyt Stiven Paez Garcia

student•

Esta clase es de las más pesadas que hay hasta el momento en el curso en sí, sin embargo, la explicación es muy superficial comparado con lo que amerita, deja mucho que desear

Juan Eduardo Chavez

student•

FUNCION PARA CREAR ESTRUCTURA DE LA RED

def initialize_parameters_deep(layers_dim):
  parameters = {}
  L = len(layers_dim)
  for l in range(0,L-1):
    parameters['W' + str(l+1)] = (np.random.rand(layers_dim[l],layers_dim[l+1]) * 2) -1
    parameters['b' + str(l+1)] = (np.random.rand(1,layers_dim[l+1]) * 2) -1
  return parameters

Uriel Torres

student•

Buen día, no entendí muy bien como se definió la expresión:

parameters['W'+str(l+1)] = (np.random.rand(layers_dim[l],layers_dim[l+1]) * 2) - 1

si yo quisiera implementar otro dataset o resolver otro sistema, ¿Qué necesitaría yo considerar?

Alarcon7a

student•

la funcion aplica para cualquier dataset siempre y cuando entregues las capas que usaras, si lo notas genera una matriz con valores aleatorios con la funcion np.random.rand, el cual es primer valor es la cantidad de neuronas de una capa y el segundo la de la capa siguiente.

Kevin Liao

student•

Lo que hizo con este código es inicializar los weigths con valores randon. El diccionario parameters almacena todos los datos de la red neuronal, inclusive los pesos, y lo que hace es inicializar los pesos de manera aleatoria, con pesos diferentes para todas las capas.

Mario Alexander Vargas Celis

student•

Crear una red neuronal desde cero usando solo **NumPy** y matemáticas es una excelente manera de entender cómo funcionan los elementos esenciales de una red neuronal, como las funciones de activación, las capas, la retropropagación y el descenso de gradiente. Vamos a construir una red neuronal simple para la tarea de clasificación binaria usando estas herramientas básicas.

### Componentes Clave:

1. **Capas de la red neuronal**:

- Una red neuronal simple tiene una capa de entrada, una o más capas ocultas, y una capa de salida.

2. **Funciones de activación**:

- Utilizamos funciones como **sigmoide** o **ReLU** para introducir no linealidades en la red.

3. **Pérdida (Loss)**:

- Usamos una función de pérdida para medir el error. Aquí usaremos la **entropía cruzada binaria**.

4. **Descenso de Gradiente**:

- Utilizamos el descenso de gradiente para ajustar los pesos minimizando la función de pérdida.

### Pasos para Construir la Red Neuronal

1. **Inicialización de pesos y sesgos**.

2. **Definición de la función de activación**.

3. **Propagación hacia adelante** (Forward Propagation).

4. **Función de pérdida**.

5. **Propagación hacia atrás** (Backpropagation) para actualizar los pesos.

6. **Entrenamiento del modelo** con múltiples iteraciones (epochs).

### Implementación Paso a Paso

#### 1. Inicialización de Pesos y Sesgos

Cada neurona tiene asociados pesos que se inicializan de forma aleatoria y un sesgo (bias).

#### 2. Funciones de Activación

- **Sigmoide**: Comúnmente usada para la clasificación binaria.

\sigma(z) = \frac{1}{1 + e^{-z}}

- **ReLU**: Común en capas ocultas.

\text{ReLU}(z) = \max(0, z)

#### 3. Propagación hacia Adelante

Esto consiste en calcular la salida de cada capa de la red, desde la entrada hasta la salida final.

#### 4. Función de Pérdida

Usamos la **entropía cruzada binaria** para calcular la pérdida. Para un problema de clasificación binaria, la función de pérdida es:

L(y, \hat{y}) = - \left( y \cdot \log(\hat{y}) + (1 - y) \cdot \log(1 - \hat{y}) \right)

#### 5. Propagación hacia Atrás (Backpropagation)

Aquí calculamos el gradiente de la función de pérdida con respecto a los pesos y actualizamos los pesos utilizando el descenso de gradiente.

### Código: Red Neuronal Simple Usando NumPy


import numpy as np



\# 1. Función de activación sigmoide y su derivada

def sigmoid(x):

&#x20;   return 1 / (1 + np.exp(-x))



def sigmoid\_derivative(x):

&#x20;   return x \* (1 - x)



\# 2. Inicialización de datos de entrenamiento (XOR dataset)

X = np.array(\[\[0, 0], \[0, 1], \[1, 0], \[1, 1]])

y = np.array(\[\[0], \[1], \[1], \[0]])  # Salida esperada



\# 3. Inicialización de pesos y sesgos (aleatorios)

np.random.seed(1)

input\_size = 2

hidden\_size = 4

output\_size = 1



\# Pesos aleatorios para las capas

weights\_input\_hidden = np.random.rand(input\_size, hidden\_size)

weights\_hidden\_output = np.random.rand(hidden\_size, output\_size)



\# Sesgos aleatorios para las capas

bias\_hidden = np.random.rand(1, hidden\_size)

bias\_output = np.random.rand(1, output\_size)



\# 4. Propagación hacia adelante y hacia atrás

learning\_rate = 0.5

epochs = 10000



for epoch in range(epochs):

&#x20;   \# Propagación hacia adelante (forward pass)

&#x20;   hidden\_input = np.dot(X, weights\_input\_hidden) + bias\_hidden  # Suma ponderada

&#x20;   hidden\_output = sigmoid(hidden\_input)  # Activación sigmoide



&#x20;   output\_input = np.dot(hidden\_output, weights\_hidden\_output) + bias\_output  # Suma ponderada

&#x20;   predicted\_output = sigmoid(output\_input)  # Activación sigmoide



&#x20;   \# Calcular el error

&#x20;   error = y - predicted\_output



&#x20;   \# Propagación hacia atrás (backpropagation)

&#x20;   d\_predicted\_output = error \* sigmoid\_derivative(predicted\_output)

&#x20;   d\_hidden\_output = d\_predicted\_output.dot(weights\_hidden\_output.T) \* sigmoid\_derivative(hidden\_output)



&#x20;   \# Actualización de los pesos y sesgos

&#x20;   weights\_hidden\_output += hidden\_output.T.dot(d\_predicted\_output) \* learning\_rate

&#x20;   bias\_output += np.sum(d\_predicted\_output, axis=0, keepdims=True) \* learning\_rate

&#x20;   weights\_input\_hidden += X.T.dot(d\_hidden\_output) \* learning\_rate

&#x20;   bias\_hidden += np.sum(d\_hidden\_output, axis=0, keepdims=True) \* learning\_rate



&#x20;   \# Mostrar el progreso cada 1000 epochs

&#x20;   if epoch % 1000 == 0:

&#x20;       print(f"Epoch {epoch}, Error: {np.mean(np.abs(error))}")



\# 5. Salida final después de entrenar

print("Salida final:")

print(predicted\_output)

### Explicación:

1. **Datos de entrenamiento**: Usamos el conjunto de datos XOR como ejemplo, donde las entradas son pares de valores binarios y la salida es 1 si uno de los valores es 1, pero no ambos.

2. **Pesos y sesgos**: Los inicializamos de manera aleatoria. Los pesos conectan la capa de entrada con la capa oculta, y la capa oculta con la de salida.

3. **Forward propagation**:

- Calculamos la suma ponderada de las entradas, aplicamos la función de activación y propagamos el valor hacia adelante.

4. **Backpropagation**:

- Calculamos el error y usamos las derivadas de las funciones de activación para propagar el error hacia atrás y ajustar los pesos.

5. **Actualización de pesos**: Usamos el **descenso de gradiente** para actualizar los pesos en cada iteración.

### Resultado:

Después de entrenar la red durante 10,000 epochs, la red aprenderá a clasificar correctamente los datos del problema XOR, y podrás observar que las predicciones se acercan a los valores esperados \([0], [1], [1], [0]\).

### Conclusión:

Este código ilustra cómo puedes implementar una red neuronal desde cero usando **NumPy** y las operaciones matemáticas básicas involucradas en el entrenamiento de una red. Es una forma de entender el funcionamiento interno de los modelos de aprendizaje profundo sin depender de bibliotecas de alto nivel como TensorFlow o PyTorch.

San Juan Bosco

student•

me parece confuso que pasen de keras a tensorflow, si es un curso de fundamentos bien nos podiamos quedar con keras.

JUAN CAMILO ACOSTA PICO

student•

Función ReLU

def relu(x, derivate = False):
    if derivate: return (x > 0)*1
    else: return np.maximum(0, x)

Jhon Freddy Tavera Blandon

student•

Red neuronal con una capa oculta y realiza el entrenamiento para aprender la tarea XOR. La pérdida se grafica a lo largo de las épocas para visualizar cómo disminuye durante el entrenamiento.

Raul Ernesto Almao Alvarado

student•

buenas tardes, alguien me puede ayudar con este error por favor?

IndexError Traceback (most recent call last) <ipython-input-23-6ea91c78492e> in <cell line: 2>() 1 layer_dims =[2,4,8,1] ----> 2 params=initialize_parameters_deep(layer_dims)

<ipython-input-18-6d517977e0b0> in initialize_parameters_deep(layers_dim) 4 for l in range(0,L-1): 5 parameters["W"+str(l+1)]=(np.random.rand(layers_dim[l],layers_dim[l+1])*2)-1 ----> 6 parameters["b"+str(l+1)]=(np.random.rand(1,layers_dim[l+l])*2)-1 7 return parameters

IndexError: list index out of range

Andrés Felipe Figueroa Betancourt

student•

Hola, lo que pasa es que cuando defines la función que inicializa los parametros, en la linea en la que asignas los valores al "bias" :

parameters[“b”+str(l+1)]=(np.random.rand(1,layers_dim[l+l])*2)-1

Escribiste "layers_dim[l+l]", en vez de "layers_dim[l+1]", es decir, esa segunda ele "l", debería ser un uno "1".

Por eso cuando ejecutas la funcion, va a buscar un valor que no existe en la lista. (se excede el rango)

Rubén Cuello

student•

Hola @raulernerstoalmaoalvarado. Es tal como te sugiere el compañero @affigueroab96. El error está en la línea 6. Solo tienes que reemplazar la segunda "l" por un 1.

El código quedaría de la siguiente manera:

parameters["b" + str(l+1)] = (np.random.rand(1, layers_dim[l+1]) * 2) - 1

Estaré atento a cualquier nueva duda que tengas.

Ricardo Félix Díaz López

student•

que significa cuando ddice shuffle=true?

Pablo Antipan Quiñenao

student•

HOla! De acuerdo a la documentación, toma los samples y los baraja.

Saludos!

JAVIERTH LISNERTH ENRIQUE ARAUCO

student•

Eugenio Alonso San Martín Reyes

student•

Mi consulta es que el parametro de entrada es "layers_dim", y no "layer_dim"

Brayan Isai Perez Valenzuela

student•

Buen día maestro disculpe necesito crear una red neuronal para analizar la calidad del aire interior me podría sugerir que arquitectura debo usar

JAVIERTH LISNERTH ENRIQUE ARAUCO

student•

Para analizar la calidad del aire interior, podrias utilizar una red neuronal convolucional que es muy eficaz en la identificación de patrones en imágenes y datos similares.

La arquitectura específica que debes utilizar depende de la naturaleza de los datos que estés analizando y del tipo de tarea que estés realizando (clasificación, regresión, etc.). Sin embargo, aquí hay un ejemplo de arquitectura básica que podrías adaptar para tu caso:

Capa de entrada: Esta capa toma los datos crudos de los sensores de calidad del aire.

Capas convolucionales: Estas capas aplican filtros a los datos para detectar patrones en los mismos. Las capas convolucionales se suelen combinar con capas de agrupamiento (pooling) para reducir la dimensionalidad de los datos y hacer que el modelo sea más eficiente.

Capas totalmente conectadas: Estas capas procesan los datos que se han extraído de las capas convolucionales y los utilizan para realizar la tarea deseada, ya sea clasificación o regresión.

Capa de salida: Esta capa produce los resultados finales del modelo.

Nydia Mejía Zavala

student•

La distribución gaussiana, o distribución normal, se utiliza en el contexto de redes neuronales y aprendizaje automático porque muchas características de los datos reales tienden a seguir esta distribución. Facilita el modelado y la generalización, ya que permite suponer que los errores en las predicciones son aleatorios y se distribuyen normalmente. Esto es crucial para técnicas como el descenso del gradiente y la inicialización de pesos, donde se busca una distribución equilibrada para mejorar el rendimiento del modelo

Gonzalo Ceron Denetro

student•

Antes de ver la clase, intente realizar la red neuronal por mi cuenta. Yendo de menos a más, es decir, comencé solo con realizar la suma ponderada, luego la función de activación, luego tener mas neuronas en una capa y luego tener multi-capas.

La forma en que cree la cantidad de pesos, lo hice diferente al profesor. La lógica que utilice es que los pesos dependen de la cantidad de neuronas que tenemos en esa capa, y las entradas. Y considerar la salida de una neurona se vuelve la entrada de la siguiente capa.

Al utilizar matrices se vuelve más fácil las operaciones.

Creo que si quedo, pero chéquenlo, chance me pase por alto algo.

import numpy as np

x = np.around(np.random.uniform(size=2), decimals=2)


#SUM OF WEIGHTS
def weighted_sum(x, weights, biases):
    z =  np.sum(x.dot(weights.T)) + biases
    return z

#ACTIVATION FUNCTION
def activation_function(weights_sum, activation_type):
    if activation_type == 'sigmoid':
        return 1 / (1 + np.exp(-weights_sum))
    elif activation_type == 'tanh':
        return (np.exp(weights_sum) -  np.exp(-weights_sum)) / (np.exp(weights_sum) +  np.exp(-weights_sum))
    elif activation_type == 'relu':
        if weights_sum > 0:
            return weights_sum
        else:
            return 0

#This function represents the operation that a neuron performs    
def neuron(inputs, weights, biases):
    z = weighted_sum(inputs, weights, biases)
    return activation_function(z, 'sigmoid')


#This function creates the parameters that the layer will need, the parameters depends on the number of neurons and the inputs we have
def layer_ouput(n_neurons, inputs):
    weights = np.random.rand(n_neurons, inputs.shape[0])
    biases = np.random.rand(n_neurons)
    output = neuron(inputs, weights, biases)
    return [weights, biases, output]
    
def network(n_layers, inputs, n_neurons):
    my_network = {}
    
    for i in range(n_layers):
        layer = {}
        layer_name = f'layer-{i}'
        layer['name'] = layer_name
        
        if i == 0:
            l_ouput = layer_ouput(n_neurons[i], inputs)
        else:
            l_ouput = layer_ouput(n_neurons[i], result) #The output of the past layer is the input for the next layer
        
        layer['weights'] = l_ouput[0]
        layer['biases'] = l_ouput[1]
        result = l_ouput[2]
        layer[f'output-a{i}'] = result
        my_network[layer_name] = layer
        
    return my_network       
            
        
n_network = network(n_layers=3, inputs=x, n_neurons=[3, 3, 2])
print(n_network['layer-2'])

    
```import <u>numpy</u> as <u>np</u>
x = <u>np</u>.around(<u>np</u>.<u>random</u>.uniform(*size*=2), *decimals*=2)

\#SUM OF WEIGHTS*def* weighted\_sum(*x*, *weights*, *biases*):    z =  <u>np</u>.sum(*x*.dot(*weights*.T)) + *biases*    return z
\#ACTIVATION FUNCTION*def* activation\_function(*weights\_sum*, *activation\_type*):    if *activation\_type* == 'sigmoid':        return 1 / (1 + <u>np</u>.exp(-*weights\_sum*))    elif *activation\_type* == 'tanh':        return (<u>np</u>.exp(*weights\_sum*) -  <u>np</u>.exp(-*weights\_sum*)) / (<u>np</u>.exp(*weights\_sum*) +  <u>np</u>.exp(-*weights\_sum*))    elif *activation\_type* == 'relu':        if *weights\_sum* > 0:            return *weights\_sum*        else:            return 0
\#This function represents the operation that a neuron performs    *def* neuron(*inputs*, *weights*, *biases*):    z = weighted\_sum(*inputs*, *weights*, *biases*)    return activation\_function(z, 'sigmoid')

\#This function creates the parameters that the layer will need, the parameters depends on the number of neurons and the inputs we have*def* layer\_ouput(*n\_neurons*, *inputs*):    weights = <u>np</u>.<u>random</u>.rand(*n\_neurons*, *inputs*.shape\[0])    biases = <u>np</u>.<u>random</u>.rand(*n\_neurons*)    output = neuron(*inputs*, weights, biases)    return \[weights, biases, output]    *def* network(*n\_layers*, *inputs*, *n\_neurons*):    my\_network = {}        for i in <u>range</u>(*n\_layers*):        layer = {}        layer\_name = f'layer-{i}'        layer\['name'] = layer\_name                if i == 0:            l\_ouput = layer\_ouput(*n\_neurons*\[i], *inputs*)        else:            l\_ouput = layer\_ouput(*n\_neurons*\[i], result) #The output of the past layer is the input for the next layer                layer\['weights'] = l\_ouput\[0]        layer\['biases'] = l\_ouput\[1]        result = l\_ouput\[2]        layer\[f'output-a{i}'] = result        my\_network\[layer\_name] = layer            return my\_network                           n\_network = network(*n\_layers*=3, *inputs*=x, *n\_neurons*=\[3, 3, 2])print(n\_network\['layer-2'])
   &#x20;

Andres Montes

student•

np.newaxis es una forma de aumentar la dimensionalidad de un array en NumPy. Al usar np.newaxis, puedes transformar un array de una dimensión a dos dimensiones o más. Por ejemplo, si tienes un array unidimensional de forma (n,) y usas np.newaxis, puedes convertirlo a una forma (n, 1) o (1, n). Esto es útil en operaciones que requieren que los arrays tengan las mismas dimensiones, como en la multiplicación matricial o al aplicar funciones de activación en redes neuronales.

Matias Duport Zuluaga

student•

La explicación de esta clase esta muy superficial y no se entiende bien.

Juan Felipe Zárate

student•

No es lo mismo producto punto a producto de matrices. El producto punto da como resultado un escalar (un solo numerito), el producto entre matrices da una matriz (vector, matriz, tensor).

Para que se puedan sumar dos matrices, estas matrices DEBEN tener las mismas dimensiones, de lo contrario, la suma entre dos matrices de diferente dimensión NO ESTÁ DEFINIDA. ¿cómo se puede sumar [XW] + b? Si son dimensiones distintas?

Hay que explicar qué es lo que hace el código, paso a paso, porque acá se está aprendiendo, y no se viene a repetir un código sin saber qué hace...

Hay muchas falencias conceptuales y no es buena la explicación de este curso.

Juan Felipe Zárate

student•

Para que quede claro lo de la suma: Más adelante se encuentra que la dim de W_1 es (2,4) y la dim de b_1 es(1,4). Por lo tanto, la suma entre matrices no está definida ya que tienen dimensiones distintas. La pregunta sería, ¿qué hace exactamente el algoritmo para hacer estas sumas?

def sigmoid(x, derivate = False):
    if derivate:
        return np.exp(-x)/(( np.exp(-x) +1)**2)
    else:    
        return 1 / (1 + np.exp(-x))

def relu(x, derivate = False):
    if derivate:
        x[x <= 0] = 0
        x[x > 0 ] = 1
        return x
    else:    
        return np.maximum(0, x)

def initialize_parameters_deep(layers_dim):
  parameters = {}
  L = len(layers_dim)
  for l in range(0,L-1):
    parameters['W' + str(l+1)] = (np.random.rand(layers_dim[l],layers_dim[l+1]) * 2) -1
    parameters['b' + str(l+1)] = (np.random.rand(1,layers_dim[l+1]) * 2) -1
  return parameters

import numpy as np

\# 1. Función de activación sigmoide y su derivada

def sigmoid(x):

&#x20;   return 1 / (1 + np.exp(-x))

def sigmoid\_derivative(x):

&#x20;   return x \* (1 - x)

\# 2. Inicialización de datos de entrenamiento (XOR dataset)

X = np.array(\[\[0, 0], \[0, 1], \[1, 0], \[1, 1]])

y = np.array(\[\[0], \[1], \[1], \[0]])  # Salida esperada

\# 3. Inicialización de pesos y sesgos (aleatorios)

np.random.seed(1)

input\_size = 2

hidden\_size = 4

output\_size = 1

\# Pesos aleatorios para las capas

weights\_input\_hidden = np.random.rand(input\_size, hidden\_size)

weights\_hidden\_output = np.random.rand(hidden\_size, output\_size)

\# Sesgos aleatorios para las capas

bias\_hidden = np.random.rand(1, hidden\_size)

bias\_output = np.random.rand(1, output\_size)

\# 4. Propagación hacia adelante y hacia atrás

learning\_rate = 0.5

epochs = 10000

for epoch in range(epochs):

&#x20;   \# Propagación hacia adelante (forward pass)

&#x20;   hidden\_input = np.dot(X, weights\_input\_hidden) + bias\_hidden  # Suma ponderada

&#x20;   hidden\_output = sigmoid(hidden\_input)  # Activación sigmoide

&#x20;   output\_input = np.dot(hidden\_output, weights\_hidden\_output) + bias\_output  # Suma ponderada

&#x20;   predicted\_output = sigmoid(output\_input)  # Activación sigmoide

&#x20;   \# Calcular el error

&#x20;   error = y - predicted\_output

&#x20;   \# Propagación hacia atrás (backpropagation)

&#x20;   d\_predicted\_output = error \* sigmoid\_derivative(predicted\_output)

&#x20;   d\_hidden\_output = d\_predicted\_output.dot(weights\_hidden\_output.T) \* sigmoid\_derivative(hidden\_output)

&#x20;   \# Actualización de los pesos y sesgos

&#x20;   weights\_hidden\_output += hidden\_output.T.dot(d\_predicted\_output) \* learning\_rate

&#x20;   bias\_output += np.sum(d\_predicted\_output, axis=0, keepdims=True) \* learning\_rate

&#x20;   weights\_input\_hidden += X.T.dot(d\_hidden\_output) \* learning\_rate

&#x20;   bias\_hidden += np.sum(d\_hidden\_output, axis=0, keepdims=True) \* learning\_rate

&#x20;   \# Mostrar el progreso cada 1000 epochs

&#x20;   if epoch % 1000 == 0:

&#x20;       print(f"Epoch {epoch}, Error: {np.mean(np.abs(error))}")

\# 5. Salida final después de entrenar

print("Salida final:")

print(predicted\_output)

import numpy as np

x = np.around(np.random.uniform(size=2), decimals=2)


#SUM OF WEIGHTS
def weighted_sum(x, weights, biases):
    z =  np.sum(x.dot(weights.T)) + biases
    return z

#ACTIVATION FUNCTION
def activation_function(weights_sum, activation_type):
    if activation_type == 'sigmoid':
        return 1 / (1 + np.exp(-weights_sum))
    elif activation_type == 'tanh':
        return (np.exp(weights_sum) -  np.exp(-weights_sum)) / (np.exp(weights_sum) +  np.exp(-weights_sum))
    elif activation_type == 'relu':
        if weights_sum > 0:
            return weights_sum
        else:
            return 0

#This function represents the operation that a neuron performs    
def neuron(inputs, weights, biases):
    z = weighted_sum(inputs, weights, biases)
    return activation_function(z, 'sigmoid')


#This function creates the parameters that the layer will need, the parameters depends on the number of neurons and the inputs we have
def layer_ouput(n_neurons, inputs):
    weights = np.random.rand(n_neurons, inputs.shape[0])
    biases = np.random.rand(n_neurons)
    output = neuron(inputs, weights, biases)
    return [weights, biases, output]
    
def network(n_layers, inputs, n_neurons):
    my_network = {}
    
    for i in range(n_layers):
        layer = {}
        layer_name = f'layer-{i}'
        layer['name'] = layer_name
        
        if i == 0:
            l_ouput = layer_ouput(n_neurons[i], inputs)
        else:
            l_ouput = layer_ouput(n_neurons[i], result) #The output of the past layer is the input for the next layer
        
        layer['weights'] = l_ouput[0]
        layer['biases'] = l_ouput[1]
        result = l_ouput[2]
        layer[f'output-a{i}'] = result
        my_network[layer_name] = layer
        
    return my_network       
            
        
n_network = network(n_layers=3, inputs=x, n_neurons=[3, 3, 2])
print(n_network['layer-2'])

    
```import <u>numpy</u> as <u>np</u>
x = <u>np</u>.around(<u>np</u>.<u>random</u>.uniform(*size*=2), *decimals*=2)

\#SUM OF WEIGHTS*def* weighted\_sum(*x*, *weights*, *biases*):    z =  <u>np</u>.sum(*x*.dot(*weights*.T)) + *biases*    return z
\#ACTIVATION FUNCTION*def* activation\_function(*weights\_sum*, *activation\_type*):    if *activation\_type* == 'sigmoid':        return 1 / (1 + <u>np</u>.exp(-*weights\_sum*))    elif *activation\_type* == 'tanh':        return (<u>np</u>.exp(*weights\_sum*) -  <u>np</u>.exp(-*weights\_sum*)) / (<u>np</u>.exp(*weights\_sum*) +  <u>np</u>.exp(-*weights\_sum*))    elif *activation\_type* == 'relu':        if *weights\_sum* > 0:            return *weights\_sum*        else:            return 0
\#This function represents the operation that a neuron performs    *def* neuron(*inputs*, *weights*, *biases*):    z = weighted\_sum(*inputs*, *weights*, *biases*)    return activation\_function(z, 'sigmoid')

\#This function creates the parameters that the layer will need, the parameters depends on the number of neurons and the inputs we have*def* layer\_ouput(*n\_neurons*, *inputs*):    weights = <u>np</u>.<u>random</u>.rand(*n\_neurons*, *inputs*.shape\[0])    biases = <u>np</u>.<u>random</u>.rand(*n\_neurons*)    output = neuron(*inputs*, weights, biases)    return \[weights, biases, output]    *def* network(*n\_layers*, *inputs*, *n\_neurons*):    my\_network = {}        for i in <u>range</u>(*n\_layers*):        layer = {}        layer\_name = f'layer-{i}'        layer\['name'] = layer\_name                if i == 0:            l\_ouput = layer\_ouput(*n\_neurons*\[i], *inputs*)        else:            l\_ouput = layer\_ouput(*n\_neurons*\[i], result) #The output of the past layer is the input for the next layer                layer\['weights'] = l\_ouput\[0]        layer\['biases'] = l\_ouput\[1]        result = l\_ouput\[2]        layer\[f'output-a{i}'] = result        my\_network\[layer\_name] = layer            return my\_network                           n\_network = network(*n\_layers*=3, *inputs*=x, *n\_neurons*=\[3, 3, 2])print(n\_network\['layer-2'])
   &#x20;

Creando nuestra red neuronal usando numpy y matemáticas

Fundamentos en la arquitectura de redes neuronales

La importancia de las redes neuronales en la actualidad

¿Que herramientas usaremos para redes neuronales?

¿Qué es deep learning?

Tu primera red neuronal con Keras

Entrenando el modelo de tu primera red neuronal

La neurona: una pequeña y poderosa herramienta

Arquitectura de una red neuronal

Funciones de activación

Funcion de pérdida (loss function)

Descenso del gradiente

Backpropagation

Playground - Tensorflow

Redes neuronales con Python

Dimensiones, tensores y reshape