Creando nuestra red neuronal usando numpy y matemáticas

Clase 14 de 29 • Curso de Fundamentos de Redes Neuronales con Python y Keras

Resumen

¿Cómo configurar un entorno para trabajar con NumPy y redes neuronales?

¡Bienvenido! Nos adentramos en el emocionante mundo de las redes neuronales utilizando Python y NumPy. Este camino explorativo nos llevará a implementar funciones básicas como activaciones, pérdidas y entrenamiento con gradient descent. Comencemos con la preparación de nuestro entorno de desarrollo para maximizar la eficiencia.

Configurar Google Colab:
- Renombrar el notebook a "Mi primera red con NumPy".
- Importar las bibliotecas necesarias como NumPy y Matplotlib para manipulación de matrices y visualización.
- Conectar a GPU para velocidad en los cálculos si es necesario: !nvidia-smi.

Importaciones iniciales:

import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_gaussian_quantiles

¿Cómo generamos el conjunto de datos para nuestra red neuronal?

Para entrenar redes neuronales necesitamos datos. Utilizaremos un conjunto de datos desde cero empleando make_gaussian_quantiles de scikit-learn para crear datos gaussianos con dos círculos concéntricos.

Definir muestras y características:
- Usaremos mil ejemplos (n = 1000) con dos características y dos clases.

Crear los datos:

n = 1000
X, y = make_gaussian_quantiles(n_samples=n, n_features=2, n_classes=2, shuffle=True, random_state=None)
y = y[:, np.newaxis]  # Agregar un axis para la compatibilidad con futuro codificación

Visualización de los datos:

Un simple gráfico para ver la distribución de los datos.

plt.scatter(X[:, 0], X[:, 1], c=y[:, 0], s=40, cmap=plt.cm.Spectral)
plt.show()

¿Cómo definir funciones de activación y pérdida esenciales?

Las redes neuronales dependen de funciones que calculan activaciones y pérdidas para adaptarse a la data. Aquí reutilizaremos algunas funciones conocidas con pequeñas modificaciones para el cálculo de derivadas.

Función Sigmoide:

Incluye cálculo de la derivada.

def sigmoid(x, derivada=False):
    if derivada:
        return x * (1 - x)
    return 1 / (1 + np.exp(-x))

Función ReLU:

Una alternativa popular por su simplicidad y efectividad.

def relu(x, derivada=False):
    if derivada:
        return np.where(x > 0, 1, 0)
    return np.maximum(0, x)

Función de pérdida (mse):

Error cuadrático medio como métrica de desempeño.

def mse(y_true, y_pred):
    return np.mean(np.power(y_true - y_pred, 2))

¿Cómo configuramos la estructura y peso de una red neuronal?

Para que una red neuronal funcione, necesitamos definir su arquitectura y los pesos iniciales aleatorios, que influyen notablemente en el entrenamiento.

Inicializar los pesos:
- Crear una función para definir las capas de entrada, ocultas y de salida.

Definición de la estructura:

def inicializar_pesos(layer_dims):
    np.random.seed(1)
    parameters = {}
    L = len(layer_dims)  # Longitud de la lista de dimensiones
    for l in range(1, L):
        parameters['W' + str(l)] = np.random.rand(layer_dims[l], layer_dims[l-1]) * 2 - 1
        parameters['b' + str(l)] = np.zeros((layer_dims[l], 1))
    return parameters

Ejemplo de uso:
- Probar esta configuración inicializando una red con 2 neuronas de entrada, capas ocultas personalizadas, y una sola neurona de salida.
```
layer_dims = [2, 4, 8, 1]
parameters = inicializar_pesos(layer_dims)
```

Con esto, tenemos los bloques iniciales necesarios para preparar una red neuronal básica en NumPy y realizar operaciones de entrenamiento en el siguiente paso. ¡Sigue adelante y descubre más sobre el fascinante mundo del aprendizaje automático!

Uriel Torres

student•

Algo que me ayudo mucho a entender como se definió la estructura de la red neuronal fue esta imagen, por si a alguien más le ayuda a igual que a mi.

Jose Barboza

student•

por lo que entendí la última función genera los pesos y bias aleatorios. cada neurona salta al siguiente enviando un peso para cada neurona que existe entonces si tenemos 4 neuronas y en el siguiente hay 8, las 4 enviaran 1 peso para cada una de las 8 neuronas en total un array de 8 pesos [ 0.0745977 , 0.04288076, -0.62746378, -0.255678 , 0.47424288, -0.69875522, -0.14856328, -0.28820036] asi cada una de las 4 neuronas enviara su arreglo.

Juan Jose Sepulveda Calderon

student•

¡Increíble aporté! 😍, esa imagen muestra perfectamente la estructura de una red neuronal. Es el mapa de exactamente lo que tienes que hacer para implementar una red neuronal desde 0.

JAVIERTH LISNERTH ENRIQUE ARAUCO

student•

Para interpretar el codigo inicial: make_gaussian_quantiles: es una función de la biblioteca Scikit-learn de Python que se utiliza para crear un conjunto de datos sintéticos de dos clases, donde cada clase sigue una distribución gaussiana multivariable.

mean=None: este parámetro se utiliza para especificar las medias de las distribuciones gaussianas de las dos clases. Al dejarlo en None, la función asume una media de cero para ambas clases.

cov=0.1: este parámetro se utiliza para especificar la matriz de covarianza de las distribuciones gaussianas. En este caso, se ha especificado una matriz de covarianza de 0.1 para ambas clases.

n_samples=N: este parámetro se utiliza para especificar el número total de muestras en el conjunto de datos sintéticos. El valor de N se define previamente en el código.

n_features=2: este parámetro se utiliza para especificar el número de características (o dimensiones) de cada muestra. En este caso, se ha especificado un valor de 2 para que cada muestra tenga dos características.

n_classes=2: este parámetro se utiliza para especificar el número de clases en el conjunto de datos. En este caso, se ha especificado un valor de 2 para que el conjunto de datos tenga dos clases.

shuffle=True: este parámetro se utiliza para especificar si las muestras en el conjunto de datos sintéticos deben ser aleatorizadas o no. Al establecerlo en True, la función aleatoriza las muestras.

random_state=None: este parámetro se utiliza para especificar la semilla aleatoria utilizada para generar los datos sintéticos. Al establecerlo en None, la función utiliza una semilla aleatoria diferente cada vez.

X, Y = gaussian_quantiles: esta línea de código asigna las características generadas en X y las etiquetas de clase generadas en Y al conjunto de datos sintéticos. Las características en X tienen forma de matriz y las etiquetas en Y tienen forma de vector.

Roxana María Romero Luna

student•

Super!!

Ramsés Alejandro Camas Nájera

student•

Siguiendo la clase, creo que la estructura de la red neuronal quedaría de la siguiente forma, con 2 capas ocultas.

DIEGO JUNIOR SINCHE ESTACIO

student•

Víctor Trigo

student•

RECICLAJE

Funciones de activación

def sigmoid(x, derivate = False):
    if derivate:
        return np.exp(-x)/(( np.exp(-x) +1)**2)
    else:    
        return 1 / (1 + np.exp(-x))

def relu(x, derivate = False):
    if derivate:
        x[x <= 0] = 0
        x[x > 0 ] = 1
        return x
    else:    
        return np.maximum(0, x)

Funciones de perdida

def mse(y, y_hat, derivate = False):
  if derivate:
    return (y_hat - y)
  else:
    return np.mean((y_hat - y)**2)

Deibyt Stiven Paez Garcia

student•

Esta clase es de las más pesadas que hay hasta el momento en el curso en sí, sin embargo, la explicación es muy superficial comparado con lo que amerita, deja mucho que desear

Juan Eduardo Chavez

student•

FUNCION PARA CREAR ESTRUCTURA DE LA RED

def initialize_parameters_deep(layers_dim):
  parameters = {}
  L = len(layers_dim)
  for l in range(0,L-1):
    parameters['W' + str(l+1)] = (np.random.rand(layers_dim[l],layers_dim[l+1]) * 2) -1
    parameters['b' + str(l+1)] = (np.random.rand(1,layers_dim[l+1]) * 2) -1
  return parameters

Uriel Torres

student•

Buen día, no entendí muy bien como se definió la expresión:

parameters['W'+str(l+1)] = (np.random.rand(layers_dim[l],layers_dim[l+1]) * 2) - 1

si yo quisiera implementar otro dataset o resolver otro sistema, ¿Qué necesitaría yo considerar?

Alarcon7a

student•

la funcion aplica para cualquier dataset siempre y cuando entregues las capas que usaras, si lo notas genera una matriz con valores aleatorios con la funcion np.random.rand, el cual es primer valor es la cantidad de neuronas de una capa y el segundo la de la capa siguiente.

Kevin Liao

student•

Lo que hizo con este código es inicializar los weigths con valores randon. El diccionario parameters almacena todos los datos de la red neuronal, inclusive los pesos, y lo que hace es inicializar los pesos de manera aleatoria, con pesos diferentes para todas las capas.

Mario Alexander Vargas Celis

student•

Crear una red neuronal desde cero usando solo **NumPy** y matemáticas es una excelente manera de entender cómo funcionan los elementos esenciales de una red neuronal, como las funciones de activación, las capas, la retropropagación y el descenso de gradiente. Vamos a construir una red neuronal simple para la tarea de clasificación binaria usando estas herramientas básicas.

### Componentes Clave:

1. **Capas de la red neuronal**:

- Una red neuronal simple tiene una capa de entrada, una o más capas ocultas, y una capa de salida.

2. **Funciones de activación**:

- Utilizamos funciones como **sigmoide** o **ReLU** para introducir no linealidades en la red.

3. **Pérdida (Loss)**:

- Usamos una función de pérdida para medir el error. Aquí usaremos la **entropía cruzada binaria**.

4. **Descenso de Gradiente**:

- Utilizamos el descenso de gradiente para ajustar los pesos minimizando la función de pérdida.

### Pasos para Construir la Red Neuronal

1. **Inicialización de pesos y sesgos**.

2. **Definición de la función de activación**.

3. **Propagación hacia adelante** (Forward Propagation).

4. **Función de pérdida**.

5. **Propagación hacia atrás** (Backpropagation) para actualizar los pesos.

6. **Entrenamiento del modelo** con múltiples iteraciones (epochs).

### Implementación Paso a Paso

#### 1. Inicialización de Pesos y Sesgos

Cada neurona tiene asociados pesos que se inicializan de forma aleatoria y un sesgo (bias).

#### 2. Funciones de Activación

- **Sigmoide**: Comúnmente usada para la clasificación binaria.

\sigma(z) = \frac{1}{1 + e^{-z}}

- **ReLU**: Común en capas ocultas.

\text{ReLU}(z) = \max(0, z)

#### 3. Propagación hacia Adelante

Esto consiste en calcular la salida de cada capa de la red, desde la entrada hasta la salida final.

#### 4. Función de Pérdida

Usamos la **entropía cruzada binaria** para calcular la pérdida. Para un problema de clasificación binaria, la función de pérdida es:

L(y, \hat{y}) = - \left( y \cdot \log(\hat{y}) + (1 - y) \cdot \log(1 - \hat{y}) \right)

#### 5. Propagación hacia Atrás (Backpropagation)

Aquí calculamos el gradiente de la función de pérdida con respecto a los pesos y actualizamos los pesos utilizando el descenso de gradiente.

### Código: Red Neuronal Simple Usando NumPy


import numpy as np



\# 1. Función de activación sigmoide y su derivada

def sigmoid(x):

&#x20;   return 1 / (1 + np.exp(-x))



def sigmoid\_derivative(x):

&#x20;   return x \* (1 - x)



\# 2. Inicialización de datos de entrenamiento (XOR dataset)

X = np.array(\[\[0, 0], \[0, 1], \[1, 0], \[1, 1]])

y = np.array(\[\[0], \[1], \[1], \[0]])  # Salida esperada



\# 3. Inicialización de pesos y sesgos (aleatorios)

np.random.seed(1)

input\_size = 2

hidden\_size = 4

output\_size = 1



\# Pesos aleatorios para las capas

weights\_input\_hidden = np.random.rand(input\_size, hidden\_size)

weights\_hidden\_output = np.random.rand(hidden\_size, output\_size)



\# Sesgos aleatorios para las capas

bias\_hidden = np.random.rand(1, hidden\_size)

bias\_output = np.random.rand(1, output\_size)



\# 4. Propagación hacia adelante y hacia atrás

learning\_rate = 0.5

epochs = 10000



for epoch in range(epochs):

&#x20;   \# Propagación hacia adelante (forward pass)

&#x20;   hidden\_input = np.dot(X, weights\_input\_hidden) + bias\_hidden  # Suma ponderada

&#x20;   hidden\_output = sigmoid(hidden\_input)  # Activación sigmoide



&#x20;   output\_input = np.dot(hidden\_output, weights\_hidden\_output) + bias\_output  # Suma ponderada

&#x20;   predicted\_output = sigmoid(output\_input)  # Activación sigmoide



&#x20;   \# Calcular el error

&#x20;   error = y - predicted\_output



&#x20;   \# Propagación hacia atrás (backpropagation)

&#x20;   d\_predicted\_output = error \* sigmoid\_derivative(predicted\_output)

&#x20;   d\_hidden\_output = d\_predicted\_output.dot(weights\_hidden\_output.T) \* sigmoid\_derivative(hidden\_output)



&#x20;   \# Actualización de los pesos y sesgos

&#x20;   weights\_hidden\_output += hidden\_output.T.dot(d\_predicted\_output) \* learning\_rate

&#x20;   bias\_output += np.sum(d\_predicted\_output, axis=0, keepdims=True) \* learning\_rate

&#x20;   weights\_input\_hidden += X.T.dot(d\_hidden\_output) \* learning\_rate

&#x20;   bias\_hidden += np.sum(d\_hidden\_output, axis=0, keepdims=True) \* learning\_rate



&#x20;   \# Mostrar el progreso cada 1000 epochs

&#x20;   if epoch % 1000 == 0:

&#x20;       print(f"Epoch {epoch}, Error: {np.mean(np.abs(error))}")



\# 5. Salida final después de entrenar

print("Salida final:")

print(predicted\_output)

### Explicación:

1. **Datos de entrenamiento**: Usamos el conjunto de datos XOR como ejemplo, donde las entradas son pares de valores binarios y la salida es 1 si uno de los valores es 1, pero no ambos.

2. **Pesos y sesgos**: Los inicializamos de manera aleatoria. Los pesos conectan la capa de entrada con la capa oculta, y la capa oculta con la de salida.

3. **Forward propagation**:

- Calculamos la suma ponderada de las entradas, aplicamos la función de activación y propagamos el valor hacia adelante.

4. **Backpropagation**:

- Calculamos el error y usamos las derivadas de las funciones de activación para propagar el error hacia atrás y ajustar los pesos.

5. **Actualización de pesos**: Usamos el **descenso de gradiente** para actualizar los pesos en cada iteración.

### Resultado:

Después de entrenar la red durante 10,000 epochs, la red aprenderá a clasificar correctamente los datos del problema XOR, y podrás observar que las predicciones se acercan a los valores esperados \([0], [1], [1], [0]\).

### Conclusión:

Este código ilustra cómo puedes implementar una red neuronal desde cero usando **NumPy** y las operaciones matemáticas básicas involucradas en el entrenamiento de una red. Es una forma de entender el funcionamiento interno de los modelos de aprendizaje profundo sin depender de bibliotecas de alto nivel como TensorFlow o PyTorch.

San Juan Bosco

student•

me parece confuso que pasen de keras a tensorflow, si es un curso de fundamentos bien nos podiamos quedar con keras.

JUAN CAMILO ACOSTA PICO

student•

Función ReLU

def relu(x, derivate = False):
    if derivate: return (x > 0)*1
    else: return np.maximum(0, x)

Jhon Freddy Tavera Blandon

student•

Red neuronal con una capa oculta y realiza el entrenamiento para aprender la tarea XOR. La pérdida se grafica a lo largo de las épocas para visualizar cómo disminuye durante el entrenamiento.

Raul Ernesto Almao Alvarado

student•

buenas tardes, alguien me puede ayudar con este error por favor?

IndexError Traceback (most recent call last) <ipython-input-23-6ea91c78492e> in <cell line: 2>() 1 layer_dims =[2,4,8,1] ----> 2 params=initialize_parameters_deep(layer_dims)

<ipython-input-18-6d517977e0b0> in initialize_parameters_deep(layers_dim) 4 for l in range(0,L-1): 5 parameters["W"+str(l+1)]=(np.random.rand(layers_dim[l],layers_dim[l+1])*2)-1 ----> 6 parameters["b"+str(l+1)]=(np.random.rand(1,layers_dim[l+l])*2)-1 7 return parameters

IndexError: list index out of range

Andrés Felipe Figueroa Betancourt

student•

Hola, lo que pasa es que cuando defines la función que inicializa los parametros, en la linea en la que asignas los valores al "bias" :

parameters[“b”+str(l+1)]=(np.random.rand(1,layers_dim[l+l])*2)-1

Escribiste "layers_dim[l+l]", en vez de "layers_dim[l+1]", es decir, esa segunda ele "l", debería ser un uno "1".

Por eso cuando ejecutas la funcion, va a buscar un valor que no existe en la lista. (se excede el rango)

Rubén Cuello

student•

Hola @raulernerstoalmaoalvarado. Es tal como te sugiere el compañero @affigueroab96. El error está en la línea 6. Solo tienes que reemplazar la segunda "l" por un 1.

El código quedaría de la siguiente manera:

parameters["b" + str(l+1)] = (np.random.rand(1, layers_dim[l+1]) * 2) - 1

Estaré atento a cualquier nueva duda que tengas.

Ricardo Félix Díaz López

student•

que significa cuando ddice shuffle=true?

Pablo Antipan Quiñenao

student•

HOla! De acuerdo a la documentación, toma los samples y los baraja.

Saludos!

JAVIERTH LISNERTH ENRIQUE ARAUCO

student•

Eugenio Alonso San Martín Reyes

student•

Mi consulta es que el parametro de entrada es "layers_dim", y no "layer_dim"

Brayan Isai Perez Valenzuela

student•

Buen día maestro disculpe necesito crear una red neuronal para analizar la calidad del aire interior me podría sugerir que arquitectura debo usar

JAVIERTH LISNERTH ENRIQUE ARAUCO

student•

Para analizar la calidad del aire interior, podrias utilizar una red neuronal convolucional que es muy eficaz en la identificación de patrones en imágenes y datos similares.

La arquitectura específica que debes utilizar depende de la naturaleza de los datos que estés analizando y del tipo de tarea que estés realizando (clasificación, regresión, etc.). Sin embargo, aquí hay un ejemplo de arquitectura básica que podrías adaptar para tu caso:

Capa de entrada: Esta capa toma los datos crudos de los sensores de calidad del aire.

Capas convolucionales: Estas capas aplican filtros a los datos para detectar patrones en los mismos. Las capas convolucionales se suelen combinar con capas de agrupamiento (pooling) para reducir la dimensionalidad de los datos y hacer que el modelo sea más eficiente.

Capas totalmente conectadas: Estas capas procesan los datos que se han extraído de las capas convolucionales y los utilizan para realizar la tarea deseada, ya sea clasificación o regresión.

Capa de salida: Esta capa produce los resultados finales del modelo.

Nydia Mejía Zavala

student•

La distribución gaussiana, o distribución normal, se utiliza en el contexto de redes neuronales y aprendizaje automático porque muchas características de los datos reales tienden a seguir esta distribución. Facilita el modelado y la generalización, ya que permite suponer que los errores en las predicciones son aleatorios y se distribuyen normalmente. Esto es crucial para técnicas como el descenso del gradiente y la inicialización de pesos, donde se busca una distribución equilibrada para mejorar el rendimiento del modelo

Gonzalo Ceron Denetro

student•

Antes de ver la clase, intente realizar la red neuronal por mi cuenta. Yendo de menos a más, es decir, comencé solo con realizar la suma ponderada, luego la función de activación, luego tener mas neuronas en una capa y luego tener multi-capas.

La forma en que cree la cantidad de pesos, lo hice diferente al profesor. La lógica que utilice es que los pesos dependen de la cantidad de neuronas que tenemos en esa capa, y las entradas. Y considerar la salida de una neurona se vuelve la entrada de la siguiente capa.

Al utilizar matrices se vuelve más fácil las operaciones.

Creo que si quedo, pero chéquenlo, chance me pase por alto algo.

import numpy as np

x = np.around(np.random.uniform(size=2), decimals=2)


#SUM OF WEIGHTS
def weighted_sum(x, weights, biases):
    z =  np.sum(x.dot(weights.T)) + biases
    return z

#ACTIVATION FUNCTION
def activation_function(weights_sum, activation_type):
    if activation_type == 'sigmoid':
        return 1 / (1 + np.exp(-weights_sum))
    elif activation_type == 'tanh':
        return (np.exp(weights_sum) -  np.exp(-weights_sum)) / (np.exp(weights_sum) +  np.exp(-weights_sum))
    elif activation_type == 'relu':
        if weights_sum > 0:
            return weights_sum
        else:
            return 0

#This function represents the operation that a neuron performs    
def neuron(inputs, weights, biases):
    z = weighted_sum(inputs, weights, biases)
    return activation_function(z, 'sigmoid')


#This function creates the parameters that the layer will need, the parameters depends on the number of neurons and the inputs we have
def layer_ouput(n_neurons, inputs):
    weights = np.random.rand(n_neurons, inputs.shape[0])
    biases = np.random.rand(n_neurons)
    output = neuron(inputs, weights, biases)
    return [weights, biases, output]
    
def network(n_layers, inputs, n_neurons):
    my_network = {}
    
    for i in range(n_layers):
        layer = {}
        layer_name = f'layer-{i}'
        layer['name'] = layer_name
        
        if i == 0:
            l_ouput = layer_ouput(n_neurons[i], inputs)
        else:
            l_ouput = layer_ouput(n_neurons[i], result) #The output of the past layer is the input for the next layer
        
        layer['weights'] = l_ouput[0]
        layer['biases'] = l_ouput[1]
        result = l_ouput[2]
        layer[f'output-a{i}'] = result
        my_network[layer_name] = layer
        
    return my_network       
            
        
n_network = network(n_layers=3, inputs=x, n_neurons=[3, 3, 2])
print(n_network['layer-2'])

    
```import <u>numpy</u> as <u>np</u>
x = <u>np</u>.around(<u>np</u>.<u>random</u>.uniform(*size*=2), *decimals*=2)

\#SUM OF WEIGHTS*def* weighted\_sum(*x*, *weights*, *biases*):    z =  <u>np</u>.sum(*x*.dot(*weights*.T)) + *biases*    return z
\#ACTIVATION FUNCTION*def* activation\_function(*weights\_sum*, *activation\_type*):    if *activation\_type* == 'sigmoid':        return 1 / (1 + <u>np</u>.exp(-*weights\_sum*))    elif *activation\_type* == 'tanh':        return (<u>np</u>.exp(*weights\_sum*) -  <u>np</u>.exp(-*weights\_sum*)) / (<u>np</u>.exp(*weights\_sum*) +  <u>np</u>.exp(-*weights\_sum*))    elif *activation\_type* == 'relu':        if *weights\_sum* > 0:            return *weights\_sum*        else:            return 0
\#This function represents the operation that a neuron performs    *def* neuron(*inputs*, *weights*, *biases*):    z = weighted\_sum(*inputs*, *weights*, *biases*)    return activation\_function(z, 'sigmoid')

\#This function creates the parameters that the layer will need, the parameters depends on the number of neurons and the inputs we have*def* layer\_ouput(*n\_neurons*, *inputs*):    weights = <u>np</u>.<u>random</u>.rand(*n\_neurons*, *inputs*.shape\[0])    biases = <u>np</u>.<u>random</u>.rand(*n\_neurons*)    output = neuron(*inputs*, weights, biases)    return \[weights, biases, output]    *def* network(*n\_layers*, *inputs*, *n\_neurons*):    my\_network = {}        for i in <u>range</u>(*n\_layers*):        layer = {}        layer\_name = f'layer-{i}'        layer\['name'] = layer\_name                if i == 0:            l\_ouput = layer\_ouput(*n\_neurons*\[i], *inputs*)        else:            l\_ouput = layer\_ouput(*n\_neurons*\[i], result) #The output of the past layer is the input for the next layer                layer\['weights'] = l\_ouput\[0]        layer\['biases'] = l\_ouput\[1]        result = l\_ouput\[2]        layer\[f'output-a{i}'] = result        my\_network\[layer\_name] = layer            return my\_network                           n\_network = network(*n\_layers*=3, *inputs*=x, *n\_neurons*=\[3, 3, 2])print(n\_network\['layer-2'])
   &#x20;

Andres Montes

student•

np.newaxis es una forma de aumentar la dimensionalidad de un array en NumPy. Al usar np.newaxis, puedes transformar un array de una dimensión a dos dimensiones o más. Por ejemplo, si tienes un array unidimensional de forma (n,) y usas np.newaxis, puedes convertirlo a una forma (n, 1) o (1, n). Esto es útil en operaciones que requieren que los arrays tengan las mismas dimensiones, como en la multiplicación matricial o al aplicar funciones de activación en redes neuronales.

Matias Duport Zuluaga

student•

La explicación de esta clase esta muy superficial y no se entiende bien.

Juan Felipe Zárate

student•

No es lo mismo producto punto a producto de matrices. El producto punto da como resultado un escalar (un solo numerito), el producto entre matrices da una matriz (vector, matriz, tensor).

Para que se puedan sumar dos matrices, estas matrices DEBEN tener las mismas dimensiones, de lo contrario, la suma entre dos matrices de diferente dimensión NO ESTÁ DEFINIDA. ¿cómo se puede sumar [XW] + b? Si son dimensiones distintas?

Hay que explicar qué es lo que hace el código, paso a paso, porque acá se está aprendiendo, y no se viene a repetir un código sin saber qué hace...

Hay muchas falencias conceptuales y no es buena la explicación de este curso.

Juan Felipe Zárate

student•

Para que quede claro lo de la suma: Más adelante se encuentra que la dim de W_1 es (2,4) y la dim de b_1 es(1,4). Por lo tanto, la suma entre matrices no está definida ya que tienen dimensiones distintas. La pregunta sería, ¿qué hace exactamente el algoritmo para hacer estas sumas?