Entrenando el modelo de tu primera red neuronal

Clase 5 de 29 • Curso de Fundamentos de Redes Neuronales con Python y Keras

Contenido del curso

Fundamentos en la arquitectura de redes neuronales

Redes neuronales con Python

Manejo de redes neuronales con Keras

Cierre

Resumen

Construir y entrenar una red neuronal capaz de reconocer dígitos escritos a mano puede lograrse en apenas veinte o treinta líneas de código. Lo sorprendente no es solo la brevedad del proceso, sino los resultados: un 97 % de accuracy en el conjunto de prueba. A continuación se explica paso a paso cómo se entrena el modelo y qué significan los indicadores que aparecen durante el proceso.

¿Cómo se entrena una red neuronal con el comando fit?

Una vez que la arquitectura del modelo está definida, los datos están limpios y el modelo está compilado, el siguiente paso es entrenar la red. Para ello se utiliza el método fit, cuya sintaxis resulta familiar si ya has trabajado con frameworks como Scikit-learn [01:00].

python model.fit(X_train, Y_train, epochs=5, batch_size=128)

X_train y Y_train representan el set de entrenamiento: los datos de entrada y sus etiquetas (labels) correspondientes.
El parámetro epochs indica cuántas veces la red recorrerá todo el conjunto de datos. En este caso se configuran cinco épocas, es decir, cinco iteraciones completas sobre los datos.
El parámetro batch_size define el tamaño de los lotes con los que la red procesa la información. Aquí se usan 128 unidades por lote.

Al ejecutar este comando, la red neuronal realiza un gran volumen de cálculos matemáticos buscando una solución al problema de clasificar números del cero al nueve [01:25].

¿Qué ocurre durante cada época de entrenamiento?

Durante el entrenamiento se observan dos métricas clave en cada época:

Accuracy (precisión): indica el porcentaje de predicciones correctas. Con cada iteración, este valor sube progresivamente.
Loss (pérdida): mide qué tan lejos están las predicciones del resultado correcto. Este valor se reduce conforme avanza el entrenamiento.

Este comportamiento es el esperado: la red aprende y mejora en cada pasada por los datos. Sin embargo, lo que sucede internamente funciona como una caja negra — no vemos directamente los ajustes de pesos y sesgos, pero sí comprobamos su efecto en las métricas [01:42].

¿Cómo se evalúa el rendimiento del modelo entrenado?

Para confirmar que la red realmente aprendió y no solo memorizó los datos de entrenamiento, se utiliza el método evaluate sobre un conjunto de datos que la red nunca vio durante el entrenamiento [02:00].

python model.evaluate(X_test, Y_test)

X_test contiene las imágenes de prueba.
Y_test contiene las etiquetas reales correspondientes.

El resultado arroja una accuracy del 97 %, lo que confirma que el modelo generaliza correctamente al enfrentarse a datos nuevos.

¿Por qué este resultado es tan relevante?

Lograr un 97 % de precisión en análisis de imágenes con apenas unas pocas líneas de código demuestra el poder de las redes neuronales modernas. Aun así, quedan preguntas abiertas que son fundamentales para comprender a fondo el proceso [02:30]:

¿Por qué se eligen determinadas funciones de activación como ReLU o Softmax?
¿Qué papel juega la función de pérdida y por qué se selecciona una específica?
¿Cómo funciona el optimizador que ajusta los pesos de la red?
¿Qué implica realmente el reshape de los datos antes del entrenamiento?

Estas piezas —activaciones, loss functions, optimizadores, epochs, batches— son los engranajes que hacen posible el aprendizaje. Saber ejecutar el código es el primer paso; entender el porqué de cada decisión es lo que permite construir modelos más robustos y adaptarlos a problemas reales.

El siguiente paso natural es estudiar el perceptrón, la unidad fundamental de toda red neuronal, para comprender cómo cada neurona procesa la información y contribuye al resultado final. Si lograste entrenar tu primer modelo, ahora es momento de entender qué ocurre por dentro. ¿Qué parte del proceso te generó más curiosidad? Compártelo en los comentarios.

Comentarios

Sebastian Manassero

student•

Me parece muy interesante como este profesor diseño el curso, hacer algo y luego explicartelo, genera curiosidad y ganas de aprender mas, super dinamico e interesante.

Alarcon7a

student•

que bueno que te haya gustado

Pedro Alvarado Garcia

student•

Opino lo mismo. Apenas en la 4ta clase ya programamos una red neuronal. Qué chévere.

Uriel Torres

student•

Si es una victoria agridulce, pero en lo personal no tanto por los parámetros usados, si no por ser caja negra y no poder visualizar el resultado, la red generada o el código que hace la magia jejeje

Como aportación, dejo los datos de mi entrenamiento para comparar, después de seguir los pasos vistos en clase:

loss: 0.0651 - accuracy: 0.9808

Clayton Jhordan Iliquin Zavaleta

student•

Intentaré resumir todo lo visto de manera simple y corta: **Creación de la redcon model.sequential

Neurona: en términos simples es una función lineal que recibe muchos parámetros, en forma ax1+bx2+....+B (x y B son parámetros que la red modifica para entrenar. B es conocido como bias o termino independiente) que lo que nuestra neurona de entrada recibe es el el arreglo de 28*28 que configuramos.
Capas densas: son una serie de neuronas aplicas entre si, en este caso tenemos 2 capas, una con 523 neuronas y otra con 10.
la función de activación: elimina datos no relevantes además de conferir cierto grado de no linealidad que es bueno en general. Parametros para entrenar con model.compile
optimizador o optimizer: modifica los valores X1, X2, ...B, de las redes neuronales para disminuir la función de perdida.
Función de perdida o loss: en pocas palabras mide cuan lejos está el valor estimadopor la red nueronal del valor real, siempre se busca disminuir lo máximo antes de caer en overfitting. 3.metrics: con esta medimos la precisión del modelo, en este caso accuray mide cuantos predicciones acertadas se han dado sobre el total de predicciones, pero hay muchas mas me´tricas.

Alfonso Morán

student•

Entrenando ala red:

model.fit(x_train, y_train, epochs=5, batch_size=128)

Evaluando a la red:

model.evaluate(x_test, y_test)

Resultados personales:

loss: 0.0691 - accuracy: 0.9795

Edgar Andrés Montenegro Martínez

student•

Con optimizador 'adam' y 'adagrad' esto fue lo que me dio:

ADAM
test_loss, test_accuracy = [0.06542710214853287, 0.9787999987602234]

ADAGRAD:
test_loss, test_accuracy = [0.49836644530296326, 0.882099986076355]

Lucas Ezequiel Veliz

student•

Aunque debemos comprender mejor lo que ejecutamos, da una gran satisfacción hacerlo.

Cesar Augusto Morales Godoy

student•

Que genial, esto si da muchas ganas de seguir estudiando cada concepto! 👍🏼

Flavio César Sandoval Muñoz

student•

La clase fue excelente y aun que ya he hecho algunas pruebas con CNN me siento igual como una caja negra que no se que o por que pasan las cosas

Espero con ansias la siguiente clase

Me encanta VS Code Aca les dejo mi aporte

Gerson Mejía

student•

hola me pueden ayudar porque estas 2 ultimas lineas tiene ese error

Gustavo Adolfo Lozano Cotes

student•

Si quieren ver el resultado de una prueba seleccionando un unico numero:

# Selecciona un numero al azar dentro de x_test
index = 1052
plt.figure(figsize=(10,10))
d_image = x_test[index]
plt.imshow(d_image.reshape(28, 28))
# plt.title(y_test[index]) # para verlo como array
plt.title( np.argmax(y_test[index], axis=-1) ) # para ver el numero como tal
plt.axis(False)
plt.show()

y luego si, le pedimos una prediccion al modelo sobre el numero anterior:

prediccion_array = model.predict(x_test[index].reshape(1,28*28))

print('el numero es:',np.argmax(prediccion_array, axis=-1), 'cierto?')

Mucha suerte en sus pruebas, exitos

Anthony Jean Paul Blaz Lazo

student•

Muy buen aporte, me fue de mucha utilidad

Carlos Gonzalez

student•

Hola. ¿alguien me podría ayudar con este error?

Alarcon7a

student•

por algunna razon el x tiene distinta cantidad de registros que y

Joshua Luis Figueroa Gutiérrez

student•

Me sale el mismo, error llevo intentando solucionar.

Juan Sebastián Vargas Castañeda

student•

Accuracy del 97,86% 👍🏻

Giovany samaca

student•

que significa el loss ???

Marcos Bernal Romero

student•

Loss es la medida de error entre las etiquetas predichas por la red y las etiquetas reales, en cada iteración del entrenamiento!

Antonio Vázquez Salas

student•

Todo lo explican más adelante en el curso.

Antonio Demarco Bonino

student•

Tengo un problema con mi red y es este:

model.fit(x_train, y_train, epochs=5, batch_size=128)

Si le paso a alguien más ¿Me ayuda a resolverlo?

Nicolas Cordoba

student•

Tienes un typo, en la métrica en vez de accuracy escribiste accurancy

Mon

student•

me pasó lo mismo, ya lo resolviste?

Carlos Isael Ramírez González

student•

Si les salio algun error como value error en el epoch 1/5 intenten correr todo el codigo de nuevo, a mi me sucedio porque no cargue una celda, al cargarla el error se me soluciono

Rubén Orozco

student•

OK ??, compilo, se entreno y se evaluó, pero … ??? jaja toca la siguiente clase a ver si me cuadran mis neuronas

Santiago Gomez Florez

student•

Les comparto mi resultado del evaluate

loss: 0.1253 - accuracy: 0.9829

Rubén Orozco

student•

Hola, me gustaría hacer lo mismo pero usando la CPU, para poder hacerlo local en mi equipo, es el mismo código, o cambia algo?

Alarcon7a

student•

es lo mismo, tarda mas pero si se puede

Gerson Mejía

student•

porque las 2 ultimas lineas de codigo me arrojo los siguientes errores

1- entrenando el modelo error : ValueError Traceback (most recent call last) <ipython-input-30-34ad1df314d2> in <cell line: 1>() ----> 1 model.fit(x_train, y_train, epochs=5, batch_size=128)

1 frames /usr/local/lib/python3.10/dist-packages/keras/engine/data_adapter.py in _check_data_cardinality(data) 1850 ) 1851 msg += "Make sure all arrays contain the same number of samples." -> 1852 raise ValueError(msg) 1853 1854

ValueError: Data cardinality is ambiguous: x sizes: 60000 y sizes: 10000 Make sure all arrays contain the same number of samples.

2 - Evaluando sobre data de test

---------------------------------------------------------------------------

NameError Traceback (most recent call last) <ipython-input-29-4d42213cd169> in <cell line: 1>() ----> 1 model.evaluate(x_test,y_test)

NameError: name 'y_test' is not defined

gracias

David Esteban Silva Galvis

student•

Me sale el siguiente error al ejecutar el algoritmo de entrenamiento, ya importe las librerias de keras desde tensoflow y desde kera directamente como sugieren en los comentarios pero me sigue saliendo el mismo error.

Agradezco cualquier orientacion.

Alarcon7a

student•

se deberia hacer fit a la instancia de model tipo: model = models.Sequential() model.fit(xxxxxxx)

Luis Medina

student•

Como solucioneo este error? model.fit(x_train,y_train,epochs=5, batch_size=128)

ValueError: in user code:

File "/usr/local/lib/python3.7/dist-packages/keras/engine/training.py", line 1021, in train_function  *
    return step_function(self, iterator)
File "/usr/local/lib/python3.7/dist-packages/keras/engine/training.py", line 1010, in step_function  **
    outputs = model.distribute_strategy.run(run_step, args=(data,))
File "/usr/local/lib/python3.7/dist-packages/keras/engine/training.py", line 1000, in run_step  **
    outputs = model.train_step(data)
File "/usr/local/lib/python3.7/dist-packages/keras/engine/training.py", line 859, in train_step
    y_pred = self(x, training=True)
File "/usr/local/lib/python3.7/dist-packages/keras/utils/traceback_utils.py", line 67, in error_handler
    raise e.with_traceback(filtered_tb) from None
File "/usr/local/lib/python3.7/dist-packages/keras/engine/input_spec.py", line 264, in assert_input_compatibility
    raise ValueError(f'Input {input_index} of layer "{layer_name}" is '

ValueError: Input 0 of layer "sequential" is incompatible with the layer: expected shape=(None, 784), found shape=(None, 28, 28)

Alarcon7a

student•

al parecer no tienen la forma requerida los tensores, tienes el codigo completo?

# Selecciona un numero al azar dentro de x_test
index = 1052
plt.figure(figsize=(10,10))
d_image = x_test[index]
plt.imshow(d_image.reshape(28, 28))
# plt.title(y_test[index]) # para verlo como array
plt.title( np.argmax(y_test[index], axis=-1) ) # para ver el numero como tal
plt.axis(False)
plt.show()

File "/usr/local/lib/python3.7/dist-packages/keras/engine/training.py", line 1021, in train_function  *
    return step_function(self, iterator)
File "/usr/local/lib/python3.7/dist-packages/keras/engine/training.py", line 1010, in step_function  **
    outputs = model.distribute_strategy.run(run_step, args=(data,))
File "/usr/local/lib/python3.7/dist-packages/keras/engine/training.py", line 1000, in run_step  **
    outputs = model.train_step(data)
File "/usr/local/lib/python3.7/dist-packages/keras/engine/training.py", line 859, in train_step
    y_pred = self(x, training=True)
File "/usr/local/lib/python3.7/dist-packages/keras/utils/traceback_utils.py", line 67, in error_handler
    raise e.with_traceback(filtered_tb) from None
File "/usr/local/lib/python3.7/dist-packages/keras/engine/input_spec.py", line 264, in assert_input_compatibility
    raise ValueError(f'Input {input_index} of layer "{layer_name}" is '

ValueError: Input 0 of layer "sequential" is incompatible with the layer: expected shape=(None, 784), found shape=(None, 28, 28)

Entrenando el modelo de tu primera red neuronal

Fundamentos en la arquitectura de redes neuronales

La importancia de las redes neuronales en la actualidad

¿Que herramientas usaremos para redes neuronales?

¿Qué es deep learning?

Tu primera red neuronal con Keras