Entrenamiento del modelo de clasificación múltiple

Clase 24 de 29 • Curso de Fundamentos de Redes Neuronales con Python y Keras

Resumen

¿Cómo entrenamos un modelo de clasificación múltiple?

Entrenar un modelo de clasificación múltiple es un paso fundamental en el análisis de datos y aprendizaje automático. Este proceso permite categorizar noticias en diferentes temas, lo que es crucial para tareas de análisis en periodismo y en data science. A continuación, te guiaré por los pasos esenciales para entrenar y evaluar dicho modelo.

¿Cómo se configura el entrenamiento y evaluación del modelo?

Preparación de los datos y configuración inicial:
- Inicialmente, necesitamos un conjunto de datos que contenga las noticias y sus respectivas clasificaciones en 46 posibles temas.
- Además, se divide el conjunto en subconjuntos de entrenamiento, validación y prueba.
Entrenamiento del modelo:
- Utilizamos el método model.fit() para entrenar el modelo, pasando como parámetros partial_x_train y partial_y_train.
- Se recomienda comenzar con 30 épocas o iteraciones y usar lotes de datos de tamaño 512.
- Valide el modelo usando un conjunto de datos como x_val y y_val.
Visualización y comprensión del proceso de entrenamiento:
- Guarde el historial de entrenamiento (history) para visualizar las métricas de pérdida y accuracy tanto de entrenamiento como de validación.
- Si notas diferencias significativas entre estas métricas, es posible que el modelo esté sobreajustando (overfitting) a los datos de entrenamiento.

¿Cómo ajustamos nuestro modelo para un mejor rendimiento?

Detección de 'overfitting':
- Observe si la pérdida de entrenamiento disminuye casi a cero mientras que la de validación se mantiene alta.
- El accuracy en entrenamiento puede llegar casi al 100% mientras la validación se estanca en niveles inferiores.
Optimización de las épocas de entrenamiento:
- Prueba reducir el número de épocas si observas que el accuracy en validación se estabiliza o mejora antes de llegar a la última época.
- Al reducir de 30 a 9 épocas, podemos optimizar el rendimiento del modelo y el uso de recursos computacionales. Evalúa el modelo usando evaluate sobre datos de prueba x_test y y_test.

¿Cómo hacemos predicciones y qué significan?

Predicciones concretas:
- Ejecuta model.predict() sobre el conjunto x_test para obtener las predicciones.
- Cada predicción estará asociada a una de las 46 posibles categorías mediante la función np.argmax(), seleccionando el índice con mayor probabilidad.
Interpretación de las probabilidades:
- Las probabilidades de las predicciones suman 1, reflejando la certeza del modelo en sus clasificaciones.

¿Cómo podemos mejorar el modelo?

Implementación de técnicas de regularización:
- Considera usar técnicas como el "dropout" para reducir el overfitting.
- Ajusta las capas del modelo, prueba modelos más pequeños o modifica la estructura para mejorar el generalizado.
Monitoreo de gráficos y re-ejecución si es necesario:
- A veces, los gráficos pueden fallar en plataformas como Google Colab. En caso de errores, simplemente vuelve a ejecutar las variables del modelo.

Aplica estas estrategias para optimizar el modelo y comparte tus resultados para enriquecimiento mutuo. ¡Continúa explorando y mejorando tus habilidades en machine learning!

Alfonso Morán

student•

Esta es mi arquitectura y la gráfica:

model = models.Sequential()
model.add(layers.Dense(65, activation='relu', input_shape=(10000,)))
model.add(layers.Dropout(0.75))
model.add(layers.Dense(65, activation='relu'))
model.add(layers.Dropout(0.25))
model.add(layers.Dense(46, activation='softmax'))

model.compile(optimizer='rmsprop',
              loss='categorical_crossentropy',
              metrics=['acc']   
             )

x_val2 = x_train[:1000]
partial_x_train2 = x_train[1000:]

y_val2 = y_train[:1000]
partial_y_train2 =  y_train[1000:]

history2 = model.fit(partial_x_train2,
                   partial_y_train2,
                   epochs=25,
                   batch_size=512,
                   validation_data=(x_val2,y_val2))

loss: 1.1468 - acc: 0.7689

Eber Laurente Lliuyacc

student•

Cumpliendo el reto

Resultados

Se logra solucionar el problema de overfiting. Los valores del val_loss se bajan en promedio a 0.03 y el val_accuracy obtenido es de 0.82.
Se probado en aumentar la cantidad de capas para mejorar el accuracy, pero el efecto es inverso. Es más, se tienen los mismos resultados del punto anterior con solo una caps .

Regularización L2

# 1 definición del modelo
regularizedL2_model = models.Sequential()
regularizedL2_model.add(layers.Dense(64, activation='relu', input_shape=(10000,),
                                   kernel_regularizer=regularizers.l2(0.00002)))
regularizedL2_model.add(layers.Dense(64, activation='relu',
                                   kernel_regularizer=regularizers.l2(0.00002)))
regularizedL2_model.add(layers.Dense(46, activation='softmax'))


# 2 Compilación del modelo
regularizedL2_model.compile(optimizer='rmsprop',
              loss='binary_crossentropy',
              metrics=['acc'])

# 3 Entrenamiento del modelo
history_regularizedL2_model = regularizedL2_model.fit(partial_x_train,
                                                  partial_y_train,
                                                  epochs=20,
                                                  batch_size=512,
                                                  validation_data=(x_val, y_val))
# 4 Validación
epoch = range(1,len(history_basic_model.history['val_loss'])+1)

plt.plot(epoch,history_regularizedL2_model.history['val_loss'], 'o',label='training')
plt.plot(epoch,history_regularizedL2_model.history['loss'], '--',label='validation')
plt.legend()
plt.title('Loss values - regularized L2 model')
plt.show()
print('='*100)

plt.plot(epoch,history_regularizedL2_model.history['val_loss'], 'o',label='Regularized Model')
plt.plot(epoch,history_basic_model.history['val_loss'], '--',label='Basic Model')
plt.legend()
plt.title('Loss values')
plt.show()
print('='*100)

plt.plot(epoch,history_regularizedL2_model.history['val_acc'], 'o',label='Regularized Model')
plt.plot(epoch,history_basic_model.history['val_acc'], '--',label='Basic Model')
plt.legend()
plt.title('Accuracy values')
plt.show()

Regularización L1

# 1 definición del modelo
regularizedL1_model = models.Sequential()
regularizedL1_model.add(layers.Dense(64, activation='relu', input_shape=(10000,),
                                   kernel_regularizer=regularizers.l1(0.000002)))
regularizedL1_model.add(layers.Dense(64, activation='relu',
                                   kernel_regularizer=regularizers.l1(0.000002)))
regularizedL1_model.add(layers.Dense(46, activation='softmax'))


# 2 Compilación del modelo
regularizedL1_model.compile(optimizer='rmsprop',
              loss='binary_crossentropy',
              metrics=['acc'])

# 3 Entrenamiento del modelo
history_regularizedL1_model = regularizedL1_model.fit(partial_x_train,
                                                  partial_y_train,
                                                  epochs=20,
                                                  batch_size=512,
                                                  validation_data=(x_val, y_val))
# 4 Validación
epoch = range(1,len(history_basic_model.history['val_loss'])+1)

plt.plot(epoch,history_regularizedL1_model.history['val_loss'], 'o',label='training')
plt.plot(epoch,history_regularizedL1_model.history['loss'], '--',label='validation')
plt.legend()
plt.title('Loss values - regularized L1 model')
plt.show()
print('='*100)

plt.plot(epoch,history_regularizedL1_model.history['val_loss'], '+',label='Regularized L1 Model')
plt.plot(epoch,history_regularizedL2_model.history['val_loss'], 'o',label='Regularized L2 Model')
plt.plot(epoch,history_basic_model.history['val_loss'], '--',label='Basic Model')
plt.legend()
plt.title('Loss values')
plt.show()
print('='*100)

plt.plot(epoch,history_regularizedL1_model.history['val_acc'], '+',label='Regularized L1 Model')
plt.plot(epoch,history_regularizedL2_model.history['val_acc'], 'o',label='Regularized L2 Model')
plt.plot(epoch,history_basic_model.history['val_acc'], '--',label='Basic Model')
plt.legend()
plt.title('Accuracy values')
plt.show()

Regularización con Dropout

# 1 definición del modelo
reg_dropout_model = models.Sequential()
reg_dropout_model.add(layers.Dense(64, activation='relu', input_shape=(10000,)))
reg_dropout_model.add(layers.Dropout(0.2))

reg_dropout_model.add(layers.Dense(64, activation='relu'))
reg_dropout_model.add(layers.Dropout(0.2))

reg_dropout_model.add(layers.Dense(64, activation='relu'))
reg_dropout_model.add(layers.Dropout(0.2))

reg_dropout_model.add(layers.Dense(46, activation='softmax'))


# 2 Compilación del modelo
reg_dropout_model.compile(optimizer='rmsprop',
              loss='binary_crossentropy',
              metrics=['acc'])

# 3 Entrenamiento del modelo
history_reg_dropout_model = reg_dropout_model.fit(partial_x_train,
                                                  partial_y_train,
                                                  epochs=20,
                                                  batch_size=512,
                                                  validation_data=(x_val, y_val))
# 4 Validación
epoch = range(1,len(history_basic_model.history['val_loss'])+1)

plt.plot(epoch,history_reg_dropout_model.history['val_loss'], 'o',label='training')
plt.plot(epoch,history_reg_dropout_model.history['loss'], '--',label='validation')
plt.legend()
plt.title('Loss values - Dropout Model')
plt.show()
print('='*100)

plt.plot(epoch,history_reg_dropout_model.history['val_loss'], '*',label='Dropout Model')
plt.plot(epoch,history_regularizedL1_model.history['val_loss'], '+',label='Regularized L1 Model')
plt.plot(epoch,history_regularizedL2_model.history['val_loss'], 'o',label='Regularized L2 Model')
plt.plot(epoch,history_basic_model.history['val_loss'], '--',label='Basic Model')
plt.legend()
plt.title('Loss values')
plt.show()
print('='*100)

plt.plot(epoch,history_reg_dropout_model.history['val_acc'], '*',label='Dropout Model')
plt.plot(epoch,history_regularizedL1_model.history['val_acc'], '+',label='Regularized L1 Model')
plt.plot(epoch,history_regularizedL2_model.history['val_acc'], 'o',label='Regularized L2 Model')
plt.plot(epoch,history_basic_model.history['val_acc'], '--',label='Basic Model')
plt.legend()
plt.title('Accuracy values')
plt.show()

Regularización con L1-L2

# 1 definición del modelo
reg_L1L2_model = models.Sequential()
reg_L1L2_model.add(layers.Dense(64, activation='relu', input_shape=(10000,),
                                   kernel_regularizer=regularizers.l1_l2(l1=0.000001, l2=0.00001)))

# reg_L1L2_model.add(layers.Dense(64, activation='relu',
#                                    kernel_regularizer=regularizers.l1_l2(l1=0.000001, l2=0.00001)))

# reg_L1L2_model.add(layers.Dense(64, activation='relu',
#                                    kernel_regularizer=regularizers.l1_l2(l1=0.000001, l2=0.00001)))

reg_L1L2_model.add(layers.Dense(46, activation='softmax'))


# 2 Compilación del modelo
reg_L1L2_model.compile(optimizer='rmsprop',
              loss='binary_crossentropy',
              metrics=['acc'])

# 3 Entrenamiento del modelo
history_reg_L1L2_model = reg_L1L2_model.fit(partial_x_train,
                                                  partial_y_train,
                                                  epochs=20,
                                                  batch_size=512,
                                                  validation_data=(x_val, y_val))

Neicer Vásquez

student•

La función de coste no es la correcta, dado que estamos resolviendo un problema de clasificación múltiple.

FELIX DAVID CORDOVA GARCIA

student•

Sin utilizar regularizaciones, simplemente jugando con los sets de validación, en lugar de separar los sets al inicio los separo en el entrenamiento con validation_spli y ahi voy jugando con diferentes valores así:

historia1=model1.fit(x_train,y_train,epochs=9,batch_size=512,validation_split=0.3,verbose=0);

con esos datos me sale :

Jennifer Triana

student•

y esta forma de partir los datos es mas efectiva, en que podría afectar?

FELIX DAVID CORDOVA GARCIA

student•

Ahorras tiempo en lugar de estar separando datos del X o y train lo haces al final y puedes modificar tu partición para encontrar la mas efectiva cambiando solo un numero ( el del validation split)

Nicolas Cordoba

student•

Como buenas prácticas en el curso de DS4A del mintic que hice nos dijeron que al usar jupyter notebooks lo mejor era NO re entrenar los modelos sino reiniciar el kernel y volver a correr el código porque se sobre entrena el modelo ya que está en memoria

Jennifer Triana

student•

Hola, tengo un par de preguntas:

al partir la base de dato, las diferentes categorías están revueltas?
porque siempre se pone models.sequential( ), para generar el modelo, hay otras formas de construirlo?
para que usamos el optimizador?

muchas gracias!

Alarcon7a

student•

Hola, si, como conozco estos dataset se que simplemente al partirlos funciona, hay otras librerias como en sktlearn que puede darle la opcion de Stratified para que sean particionados mejor.
Si, keras permite crear modelos de sequence que dejan crear estructura de capa sobre capa, en la cual la capa actual conecta con la capa anterior y la siguente, pero tambien se puede crear por funcion que da mas flexibilidad en este aspecto, pero son raros los casos en los que se usen
El optimizador es la version de desenso de gradiente que quieres usar.

Eduardo Hoppenstedt

teacher•

Lo mejor que logré fue un "Accuracy" de .7947 (el modelo original logra .7867)

Red con 3 capas: 80 Regularizador L2 0.001 Dropout en ambas capas de 0.05 Epochs: 9

, 80 y 46

Miguel Rodríguez

student•

Con 30 epochs, 128 layers, L2=0.001 y Dropout=0.3

Jerson Orlando Perez Arenas

student•

Estas son las graficas de mi modelo:

Loss:

Accuracy:

Y acá el código del modelo:

model = models.Sequential()
model.add(layers.Dense(62, activation='relu', input_shape=(10000,), kernel_regularizer=regularizers.l2(0.01)))
model.add(layers.Dropout(0.5))
model.add(layers.Dense(50, activation='relu', kernel_regularizer=regularizers.l2(0.01)))
model.add(layers.Dropout(0.25))
model.add(layers.Dense(46, activation='softmax'))

model.compile(optimizer='rmsprop',
              loss='categorical_crossentropy',
              metrics=['accuracy'])

Pepe Sosa

student•

Se nota el overfitting en el modelo, mira cómo se aprende los datos y es prácticamente lo mismo que test llegado a un punto, yo checaría ahí optimizar cosas.

Christian Anthony Suca Velando

student•

Resultados del modelo:

loss: 1.3860
accuracy: 0.7605

Parametros del modelo:

epochs: 50
neurons:128
l2: 0.01
dropout: 0.5

Loss History:

Accuracy History:

Yufni Castro

student•

3 capas dropout de .5 y .25 entre capas y regularizador l2 0.001. Con 50 epocas

César Pérez

student•

Outcome 0.7959

Loss

Model

Diego Cesar Lerma Torres

student•

Mi reto resuelto:

Gabriel Díaz Andrade

student•

Hola, este es mi resultado de la práctica, logré eliminar el overfitting, sacrificando un poco el acuracy, que terminó siendo de 0.74. Use la regularización L1, ya que la L2 no me solucionaba el overfitting.

model = models.Sequential()
model.add(layers.Dense(60, activation='relu', input_shape=(10000,),
                       kernel_regularizer=regularizers.l1(0.001)))
model.add(layers.Dense(60, activation='relu', kernel_regularizer=regularizers.l1(0.001)))
model.add(layers.Dense(60, activation='relu', kernel_regularizer=regularizers.l1(0.001)))
model.add(layers.Dropout(0.7))
model.add(layers.Dense(46, activation='softmax'))

model.compile(loss='categorical_crossentropy', optimizer='rmsprop', metrics=['accuracy'])

history = model.fit(x_train, y_train,
                    epochs=80,
                    batch_size=512,
                    validation_split=0.3)
```![](https://static.platzi.com/media/user_upload/upload-00a9493b-d653-4277-b1eb-eb10e406382c.png)

![](https://static.platzi.com/media/user_upload/upload-0b6c992f-ca0b-4c4a-9aeb-1078059bd1d4.png)

Gabriel Díaz Andrade

student•

Nydia Mejía Zavala

student•

Usé Dropout

Con este código

model2 = models.Sequential()
model2.add(layers.Dense(64, activation='relu', input_shape=(10000,)))
model2.add(layers.Dropout(0.20))
model2.add(layers.Dense(64, activation='relu'))
model2.add(layers.Dropout(0.20))
model2.add(layers.Dense(46, activation='softmax'))

Ricardo Ruiz

student•

Mi resultado generado con ayuda de técnicas de optimización de hiperpárametros optuna. Estos resultados los generé con ayuda de IA. Estar optimizando parámetros por tanteo es muy ineficiente y aburrido:

Noe Adrián Acuña Prado

student•

de acuerdo a mis resultados puedo ver que L2 me da mejores resultados y el dropout es el que tiene menore accuracy

Jaison Hernando Velasco Camacho

student•

-> Mi codigo:

model = models.Sequential()
model.add(layers.Dense(64, activation='relu', input_shape=(10000,),kernel_regularizer=regularizers.l1(0.001)))
model.add(layers.Dense(64, activation='relu',kernel_regularizer=regularizers.l1(0.001)))
model.add(layers.Dense(46, activation='softmax'))
```![](https://static.platzi.com/media/user_upload/output-554fc3d7-0688-4e6f-b890-ed6cfdbe1468.jpg)

Jaison Hernando Velasco Camacho

student•

Mi codigo:

model = models.Sequential()
model.add(layers.Dense(64, activation='relu', input_shape=(10000,),kernel_regularizer=regularizers.l1(0.001)))
model.add(layers.Dense(64, activation='relu',kernel_regularizer=regularizers.l1(0.001)))
model.add(layers.Dense(46, activation='softmax'))
```![](https://static.platzi.com/media/user_upload/image-bf12e6ad-995c-44b0-b658-c75aa5c1284e.jpg)

Eugenio Condori

student•

Obtuve buenos resultados para varios modelos

Cristian Sebastian Suarez Catama

student•

Efectivamente se disminuye el overfitting aplicando las 3 técnicas, pero para este problema el factor mas clave después de cacharriarle a todo ajjaja son las epocas