Entrenamiento del modelo de regresión

Clase 26 de 29 • Curso de Fundamentos de Redes Neuronales con Python y Keras

Contenido del curso

Fundamentos en la arquitectura de redes neuronales

Redes neuronales con Python

Manejo de redes neuronales con Keras

Cierre

Resumen

Implementar K-fold validation en un modelo de regresión con redes neuronales permite entrenar y evaluar de forma robusta cuando se dispone de pocos datos. En esta práctica se construye paso a paso la lógica de partición de datos, la creación iterativa del modelo y el almacenamiento de métricas para análisis posterior.

¿Cómo funciona la partición de datos en K-fold validation?

El principio es sencillo: se divide el conjunto de entrenamiento en K partes iguales (en este caso cuatro). En cada iteración, una de esas partes se usa como set de validación y las restantes como set de entrenamiento [01:00].

Para calcular los índices de cada partición se utiliza el número de ejemplos por fold, que resulta de dividir la cantidad total de datos entre K. En el ejemplo, el dataset de entrenamiento tiene 404 registros divididos en cuatro, lo que da 101 ejemplos por fold [00:37]. La lógica de segmentación se apoya en multiplicar el índice de iteración i por ese valor:

val_data = train_data[i * num_val : (i + 1) * num_val].
val_targets = train_labels[i * num_val : (i + 1) * num_val].

Así, en cada fold el tramo de validación se desplaza y cubre una porción distinta del dataset.

¿Cómo se construye el set de entrenamiento parcial?

El partial train data se genera concatenando todo lo que queda fuera del tramo de validación. Se usa np.concatenate sobre el eje cero (axis 0) para unir los datos anteriores y posteriores al segmento seleccionado [02:35]:

python partial_train_data = np.concatenate( [train_data[:i * num_val], train_data[(i + 1) * num_val:]], axis=0 )

La misma operación se replica para los targets parciales con train_labels.

¿Por qué se crea el modelo dentro de una función?

El modelo se encapsula en la función build_model_regression para poder instanciar un modelo nuevo en cada iteración [04:10]. Esto es fundamental: no se quiere acumular el aprendizaje de un fold en el siguiente, sino obtener cuatro entrenamientos independientes y después promediar los resultados.

La función recibe dos parámetros principales:

Learning rate: en este caso 0.001.
Input shape: una tupla con el número de variables predictoras (trece), expresada como (13,) para que la red reciba un tensor válido y no un entero [05:50].

¿Cómo se entrena y almacena cada iteración?

Dentro del bucle for i in range(k) se ejecuta model.fit con los datos parciales de entrenamiento y validación [04:30]:

python history = model.fit( partial_train_data, partial_train_targets, epochs=num_epochs, batch_size=16, validation_data=(val_data, val_targets), verbose=0 )

El batch size se fija en 16, adecuado para un dataset pequeño de 404 registros.
El parámetro verbose=0 silencia la salida para mantener limpio el log durante las cuatro iteraciones.
El número de épocas se define previamente en la variable num_epochs, que para este ejercicio vale 80.

Cada vez que termina un fold, el resultado del mean absolute error en validación (val_mae) se extrae de history.history y se añade a la lista all_histories [06:10].

¿Qué contiene la lista de historiales?

Al finalizar las cuatro iteraciones, all_histories almacena cuatro listas de 80 valores cada una [07:15]. Cada valor representa el mean absolute error de validación en una época específica para un fold determinado. Esta estructura permite calcular el promedio por época y obtener una curva de error más estable que la de un solo entrenamiento.

¿Qué errores comunes aparecen al implementar K-fold?

Durante la implementación surgieron dos problemas frecuentes que vale la pena destacar:

Pasar un entero como input shape: las redes neuronales esperan tensores, no enteros. La solución es agregar una coma para convertirlo en tupla: (13,) en lugar de 13 [05:50].
Confundir el orden de parámetros en la función del modelo, enviando el learning rate donde debía ir el input shape y viceversa [05:15].

Con los historiales almacenados, el siguiente paso natural es promediar los errores de los cuatro folds y graficarlos para evaluar qué tan cerca están las predicciones del modelo respecto a los valores reales. ¿Ya has probado K-fold validation en tus propios proyectos? Comparte tu experiencia en los comentarios.

Comentarios

Luisa Jaimes

student•

Me gusta de estas clases el hecho de que se equivoque y corrija el error en la misma clase. También te enseña de que manera se pueden entender los errores que se comenten.

Alarcon7a

student•

Siii.. eso hablamos mientras grababamos, que que bueno este error con eso mostramos como corregir

Edgar A. Gonzalez Ambriz

student•

Habla del conocimiento y confianza en sí mismo del profesor

Axel Corona

student•

Hay clases que dejan mucho que desear como esta que siento que solo leen y copian codigo. ):

Estaria super bien un poco mas de explicacion del codigo de manera sencilla, no solo leerlo.

Matías Collado

student•

Compañero, no solo lo estas sintiendo sino que realmente es lo que está sucediendo.

Federico Arias

student•

muy en desacuerdo, creo que se requieren conocimientos previos solidos, quizas debas autoevaluar donde te perdiste y entender que conceptos te faltan aprender

Victor Gomez

student•

para solucionar este error en keras

module 'keras.optimizers' has no attribute 'RMSprop'

importe el modulo de la siguiente manera:

from keras import layers, models
from tensorflow.keras import optimizers

Elian Camilo Ricardo Duran Blanco

student•

Muy buen aporte!!!

JOSE MANRIQUE

student•

gracias por el aporte

FELIX DAVID CORDOVA GARCIA

student•

En lugar de poner input_shape pueden poner input_dim y en ese caso se ahorran el estar poniendo las comas en lugar del numero dado

Alfonso Morán

student•

A ver si entendí.

Se está entrenando a la red 4 veces diferentes con distintos tipos datos de validación. Luego se hará un promedio.

¿Por qué ahora se hace así?

Mario Esser

student•

K-fold cross validation es una buena alternativa si tienes pocos datos de validación, porque solo separar la data en un conjunto de entrenamiento y de validación una vez puede implicar que tu score de validación posea una gran varianza. (Dependiendo de los datos que justo tocó elegir en ese Split). Piensa en un problema multiclase con 40 clases y en el que cuentas con 200 datos. Aunque es figurado, creo que expone el problema.
La idea es acorde a esta imagen:

Kevin Liao

student•

Claro, K fond validation lo que hace es el proceso de entrenamiento k veces, todas con distintos datos de validación.

Enrique Villamizar

student•

Existen algoritmos que hagan el k-fold validation o nos toca definirnos como se muestra en la clase?

Alarcon7a

student•

en lo que he visto de keras, no trae algun modulo.

Salvador Sebastian Márquez Herrera

student•

Imagino que podrías facilmente tomar prestado la función K-Fold de Scikit Learn y crear un ciclo for con el modelo a partir de ella

Marlon Salazar Silva

student•

Hola compañeros, una duda. Por qué en los modelos de clasificación binaria o múltiple no relizamos el proceso de k-fold validation? Gracias!

Ilter Sthefano Ulloa Miranda

student•

En la practica tambien se puede usar el K-Fold validation en modelos de clasificacion binaria y multiple ya que solamente consiste en ir "iterando" los conjuntos de datos de entrenamiento y test. Es decir, no es exclusivo de modelos de regresion como el de esta clase. Creo que no se utilizo en los ejemplos de clasificacion binaria y multiple para introducir distintos conceptos poco a poco a lo largo de este curso.

Nicola Di Candia

student•

Hola a todos. Como puedo hacer para que el modelo me retorne los valores predichos?

Alarcon7a

student•

model.predict() seria la función

Elian Camilo Ricardo Duran Blanco

student•

Profe una pregunta que me ha causado curiosidad, cuando defines el 'batch_size' en cada uno de los modelos que hemos realizado, teoricamente a que te refieres? Y que criterio tienes para escoger el valor?

Alarcon7a

student•

el batch_size hace referencia a la cantidad de ejemplos que se toman por cada iteracion, solo es recomendable usarlo si tenemos muchos ejemplos de entrenamiento, eso hara mas rapido el enrtenamiento y usa mejor los recursos de la maquina, al igual que otros es un parametro el cual tambien se puede customizar, de manera que empiezo a calcularlo de acuerdo a los datos de entrada y lo llevo de 32 a 64 y asi continuamente

Jhon Freddy Tavera Blandon

student•

# Actualizacion de la implementacion 

for i in range(k):
    print('processing fold #', i)
    val_data = train_data[i * num_val_samples: (i + 1) * num_val_samples]
    val_targets = train_targets[i * num_val_samples: (i + 1) * num_val_samples]

    partial_train_data = np.concatenate(
        [train_data[:i * num_val_samples],
         train_data[(i + 1) * num_val_samples:]],
        axis=0)
    
    partial_train_targets = np.concatenate(
        [train_targets[:i * num_val_samples],
         train_targets[(i + 1) * num_val_samples:]],
        axis=0)
    
    model = build_model_regression(0.001, 13)
    history = model.fit(partial_train_data, partial_train_targets,
                        epochs=num_epochs,
                        batch_size=16,
                        validation_data=(val_data, val_targets),
                        verbose=0)
    
    all_history.append(history.history)
    val_mse, val_mae = model.evaluate(val_data, val_targets, verbose=0)
    all_scores.append(val_mae)

Jhon Freddy Tavera Blandon

student•

Entrenar un modelo de regresión implica ajustar los parámetros del modelo para minimizar la diferencia entre las predicciones del modelo y los valores reales del conjunto de datos de entrenamiento. En el contexto de regresión, se busca encontrar la mejor relación matemática entre las características de entrada (variables independientes) y la variable de salida (variable dependiente).

Federico Arias

student•

Encontre esto con GPT y da bien: from sklearn.model_selection import KFold

from sklearn.linear_model import LinearRegression # Ejemplo de modelo

# Supongamos que tienes tus datos X e y

# Definir el número de particiones (folds)

k = 5

# Inicializar el objeto KFold

kf = KFold(n_splits=k)

# Inicializar una lista para almacenar los puntajes de validación

scores = []

# Iterar sobre las particiones generadas por KFold

for train_index, test_index in kf.split(X):

# Dividir los datos en conjunto de entrenamiento y conjunto de prueba

X_train, X_test = X[train_index], X[test_index]

y_train, y_test = y[train_index], y[test_index]

# Inicializar y entrenar el modelo (ejemplo con regresión lineal)

model = LinearRegression()

model.fit(X_train, y_train)

# Evaluar el modelo en el conjunto de prueba

score = model.score(X_test, y_test)

# Agregar el puntaje a la lista

scores.append(score)

# Calcular el puntaje promedio de validación

mean_score = sum(scores) / len(scores)

print("Puntaje promedio de validación:", mean_score)

Kevin Eduardo Villanueva Menichetti

student•

Dejo una pequeña explicación del ciclo for:

for i in range(k): print("Fold:", i)

#Aquí se realiza un slice del train_data< #si k = 0 entonces val_data considera el slice de train_data[0:101] #y val_targets considera el slice de [0:101] val_data = train_data[i * num_val_samples: (i+1) * num_val_samples] val_targets = train_labels[i * num_val_samples: (i+1) * num_val_samples]

#Aquí se añade toda la data de entrenamiento (la que no es usada para validación) desde de una lista, #si k = 0 entonces partial_train_data será desde train_data[:0] concatenado con train_data[101:] partial_train_data = np.concatenate( [train_data[:i * num_val_samples], train_data[(i+1) * num_val_samples:] ], axis = 0 )

Kevin Eduardo Villanueva Menichetti

student•

Dejo una pequeña explicación del ciclo for: for i in range(k): print("Fold:", i) #Aquí se realiza un slice del train_data< #si k = 0 entonces val_data considera el slice de train_data[0:101] #y val_targets considera el slice de [0:101] val_data = train_data[i * num_val_samples: (i+1) * num_val_samples] val_targets = train_labels[i * num_val_samples: (i+1) * num_val_samples]

#Aquí se añade toda la data de entrenamiento (la que no es usada para validación) desde de una lista, #si k = 0 entonces partial_train_data será desde train_data[:0] concatenado con train_data[101:] partial_train_data = np.concatenate( [train_data[:i * num_val_samples], train_data[(i+1) * num_val_samples:] ], axis = 0 )

Carlos Fabrishio Venegas Arana

student•

para los que tenian la advertencia de lr

def build_model_regression(lr_var,input_data): model = models.Sequential() model.add(layers.Dense(64,activation='relu',input_shape=(input_data,))) model.add(layers.Dense(64,activation='relu')) model.add(layers.Dense(1))#numero continuo sin capa de activacion model.compile(optimizer= optimizers.RMSprop(learning_rate=lr_var),#con learning rate loss='mse', metrics=['mae']) return model

for i in range(k): print("Fold " , i) val_data = train_data[inum_val_samples: (i+1) * num_val_samples] val_targets = train_targets[inum_val_samples: (i+1) * num_val_samples]

partial_train_data = np.concatenate(
[train_data[:i * num_val_samples],
 train_data[(i+1) * num_val_samples:]],
 axis= 0   
)

partial_train_targets = np.concatenate(
[train_targets[:i * num_val_samples],
 train_targets[(i+1) * num_val_samples:]],
 axis= 0   
)    
model = build_model_regression(0.001,13)
history = model.fit(partial_train_data, partial_train_targets, epochs=num_epoch, batch_size =16, 
                    validation_data = (val_data, val_targets),
                    verbose=0)
all_history.append(history.history['val_mae'])

Se debe de arreglar con esto

# Actualizacion de la implementacion 

for i in range(k):
    print('processing fold #', i)
    val_data = train_data[i * num_val_samples: (i + 1) * num_val_samples]
    val_targets = train_targets[i * num_val_samples: (i + 1) * num_val_samples]

    partial_train_data = np.concatenate(
        [train_data[:i * num_val_samples],
         train_data[(i + 1) * num_val_samples:]],
        axis=0)
    
    partial_train_targets = np.concatenate(
        [train_targets[:i * num_val_samples],
         train_targets[(i + 1) * num_val_samples:]],
        axis=0)
    
    model = build_model_regression(0.001, 13)
    history = model.fit(partial_train_data, partial_train_targets,
                        epochs=num_epochs,
                        batch_size=16,
                        validation_data=(val_data, val_targets),
                        verbose=0)
    
    all_history.append(history.history)
    val_mse, val_mae = model.evaluate(val_data, val_targets, verbose=0)
    all_scores.append(val_mae)

partial_train_data = np.concatenate(
[train_data[:i * num_val_samples],
 train_data[(i+1) * num_val_samples:]],
 axis= 0   
)

partial_train_targets = np.concatenate(
[train_targets[:i * num_val_samples],
 train_targets[(i+1) * num_val_samples:]],
 axis= 0   
)    
model = build_model_regression(0.001,13)
history = model.fit(partial_train_data, partial_train_targets, epochs=num_epoch, batch_size =16, 
                    validation_data = (val_data, val_targets),
                    verbose=0)
all_history.append(history.history['val_mae'])

Entrenamiento del modelo de regresión

Fundamentos en la arquitectura de redes neuronales

La importancia de las redes neuronales en la actualidad

¿Que herramientas usaremos para redes neuronales?

¿Qué es deep learning?

Tu primera red neuronal con Keras

Entrenando el modelo de tu primera red neuronal

La neurona: una pequeña y poderosa herramienta

Arquitectura de una red neuronal

Funciones de activación

Funcion de pérdida (loss function)

Descenso del gradiente

Backpropagation

Playground - Tensorflow

Redes neuronales con Python

Dimensiones, tensores y reshape

Creando nuestra red neuronal usando numpy y matemáticas

Entrenamiento forward de la red neuronal

Aplicando backpropagation y descenso del gradiente

Entrenamiento y análisis de resultados de tu red neuronal

Manejo de redes neuronales con Keras

Data: train, validation, test

Resolviendo un problema de clasificacion binaria

Entrenamiento del modelo de clasificación binaria

Regularización - Dropout

Reduciendo el overfitting

Resolviendo un problema de clasificación múltiple

Entrenamiento del modelo de clasificación múltiple

Resolviendo un problema de regresión

Entrenamiento del modelo de regresión

Análisis de resultados del modelo de regresión

Cierre

¿Qué sigue por aprender de redes neuronales?

Comparte tu proyecto de tu primera red neuronal y certifícate