Resolviendo un problema de regresión

Clase 25 de 29 • Curso de Fundamentos de Redes Neuronales con Python y Keras

Resumen

¿Cómo abordar la regresión con redes neuronales en Keras y Python?

El proceso de regresión en redes neuronales es crucial para predecir valores continuos —un desafío distinto al de la clasificación. En esta lección, exploramos cómo aplicar técnicas de regresión usando Keras y Python, fundamentándonos en un dataset que representa características de casas junto con sus precios en miles de dólares. Este tutorial proporciona las herramientas esenciales y el conocimiento para que puedas aplicar estos conceptos a tus propios datos.

¿Qué pasos iniciales debemos seguir en el notebook?

Iniciar un proyecto de regresión en un notebook requiere establecer un entorno de trabajo adecuado. Primero, importamos las bibliotecas necesarias como pandas y numpy, seguidas de las partes específicas de Keras: modelos, capas y optimizadores.

import pandas as pd
import numpy as np
from keras.datasets import boston_housing
from keras import models, layers, optimizers

Luego, cargamos los datos utilizando el conjunto de datos de Boston Housing disponible en Keras, y los dividimos en conjuntos de entrenamiento y prueba:

(train_data, train_labels), (test_data, test_labels) = boston_housing.load_data()

¿Cómo normalizamos nuestros datos?

La normalización es crucial para garantizar que las variables con rangos diferentes no dominen el sistema. Aplicamos un proceso estadístico básico, restando la media y dividiendo por la desviación estándar de los datos de entrenamiento:

mean = train_data.mean(axis=0)
train_data -= mean
std = train_data.std(axis=0)
train_data /= std

test_data -= mean
test_data /= std

Este paso asegura que todos los datos estén en el mismo rango, lo que facilita el procesamiento por parte de la red neuronal.

¿Cómo construimos el modelo de red neuronal?

La construcción del modelo empieza definiendo un modelo secuencial y añadiendo capas densas con activación ReLU. La capa final, al tratarse de una regresión, no utiliza activación, para predecir un valor continuo.

def build_model(learning_rate=0.001, input_data_shape=(train_data.shape[1],)):
    model = models.Sequential()
    model.add(layers.Dense(64, activation='relu', input_shape=input_data_shape))
    model.add(layers.Dense(64, activation='relu'))
    model.add(layers.Dense(1))  # No activation to predict continuous value
    
    model.compile(optimizer=optimizers.RMSprop(learning_rate),
                  loss='mse',
                  metrics=['mae'])
    return model

¿Cómo implementar la validación cruzada?

Implementamos la validación cruzada K-Fold para evaluar el modelo de manera más robusta, rotando los sets de validación a lo largo del set de entrenamiento.

k = 4
num_val_samples = len(train_data) // k
num_epochs = 80
all_mae_histories = []

for i in range(k):
    print(f'Processing fold #{i}')
    val_data = train_data[i * num_val_samples: (i + 1) * num_val_samples]
    val_targets = train_labels[i * num_val_samples: (i + 1) * num_val_samples]

    partial_train_data = np.concatenate(
        [train_data[:i * num_val_samples],
         train_data[(i + 1) * num_val_samples:]], axis=0)
    partial_train_targets = np.concatenate(
        [train_labels[:i * num_val_samples],
         train_labels[(i + 1) * num_val_samples:]], axis=0)

    model = build_model()
    history = model.fit(partial_train_data, partial_train_targets,
                        validation_data=(val_data, val_targets),
                        epochs=num_epochs, batch_size=1, verbose=0)
    mae_history = history.history['val_mae']
    all_mae_histories.append(mae_history)

Esta práctica de validación cruzada es un estándar en machine learning, permitiendo que el modelo se entrene y valide sobre distintos subconjuntos del conjunto de datos.

Con estos fundamentos, estás en camino de construir modelos que predigan con precisión valores continuos. ¡Continúa explorando y experimentando para mejorar tus habilidades en redes neuronales!

Cesar Augusto Morales Godoy

student•

Operators

K-Fold cross validation

Fabio Andrés Peña

student•

Ufff gracias por el aporte!

Matías Collado

student•

Cuando se explica algo no hay que decir solo lo que estamos haciendo, hay que dar cada por qué de lo que estamos haciendo. No basta con saber hacer las cosas, hay que desarrollar también la habilidad de explicar.

Alexis Abelardo Diaz Huaringa

student•

Sii en muchos cursos son así, deben mejorar eso.

Pepe Sosa

student•

Completamente a favor, yo diría que es más importante explicar el por qué, ded ahí nace el conocimiento, una vez uno conoce algo, es capaz de manipularlo, pero no, aquí a veces me da la impresión de que me dan una receta de cocina pero al final me dicen "no hay receta de cocina para esto" así que me quedé igual o peor.

Patricia Carolina Perez Felibert

student•

Función realizada:

def build_model_regression(lr_variable, input_data):
    model = models.Sequential()
    model.add(layers.Dense(64, activation="relu", input_shape = (input_data)))
    model.add(layers.Dense(64, activation= "relu"))
    model.add(layers.Dense(1)) 
    model.compile(optimizer= optimizers.RMSprop(lr = lr_variable), #Learning rate de 0.001
                 loss= "mse",
                 metrics = "mae")

Sergio Andres Albera

student•

cuando el profe habla del tema ético, esta hablando de "data leakage". El "data leakage" (o "fuga de datos") en el aprendizaje automático se produce cuando la información del conjunto de datos de prueba se utiliza para entrenar el modelo. En el mundo real esto no sucede ya que está utilizando información que, en una situación del mundo real, no estaría disponible. En una situación real, Los datos de prueba se van obteniendo con el tiempo, entonces el modelo solo se entrenará con los datos disponibles hasta la fecha (equivalente a los "datos de entrenamiento") y luego se utilizará para hacer predicciones sobre datos nuevos e invisibles que llegan después de que el modelo se ha entrenado (equivalente a los "datos de prueba").

Carlos Eduardo Magallon Zepeda

student•

Muchas gracias por compartir esto.

Carlos Eduardo Magallon Zepeda

student•

¿Por qué se usa K-Fold validation?

K-fold validation, también conocida como validación cruzada en k grupos, es una técnica utilizada en el aprendizaje automático (machine learning) para evaluar y validar modelos de manera más robusta y precisa.

División de datos en k-fold validation

Cuando se entrena un modelo de aprendizaje automático, es común dividir los datos disponibles en dos conjuntos: uno para entrenamiento y otro para evaluar el rendimiento del modelo. Sin embargo, esta división puede ser problemática si los datos de prueba no son representativos de la distribución de los datos reales o si la partición es aleatoria y los resultados varían con cada partición.

La validación cruzada en k-fold aborda este problema dividiendo los datos en k grupos o pliegues (folds) de tamaño similar. El valor de k se selecciona de antemano y generalmente se elige un número entre 5 y 10. Luego, el modelo se entrena y evalúa k veces, cada vez utilizando un grupo diferente como conjunto de prueba y los restantes como conjunto de entrenamiento.

Entrenamiento en k-fold validation

En cada iteración, el modelo se entrena en k-1 pliegues y se evalúa en el pliegue restante. Luego, se promedian los resultados de evaluación obtenidos en cada iteración para obtener una estimación general del rendimiento del modelo. Esto proporciona una evaluación más estable y confiable del modelo, ya que se utiliza todo el conjunto de datos para entrenamiento y evaluación en diferentes combinaciones.

Usos de k-fold validation

La validación cruzada en k-fold es especialmente útil cuando el conjunto de datos es limitado, ya que aprovecha al máximo los datos disponibles sin requerir una partición adicional en conjuntos de entrenamiento y prueba. También ayuda a identificar problemas como el sobreajuste (overfitting) y el subajuste (underfitting) de manera más efectiva.

Carlos Eduardo Magallon Zepeda

student•

Por si les da curiosidad, estas son las variables que contiene el dataset de boston_housing.

David Antonio-Torres

student•

Este en enlace correcto para el dataset en Keras.

https://keras.io/2.15/api/datasets/boston_housing/

Este mismo dataset también está disponible en kaggle.

https://www.kaggle.com/code/prasadperera/the-boston-housing-dataset

Nicola Di Candia

student•

Hola, como podría hacerlo con mi propio dataset? Es un .csv pero no me permite cargarlo con load_data

Lukas Bustos

student•

ya intento con pd.read_csv o load_data.csv

Nicola Di Candia

student•

Con load_data me dice que no existe ese atributo, lo único que no importe fue el keras.datasets porque ya tengo el dataset. Con pd.read_csv si puedo cargarlo, sin embargo no me permite asignarlo a (train_data, train_labels),(test_data, test_labels).

import pandas as pd import numpy as np import tensorflow as tf from keras import layers, models, optimizers

data=pd.read_csv("mded.csv") (train_data, train_labels),(test_data,test_labels)=data

Me genera el siguiente error: ValueError: too many values to unpack (expected 2)

data contiene 300 valores de una sola categoría. Gracias de antemano.

Nicolas Cordoba

student•

No tengo claro el tema ético pero este fue el código que usé para estandarizar, hace lo mismo

from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
scaler.fit(train_data)
train_data = scaler.transform(train_data)

Carlos Alberto Bustamante Gaytan

student•

No hay problema. Estás haciendo exactamente lo mismo que es sacar el Z-Score (z = (x - u) / s), solo que lo hace todo en un solo paso (obtener media, desviación estándar y transformar los datos).

Néstor Miguel González Flores

student•

Hola, Con redes neuronales se pueden resolver problemas de regresión y clasificación.

¿Con qué criterios me puedo apoyar para decidir qué modelo es el más adecuado: Un modelo con redes neuronales o uno que no use redes neuronales?

Gonzalo Ceron Denetro

student•

Las redes neuronales se utilizan para identificar patrones de datos complejos (cuando hay patrones complejos las relaciones entre los datos no son lineales), cuando es complicado encontrar patrones en datos ahí es cuando utilizas una red neuronal. Al inicio del problema debemos definir el objetivo, si quieres clasificar o predecir. Ya que tiene un objetivo debes de explorar y ver acerca de los datos, ahí podrás ver si hay relaciones lineales o no en los datos, si es un problema de clasificación verás si hay líneas de decisión. Al ver los datos tendrás información para ver si usar una regresión logística, arboles de decisión, random forest, etc.

Espero te sirva la respuesta.

Nicolas Cordoba

student•

La cuestión ética no me quedó clara, si yo tengo un dataset completo, normalizo y luego separo entre train, val, test, no sería ético? Si en el aprendizaje solo le estoy dando información del training y del test no sabría nada, no me quedó muy claro el por qué de eso

Carlos Perilla

student•

Le darías el los datos de entrenamiento y validación, y como la validación condicionaría el reajuste de pesos, esto haría que el modelo se ajuste a estas validaciones. Así que si lo entrenaste con ciertos datos y lo validaste con otros datos, no sería fiable el modelo para estos datos validados, porque aunque no los incorpore igual que con los datos de entrenamiento, si los incorpora por el ajuste de pesos.

Por esto el test no se toca, y solo se usa para el testing "final" (puede que tengas más datos de validación, para refinar el modelo previo).

Ya que cuando se pasan los datos de testing, el modelo no cambia, solo evalúa y predice

Simón Cárdenas

student•

Hola, podrían explicar porqué no se requiere función de activación en la última capa, como supo que era lineal ?

Nicolas Cordoba

student•

En la documentación indican que cuando el argumento de activación está en none o no se especifica se aplica una activación lineal a(x) = x

David Uribe

student•

Hola, no me queda claro ¿Por qué se utiliza una función de activación lineal?. En ningún punto del problema se nos da a entender que la relación entre las variables independientes con la variable dependiente (precio) sea de este tipo.

Sebastian Sarasti

student•

Alguien me podría explicar como emplear input_dim o input_shape, en mi caso tengo un dataset de 1536 filas x 4 columnas, estoy realizando una regresión. Mi pregunta es como usar cada uno de estos, estaba usando input_shape(1536, ), pero tengo un error, mientras que cuando uso input_dim=4, la red neuronal si funciona, alguien me puede explicar el por qué de eso?

Alarcon7a

student•

en el imput shape puedes definir directamente la forma del tensor, tambien es posible usar reshape y llevarlo a otra unidimensional

Astrid Clarissa Esparza Aponte

student•

El link del dataset no funciona

Mario Alexander Vargas Celis

student•

La **regresión** es una técnica de aprendizaje supervisado que se utiliza para predecir un valor continuo en lugar de una categoría (como en la clasificación). Un ejemplo clásico de regresión sería predecir el precio de una casa en función de características como su tamaño, número de habitaciones, ubicación, etc.

En términos más simples, en los problemas de regresión, buscamos encontrar una relación entre las características de entrada (también llamadas variables independientes o *features*) y la salida continua (también llamada variable dependiente o *target*).

### Ejemplo práctico: Predicción del precio de una casa usando regresión

Vamos a resolver un problema de regresión utilizando la biblioteca **Scikit-learn** y el algoritmo de regresión lineal. Utilizaremos un conjunto de datos que contiene varias características de casas (por ejemplo, tamaño, número de habitaciones) y sus respectivos precios.

#### Paso 1: Importar bibliotecas necesarias


import numpy as np

import matplotlib.pyplot as plt

from sklearn.model\_selection import train\_test\_split

from sklearn.linear\_model import LinearRegression

from sklearn.metrics import mean\_squared\_error

#### Paso 2: Crear o cargar un conjunto de datos

En este caso, vamos a crear un pequeño conjunto de datos simulado con el tamaño de la casa (en metros cuadrados) como la característica independiente y el precio como la variable dependiente. Sin embargo, en un entorno real, podrías cargar un conjunto de datos usando bibliotecas como **pandas** o datasets de **Scikit-learn**.


\# Datos simulados: Tamaño de la casa (m2) y precio (en miles de dólares)

X = np.array(\[\[50], \[60], \[70], \[80], \[90], \[100], \[110], \[120], \[130], \[140]])  # Tamaño

y = np.array(\[150, 180, 210, 240, 270, 300, 330, 360, 390, 420])  # Precio



\# Dividir los datos en conjunto de entrenamiento y prueba

X\_train, X\_test, y\_train, y\_test = train\_test\_split(X, y, test\_size=0.2, random\_state=42)

En este caso, hemos generado una relación lineal simple donde el precio aumenta a medida que aumenta el tamaño de la casa.

#### Paso 3: Crear el modelo de regresión lineal

Vamos a utilizar el modelo de regresión lineal de **Scikit-learn** para predecir el precio de las casas basado en el tamaño.


\# Crear el modelo de regresión lineal

model = LinearRegression()



\# Entrenar el modelo con los datos de entrenamiento

model.fit(X\_train, y\_train)

#### Paso 4: Realizar predicciones

Una vez que el modelo ha sido entrenado, podemos utilizarlo para realizar predicciones en los datos de prueba.


\# Predecir los precios de las casas en los datos de prueba

y\_pred = model.predict(X\_test)

#### Paso 5: Evaluar el modelo

Evaluamos el rendimiento del modelo utilizando la **pérdida cuadrática media (Mean Squared Error, MSE)**, que mide la diferencia promedio entre los valores predichos y los valores reales.


\# Evaluar el modelo con el error cuadrático medio

mse = mean\_squared\_error(y\_test, y\_pred)

print(f"Error cuadrático medio (MSE): {mse}")

#### Paso 6: Visualizar los resultados

Para entender mejor cómo se ajusta el modelo, podemos visualizar los datos originales y la línea de regresión que el modelo ha aprendido.


\# Graficar los puntos de datos originales

plt.scatter(X, y, color='blue', label='Datos reales')



\# Graficar la línea de regresión

plt.plot(X, model.predict(X), color='red', label='Línea de regresión')



\# Etiquetas y título

plt.xlabel('Tamaño de la casa (m2)')

plt.ylabel('Precio (en miles de dólares)')

plt.title('Regresión lineal: Precio de la casa vs. Tamaño')

plt.legend()

plt.show()

### ¿Cómo funciona la regresión?

La regresión lineal simple intenta encontrar la **línea recta** que mejor se ajuste a los datos. Esto se hace minimizando la suma de los errores cuadrados (residuos), que es la diferencia entre los valores reales y los valores predichos.

En este caso, el modelo ajustará una línea con la forma:

y = w_0 + w_1 \cdot x

Donde:

- \( y \) es el valor predicho (precio).

- \( w_0 \) es la intersección con el eje Y (el precio cuando el tamaño de la casa es 0).

- \( w_1 \) es la pendiente de la línea (cuánto aumenta el precio por cada metro cuadrado adicional).

- \( x \) es el tamaño de la casa (característica independiente).

### Más allá de la regresión lineal

Si los datos no siguen una relación lineal, existen otros modelos de regresión que podemos utilizar:

1. **Regresión polinómica**: Para ajustar relaciones no lineales.

2. **Regresión de bosques aleatorios (Random Forest)**: Un modelo basado en árboles de decisión que suele funcionar bien con datos más complejos.

3. **Regresión de redes neuronales**: Para problemas de alta dimensionalidad o relaciones no lineales complejas.

### Conclusión

En este ejemplo, hemos aplicado un modelo de regresión lineal simple para predecir el precio de una casa basado en su tamaño. La regresión lineal es solo una de muchas técnicas disponibles para resolver problemas de predicción continua. A medida que los datos se vuelven más complejos, se pueden utilizar modelos más avanzados como la regresión polinómica o las redes neuronales.

Jhon Freddy Tavera Blandon

student•

Para resolver un problema de regresión con Keras, puedes utilizar un modelo de regresión lineal o no lineal, según la naturaleza de tus datos