Automatización de Parámetros en Modelos de Regresión con Random Forest

Clase 31 de 37 • Curso Profesional de Machine Learning con scikit-learn

Contenido del curso

Aprender los conceptos clave

1
Curso Completo de Machine Learning con Scikit-learn para Principiantes
07:31 min
2
Tipos de Aprendizaje en Machine Learning: Supervisado, No Supervisado y por Refuerzo
04:18 min
3
Problemas de Clasificación, Regresión y Clustering con Scikit-learn
06:13 min
4
Fundamentos Matemáticos para Machine Learning Avanzado
04:52 min

Iniciar un proyecto con sklearn

Optimización de features

Regresiones robustas

Métodos de ensamble aplicados a clasificación

Clustering

Optimización paramétrica

Salida a producción

Tomar examen

Resumen

¿Cómo automatizar la selección de modelos y optimización de parámetros?

Automatizar el proceso de selección de modelos y optimización de parámetros es clave para trabajar de manera eficiente en data science. Esto no solo ahorra tiempo, sino que además mejora la eficacia de los resultados. En esta guía usaremos el RandomizedSearchCV de Scikit-learn para demostrar cómo se realiza este proceso.

¿Qué herramientas necesitamos importar?

Para iniciar con el proceso de optimización automática, importaremos las librerías necesarias. Como siempre, pandas es fundamental para la manipulación de datos. Además, importaremos el RandomizedSearchCV del módulo model_selection y el algoritmo RandomForestRegressor del módulo ensemble.

import pandas as pd
from sklearn.model_selection import RandomizedSearchCV
from sklearn.ensemble import RandomForestRegressor

¿Cómo prepararnos para la carga de datos?

Asegúrate de que tu script se esté ejecutando dentro de un entorno activado donde las librerías estén configuradas. Luego, carga tu archivo CSV en un DataFrame utilizando pandas.

if __name__ == "__main__":
    df = pd.read_csv("data/felicidad.csv")
    print(df.shape)  # Confirmar la carga de datos

¿Cómo definimos y configuramos el modelo?

Primero, definimos un regresor RandomForestRegressor sin parámetros. Luego, establecemos una grilla de parámetros en forma de diccionario, donde cada clave es un parámetro del modelo y el valor es un rango de valores posibles.

regressor = RandomForestRegressor()

param_grid = {
    'n_estimators': range(4, 15),
    'criterion': ['mse', 'mae'],
    'max_depth': range(2, 11)
}

¿Qué es el RandomizedSearchCV y cómo se utiliza?

El RandomizedSearchCV es una herramienta que permite optimizar de manera automática los parámetros de un modelo. Aquí configuramos nuestro estimator, param_distributions y ajustamos la cantidad de iteraciones y el método de validación cruzada.

random_search = RandomizedSearchCV(
    estimator=regressor,
    param_distributions=param_grid,
    n_iter=10,
    cv=3,
    scoring='neg_mean_absolute_error',
    random_state=42
)

¿Cómo preparamos los datos para el entrenamiento?

Para dividir nuestros datos entre características (X) y variable objetivo (y), seleccionamos las columnas correspondientes. En este caso, eliminamos cualquier columna que no aporte significativamente al modelo.

X = df.drop(columns=["RANK", "SCORE"])
y = df["SCORE"]

¿Cómo entrenamos el modelo con la configuración optimizada?

Entrena el modelo utilizando la configuración optimizada por RandomizedSearchCV. Es esencial imprimir el mejor estimador y los parámetros para revisar la calidad de los resultados.

random_search.fit(X, y)
best_estimator = random_search.best_estimator_
print("Best Estimator:", best_estimator)

¿Cómo realizamos y evaluamos las predicciones?

Finalmente, realiza las predicciones con el modelo optimizado. Verificamos la exactitud de las predicciones comparando los resultados previstos con las variables reales.

prediction = best_estimator.predict(X.iloc[0:1])
print("Predicción para el primer registro:", prediction)

¿Qué observamos sobre el resultado?

En el ejemplo, la predicción se aproximó bastante al valor real, lo que indica que la optimización funcionó adecuadamente. Este proceso puede aplicarse a diferentes modelos y datasets para optimizar configuraciones de manera sistemática y efectiva.

Incorpora esto en tu flujo de trabajo diario para obtener resultados consistentes con menos esfuerzo manual. ¡Sigue explorando y perfeccionando tus modelos!

Daniel Moreno

student•

Aquí tienes el código implementado con GridSearchCV:

import pandas as pd
from sklearn.model_selection import GridSearchCV
from sklearn.ensemble import RandomForestRegressor

if __name__ == "__main__":
    # Leer el dataset
    dataset = pd.read_csv('./data/felicidad.csv')

    # Imprimir el dataset para verificar la carga
    print(dataset)

    # Seleccionar características (X) y etiquetas (y)
    X = dataset.drop(['country', 'rank', 'score'], axis=1)
    y = dataset['score']

    # Inicializar el regresor RandomForestRegressor
    reg = RandomForestRegressor()

    # Definir los parámetros para la búsqueda en cuadrícula
    parametros = {
        # Número de árboles en el bosque
        'n_estimators': [10, 50, 100],

        # Criterio utilizado para medir la calidad de una división
        'criterion': ['mse', 'mae'],  # 'mse': error cuadrático medio, 'mae': error absoluto medio

        # Profundidad máxima de los árboles en el bosque
        'max_depth': [None, 10, 20],

        # Número mínimo de muestras requeridas para dividir un nodo interno
        'min_samples_split': [2, 5, 10],

        # Número mínimo de muestras requeridas para estar en un nodo hoja
        'min_samples_leaf': [1, 2, 4],

        # Método para la selección de características en cada split
        'max_features': ['auto', 'sqrt', 'log2'],  # 'auto': sqrt(num_features), 'sqrt': sqrt(num_features), 'log2': log2(num_features)

        # Bootstrap muestras al construir árboles
        'bootstrap': [True, False],  # True: usar bootstrap samples, False: usar el dataset completo
    }

    # Realizar la búsqueda en cuadrícula de hiperparámetros
    grid_est = GridSearchCV(reg, parametros, cv=3, scoring='neg_mean_absolute_error').fit(X, y)

    # Imprimir el mejor estimador encontrado
    print("Mejor estimador:")
    print(grid_est.best_estimator_)

    # Imprimir los mejores parámetros encontrados
    print("Mejores parámetros:")
    print(grid_est.best_params_)

    # Realizar una predicción utilizando el mejor modelo encontrado
    print("Predicción para el primer ejemplo del dataset:")
    print(grid_est.predict(X.loc[[0]]))

```import pandas as pd

from sklearn.model\_selection import GridSearchCV

from sklearn.ensemble import RandomForestRegressor



if \_\_name\_\_ == "\_\_main\_\_":

&#x20;   \# Leer el dataset

&#x20;   dataset = pd.read\_csv('./data/felicidad.csv')



&#x20;   \# Imprimir el dataset para verificar la carga

&#x20;   print(dataset)



&#x20;   \# Seleccionar características (X) y etiquetas (y)

&#x20;   X = dataset.drop(\['country', 'rank', 'score'], axis=1)

&#x20;   y = dataset\['score']



&#x20;   \# Inicializar el regresor RandomForestRegressor

&#x20;   reg = RandomForestRegressor()



&#x20;   \# Definir los parámetros para la búsqueda en cuadrícula

&#x20;   parametros = {

&#x20;       \# Número de árboles en el bosque

&#x20;       'n\_estimators': \[10, 50, 100],



&#x20;       \# Criterio utilizado para medir la calidad de una división

&#x20;       'criterion': \['mse', 'mae'],  # 'mse': error cuadrático medio, 'mae': error absoluto medio



&#x20;       \# Profundidad máxima de los árboles en el bosque

&#x20;       'max\_depth': \[None, 10, 20],



&#x20;       \# Número mínimo de muestras requeridas para dividir un nodo interno

&#x20;       'min\_samples\_split': \[2, 5, 10],



&#x20;       \# Número mínimo de muestras requeridas para estar en un nodo hoja

&#x20;       'min\_samples\_leaf': \[1, 2, 4],



&#x20;       \# Método para la selección de características en cada split

&#x20;       'max\_features': \['auto', 'sqrt', 'log2'],  # 'auto': sqrt(num\_features), 'sqrt': sqrt(num\_features), 'log2': log2(num\_features)



&#x20;       \# Bootstrap muestras al construir árboles

&#x20;       'bootstrap': \[True, False],  # True: usar bootstrap samples, False: usar el dataset completo

&#x20;   }



&#x20;   \# Realizar la búsqueda en cuadrícula de hiperparámetros

&#x20;   grid\_est = GridSearchCV(reg, parametros, cv=3, scoring='neg\_mean\_absolute\_error').fit(X, y)



&#x20;   \# Imprimir el mejor estimador encontrado

&#x20;   print("Mejor estimador:")

&#x20;   print(grid\_est.best\_estimator\_)



&#x20;   \# Imprimir los mejores parámetros encontrados

&#x20;   print("Mejores parámetros:")

&#x20;   print(grid\_est.best\_params\_)



&#x20;   \# Realizar una predicción utilizando el mejor modelo encontrado

&#x20;   print("Predicción para el primer ejemplo del dataset:")

&#x20;   print(grid\_est.predict(X.loc\[\[0]]))

Este código utiliza `GridSearchCV` en lugar de `RandomizedSearchCV`. Los parámetros y su rango son especificados manualmente para realizar una búsqueda exhaustiva sobre todas las combinaciones posibles de parámetros dentro del rango especificado. Esto puede ser útil si la cantidad de combinaciones es manejable y no demasiado grande.

Ramsés Alejandro Camas Nájera

Rafael Rivera

Mauricio Peñuela Aristizábal

María José Medina

Juan R. Vergara M.

Carlos Daniel Pimentel Díaz

Julián Cárdenas

Fredy Alberto Orozco Loaiza

Alan Vazquez

Sebastian Gaviria

Diego González Castellanos

Daniel Reyes Barrera

Gabriel Oswaldo Giraldo Martínez

Miguel Angel Velazquez Romero

Josue Noha Valdivia

Orlando castellanos

Alfredo Olmedo

Valery Villamizar Avella

Jhon Freddy Tavera Blandon

Ricardo Gomez

Antonio Demarco Bonino

Aaron Fabrizio Calderon Guillermo

Mauricio Barrera

Mauro Gonzalo Pini

Camilo Andrés Hurtado Erasso

Salvador Cardona Noriega

George Wang Lee Zevallos Durand

Juan Acevedo

Automatización de Parámetros en Modelos de Regresión con Random Forest

Aprender los conceptos clave

Curso Completo de Machine Learning con Scikit-learn para Principiantes

Tipos de Aprendizaje en Machine Learning: Supervisado, No Supervisado y por Refuerzo

Problemas de Clasificación, Regresión y Clustering con Scikit-learn

Fundamentos Matemáticos para Machine Learning Avanzado

Iniciar un proyecto con sklearn

Configuración Profesional de Entorno de Trabajo para Python

Instalación y configuración de librerías para Python

Análisis de Datos para el Bienestar y la Felicidad Humana

Optimización de features

Selección de Variables en Modelos de Aprendizaje Automático

Reducción de Dimensionalidad con Análisis de Componentes Principales

Reducción de Dimensionalidad y Regresión Logística con Python

Clasificación de Enfermedad Cardiaca con PCA y Regresión Logística

Funciones Kernel en la Clasificación de Datos Complejos

Regularización en Modelos de Machine Learning

Implementación de Regularización en Modelos de Regresión Lineal

Análisis de Resultados en Modelos de Regresión Ridge y Lasso

Regularización ElasticNet con Scikit-learn: Conceptos y Aplicación

Regresiones robustas

Identificación de Valores Atípicos en Datos para Modelos Predictivos

Técnicas de Regresión Robusta: RANSAC y Huber en Scikit-Learn

Regresión Lineal y Soporte Vectorial: Manejo de Datos Atípicos

Automatización de Modelos de Predicción en Python

Métodos de ensamble aplicados a clasificación

Métodos de Ensamble: Bagging y Boosting en Machine Learning

Implementación de Bagging Classifier con SAIC en Análisis Cardiaco

Métodos de Ensamble para Mejorar Clasificación en Machine Learning

Implementación de Gradient Boosting para Clasificación de Datos

Clustering

Agrupamiento de Datos en Aprendizaje No Supervisado

Agrupamiento de Caramelos con K-Means y Pandas

Agrupamiento de Datos con Algoritmo Mean Shift

Optimización paramétrica

Validación Cruzada en Modelos de Machine Learning

Validación Cruzada con Scikit-learn: Cruz Vales Cor y KFold

Optimización de Modelos con Búsqueda en Grilla y Aleatoria

Automatización de Parámetros en Modelos de Regresión con Random Forest

Optimización Automática de Modelos con Auto-sklearn

Salida a producción

Estructuración Modular de Código Python para Machine Learning

Automatización de Modelos Machine Learning con Python

Publicación de Modelos de IA con Flask y Python

Optimización de Modelos de Machine Learning para Producción

Recursos para Aprender Machine Learning y Data Science