Optimización de hiperparámetros

Clase 31 de 32 • Curso de Machine Learning Aplicado con Python

Contenido del curso

Introducción al curso

1
Introducción al curso de Machine Learning Aplicado con Python
00:56 min

Cómo definir un problema de Machine Learning

El ciclo de ingeniería de Machine Learning

6
El ciclo de Machine Learning
07:33 min

Montar un ambiente de trabajo Pydata

Preparación de los datos

Modelación y evaluación

Feature Engineering

Modelos y Evaluación más avanzada

Tomar examen

Comentarios

Diego Martinez

student•

Este atributo no me sirviò:

gsearch1.grid_scores_, gsearch1.best_params_, gsearch1.best_score_

En cambio si me sirviò:

list(zip(gsearch1.cv_results_['mean_test_score'], gsearch1.cv_results_['std_test_score'], gsearch1.cv_results_['params']))

Estefanía David Rodríguez

student•

Gracias por tu aporte. A mi tampoco me daba esa línea y ya si puedo visualizarla con el cambio que agregaste.

Gracias.

Sandra Liliana Delgado Gómez

student•

diego muchas gracias

Usuario anónimo

user•

Con este código también se puede visualizar los resultados y valore de parámetros, tal como los visualiza el instructor:

list(zip(gsearch1.cv_results_['mean_test_score'], gsearch1.cv_results_['std_test_score'],
         gsearch1.cv_results_['params'])), gsearch1.best_params_, gsearch1.best_score_

La imagen a continuación presenta los resultados visualizados al ejecutar el código:

Jhon Raul Perez Muñoz

student•

Excelente aporte

Luis Daniel Castellanos Remolina

student•

gracias:)

Wilson Fernando Antury Torres

student•

Para los que estamos trabajando en colab la información gsearch1.grid_scores_ ya no está disponible, yo use: gsearch1.cv_results_['mean_test_score'], gsearch1.best_params_, gsearch1.best_score_

Usuario anónimo

user•

En mi caso corregi un error que tenia que ver con el:

score_train

Este aparece deshabilitado para corregirlo lo envié como parámetro habilitado en la instrucción:

gsearch1 = GridSearchCV(estimator, 
                        param_grid = param_test1, 
                        scoring='r2', 
                        cv=5, return_train_score = True)

Con el parámetro como se muestra a continuación:

return_train_score = True

En esta otra instrucción hice lo mismo:

final_results = cross_validate(gsearch1.best_estimator_,X_train,y_train,return_train_score = True)

De esta forma corregí el error que se generaba con el parámetro score_train.

Usuario anónimo

user•

funcionan todos completa tu corrección

Cristian Orozco Benjumea

student•

Los Gradient Boosting Grid son difíciles de optimizar, algunos Kaggle proponen lo siguiente para lograrlo:

Elige primero un learning rate, que es uno de los parámetros del algoritmo, que sea aproximadamente 0,1
Después fija todos los parámetros de árbol (recuerda que los GBG, los modelos de aprendizaje débil, son arboles) que sean relativamente buenos para esos pequeños arboles
Luego, con GridSearch busca el mejor valor para la cantidad de estimadores.

Darvin Orozco

student•

Muy buen resumen, excelente! Muchas gracias Cristian

Gustavo Adolfo Abello Fernandez

student•

Como dice en el ejemplo el atributo grid_scores_ fue obsoleto en favor de cv_results_ Para la línea:

gsearch1.cv_results_, gsearch1.best_params_, gsearch1.best_score_

Isaac Nahaniel Silva Urbina

student•

muchas gracias por el aporte

Cristian Orozco Benjumea

student•

Hector F

student•

El atributo grid_scores_ ya no existe. Lo que me funcionó para encontrar los valores mostrados en el video fue:

list(zip(gsearch1.cv_results_['mean_test_score'], gsearch1.cv_results_['std_test_score'], gsearch1.cv_results_['params']))

Usuario anónimo

user•

Comaparto el código completo de Optimización de Hiperparámetros trabajado en esta sesión de clase:

# Optimización de hiperparámetros

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X,y,random_state=1)

from sklearn.model_selection import GridSearchCV
param_test1 = {'n_estimators':range(20,501,20)}

list(param_test1['n_estimators'])

estimator = GradientBoostingRegressor(learning_rate=0.1, 
                                       min_samples_split=500,
                                       min_samples_leaf=50,
                                       max_depth=8,
                                       max_features='sqrt',
                                       subsample=0.8,
                                       random_state=10)

gsearch1 = GridSearchCV(estimator, 
                        param_grid = param_test1, 
                        scoring='r2', 
                        cv=5, return_train_score = True)

gsearch1.fit(X_train,y_train)

gsearch1.cv_results_, gsearch1.best_params_, gsearch1.best_score_

gsearch1.best_estimator_

final_results = cross_validate(gsearch1.best_estimator_,X_train,y_train,return_train_score = True)

test_scores = final_results['test_score']
train_scores = final_results['train_score']
print(np.mean(train_scores))
print(np.mean(test_scores))

estimator = GradientBoostingRegressor(learning_rate=0.1, 
                                       min_samples_split=500,
                                       min_samples_leaf=50,
                                       max_depth=8,
                                       max_features='sqrt',
                                       subsample=0.8,
                                       random_state=10, n_estimators = 240)

estimator.fit(X_train,y_train)

estimator.score(X_test,y_test)

Otro cambio que hice es agregar la visualización de todos los parámetros así:

gsearch1.cv_results_, gsearch1.best_params_, gsearch1.best_score_

Carlos Alberto Tapia Agámez

student•

Excelente aporte

Usuario anónimo

user•

Deben cortar en la grabación la primera parte ya que no esta mostrando el mapa conceptual, luego es lo mismo pero mostrando el mapa conceptual hasta el minuto 3:20

Usuario anónimo

user•

Super, pensé que nunca íbamos a llegar a la solución con este problema.

Usuario anónimo

user•

Para conocer los parametros y atributos para el Grid Search:

https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html

Usuario anónimo

user•

con este codigo se muestra todo lo del profeson con el resultado de los mejores parametros y el mejor score

list(zip(gsearch1.cv_results_['mean_test_score'], gsearch1.cv_results_['std_test_score'], gsearch1.cv_results_['params'])), gsearch1.best_params_, gsearch1.best_score_```

Nicoll Idaly Angulo Mejia

student•

Estoy viendo el curso por segunda vez, y es verdad que eres Pro!. Mejor explicado no podría ser, muchas gracias

johan Stever Rodriguez Molina

student•

hay otros métodos más sofisticados para hacer este proceso de hyper parameter tunning distintos a usar random search y grid search, uno de ellos que uso bastante es el de bayesian optimization, les recomiendo investigar sobre el tema.

johan Stever Rodriguez Molina

student•

Sin embargo, una desventaja del gridsearch es que es exhaustivo y por lo tanto al probar todas las posibilidades es computacionalmente bastante costoso, hay mejores métodos alternos a este.

Luis Eduardo Chacón Wilches

student•

Que mejores métodos existen?

Usuario anónimo

user•

En resumen se tiene que los Gradient Boosting Grid son complejos de optimizar, aunque algunos Kaggle proporcionan la siguiente receta para lograr esto:

Elige primero un learning rate, que es uno de los parámetros del algoritmo, que sea aproximadamente 0,1
Después fija todos los parámetros de árbol (recuerda que los GBG, los modelos de aprendizaje débil, son arboles) que sean relativamente buenos para esos pequeños arboles
Luego, con GridSearch busca el mejor valor para la cantidad de estimadores.

Yamid Leonardo Rodriguez Reyes

student•

Para los que trabajan en Colab, en el paso 26 deben poner

final_results = cross_validate(gsearch1.best_estimator_,X_train,y_train,return_train_score=True)

Jimmy Buriticá Londoño

student•

Conclusiones: train_test_split se usa para evaluaciones rápidas, testeos y prototipaje. cross_validate es un método más robusto para poder estimar el rendimiento de tu algoritmo

Wilson Fernando Antury Torres

student•

Para la etapa final lo que se debe hacer es separar los datos en datos de entrenamiento y datos de test, pero los de test se van a dejar aparte, solo se usarán al final para obtener el score que se entregará al interesado.
Para ver el score en las iteraciones se debe separar la parte de los datos de entrenamiento en un nuevo set de entrenamiento y en un set de datos de validación, de ésta forma podemos mejorar los parámetros y los score.

# Optimización de hiperparámetros

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X,y,random_state=1)

from sklearn.model_selection import GridSearchCV
param_test1 = {'n_estimators':range(20,501,20)}

list(param_test1['n_estimators'])

estimator = GradientBoostingRegressor(learning_rate=0.1, 
                                       min_samples_split=500,
                                       min_samples_leaf=50,
                                       max_depth=8,
                                       max_features='sqrt',
                                       subsample=0.8,
                                       random_state=10)

gsearch1 = GridSearchCV(estimator, 
                        param_grid = param_test1, 
                        scoring='r2', 
                        cv=5, return_train_score = True)

gsearch1.fit(X_train,y_train)

gsearch1.cv_results_, gsearch1.best_params_, gsearch1.best_score_

gsearch1.best_estimator_

final_results = cross_validate(gsearch1.best_estimator_,X_train,y_train,return_train_score = True)

test_scores = final_results['test_score']
train_scores = final_results['train_score']
print(np.mean(train_scores))
print(np.mean(test_scores))

estimator = GradientBoostingRegressor(learning_rate=0.1, 
                                       min_samples_split=500,
                                       min_samples_leaf=50,
                                       max_depth=8,
                                       max_features='sqrt',
                                       subsample=0.8,
                                       random_state=10, n_estimators = 240)

estimator.fit(X_train,y_train)

estimator.score(X_test,y_test)

Optimización de hiperparámetros

Introducción al curso

Introducción al curso de Machine Learning Aplicado con Python

Cómo definir un problema de Machine Learning

Importancia de definir el problema en Machine Learning

Predecir el ingreso de películas de IMDB

Terminología de Machine Learning

Materiales del curso: Notebooks de Jupyter

El ciclo de ingeniería de Machine Learning

El ciclo de Machine Learning

Montar un ambiente de trabajo Pydata

Configuración del ambiente de trabajo con Google Collab

Qué es y cómo se utiliza Numpy

Arrays en Numpy

Operaciones aritméticas en Numpy

Preparación de los datos

Cargar los datos necesarios para el proyecto

Inspección de los tipos de datos

Inspección cuantitativa y de salud de los datos

Limpiar los datos

Manejo de datos faltantes

Modelación y evaluación

El objeto estimador de Scikit-Learn

Implementar un modelo de regresión (Lasso)

Ajustando Modelos de Machine Learning, Underfitting y Overfitting

Evaluando el modelo

Feature Engineering

Feedback del modelamiento

Análisis exploratorio

Continuando con el análisis exploratorio

Creación de features

Creando más features

Selección de features y la maldición de la dimensionalidad

Modelos y Evaluación más avanzada

Cross Validation

Selección de modelos

Curvas de aprendizaje

Introducción a Ensembles y Árboles de Decisión

Random Forest y Gradient Boosting Trees

Optimización de hiperparámetros

Conclusiones del curso