Automatización de Modelos Machine Learning con Python

Curso Profesional de Machine Learning con scikit-learn

Contenido del curso

Aprender los conceptos clave

1
Curso Completo de Machine Learning con Scikit-learn para Principiantes
07:31 min
2
Tipos de Aprendizaje en Machine Learning: Supervisado, No Supervisado y por Refuerzo
04:18 min
3
Problemas de Clasificación, Regresión y Clustering con Scikit-learn
06:13 min
4
Fundamentos Matemáticos para Machine Learning Avanzado
04:52 min

Iniciar un proyecto con sklearn

Optimización de features

Regresiones robustas

Métodos de ensamble aplicados a clasificación

Clustering

Optimización paramétrica

Salida a producción

Tomar examen

Automatización de Modelos Machine Learning con Python

Resumen

¿Cómo extender nuestra arquitectura de código sin dañar la lógica existente?

Construir una arquitectura de código robusta y flexible es esencial para el desarrollo de soluciones efectivas en ciencia de datos y aprendizaje automático. El objetivo es poder extender el sistema fácilmente sin comprometer el código existente. Vamos a explorar cómo podemos lograrlo, comenzando con una implementación cuidadosa de las librerías necesarias y un análisis detallado del código.

Preparación y carga de librerías

Para comenzar, debemos importar las librerías esenciales para nuestro desarrollo. En Python, es importante recordar que una vez cargada una librería, no es necesario volver a cargarla en memoria, evitando así desbordar innecesariamente la misma.

import pandas as pd
import numpy as np
from sklearn.svm import SVR
from sklearn.ensemble import GradientBoostingRegressor
from sklearn.model_selection import GridSearchCV

Pandas: Es fundamental para la manipulación de datos.
NumPy: Proporciona funciones matemáticas avanzadas.
Scikit-learn: Ofrece herramientas para modelos de aprendizaje automático, como SVR y GradientBoostingRegressor.

Definición de la clase principal

La implementación de una clase principal nos permite estructurar mejor nuestro código. Esta clase emplea un constructor para la inicialización de variables y configuraciones necesarias.

class Models:
    def __init__(self):
        self.regressors = {
            'SVR': SVR(),
            'GradientBoosting': GradientBoostingRegressor()
        }
        self.parametros = {
            'SVR': {'kernel': ['linear', 'poly', 'rbf'], 'C': [1, 5, 10]},
            'GradientBoosting': {'loss': ['ls', 'lad'], 'learning_rate': [0.01, 0.05, 0.1]}
        }

Configuración de los modelos de aprendizaje automático

Definir un diccionario de diccionarios para los parámetros de cada modelo nos facilita realizar un ajuste hiperparámetro con GridSearchCV.

Implementación del ajuste de hiperparámetros

def grid_training(self, x, y):
    best_score = float('inf')
    best_model = None
    for name, regressor in self.regressors.items():
        param_grid = self.parametros[name]
        grid_search = GridSearchCV(regressor, param_grid, cv=3)
        grid_search.fit(x, y)
        score = np.abs(grid_search.best_score_)
        if score < best_score:
            best_score = score
            best_model = grid_search.best_estimator_

    return best_model, best_score

Exportación del modelo

Una vez identificado el mejor modelo, es crucial exportarlo para su uso futuro. Implementamos una función en nuestras utilidades para lograr esto.

Código para la exportación

def export_model(model, score):
    import joblib
    joblib.dump(model, f'models/best_model_{score}.pkl')

Integración con el archivo principal

Finalmente, conectamos nuestra lógica definida en modelos con nuestro archivo principal, asegurando la ejecución y generación correcta de modelos.

from models import Models

if __name__ == "__main__":
    model_instance = Models()
    x, y = obtain_features_and_target()  # Función ficticia para obtener datos.
    best_model, best_score = model_instance.grid_training(x, y)
    export_model(best_model, best_score)

Con esta arquitectura, hemos asegurado un flujo continuo y eficiente desde la carga de librerías hasta la exportación de modelos. La capacidad de identificar y utilizar el mejor modelo posible para una solución específica es un paso crucial en proyectos de ciencia de datos. Esta práctica no solo optimiza recursos, sino que también garantiza precisiones mayores en las predicciones.

Roger Christian Cansaya Olazabal

Estudiante

Codigo actualizado.

main

import pandas as pd
import numpy as np
import sklearn
from utils import Utils
from models import Models

if __name__ == "__main__":

    utils = Utils()
    models = Models()

    data = utils.load_from_csv('./in/felicidad.csv')
    X, y = utils.features_target(data, ['score','rank', 'country'],['score'])

    models.grid_training(X,y)

    print(data)

Utils

import pandas as pd
import numpy as np
import sklearn
import joblib

class Utils:

    def load_from_csv(self, path):
        return pd.read_csv(path)

    def load_from_mysql(self):
        pass

    def features_target(self, dataset, drop_cols, y):
        X = dataset.drop(drop_cols, axis=1)
        y = dataset[y]
        return X,y

    def model_export(self, clf, score):
        print(score)
        joblib.dump(clf, './models/best_model.pkl')

Models

import pandas as pd
import numpy as np
import sklearn
from sklearn.svm import SVR
from sklearn.ensemble import GradientBoostingRegressor
from sklearn.model_selection import GridSearchCV

from utils import Utils

class Models:

    def __init__(self):
        self.reg = {
            'SVR' : SVR(),
            'GRADIENT' : GradientBoostingRegressor()
        }

        self.params = {
           'SVR' : {
               'kernel' : ['linear', 'poly', 'rbf'],
               'gamma' : ['auto', 'scale'],
               'C' : [1,5,10]
           }, 'GRADIENT' : {
               'loss' : ['squared_error', 'absolute_error'],
               'learning_rate' : [0.01, 0.05, 0.1]
           }
        }

    def grid_training(self, X,y):

        best_score = 999
        best_model = None

        for name, reg in self.reg.items():

            grid_reg = GridSearchCV(reg, self.params[name], cv=3).fit(X, y.values.ravel())
            score = np.abs(grid_reg.best_score_)

            if score < best_score:
                best_score = score
                best_model = grid_reg.best_estimator_


        utils = Utils()
        utils.model_export(best_model, best_score)

Cristhian Eduardo Ninanya Cerron

Estudiante

Buena, me ayudo bastante la parte de models . py:

'GRADIENT' : {
               'loss' : ['squared_error', 'absolute_error'],

Joaquín Ricardo Svoboda Abregú

Estudiante

gracias idolo mundial, no me estaba arrancando.

María José Medina

Luciano Gauchez

Juan R. Vergara M.

Jose Ochoa

Diego Jurado

Marcelo Sánchez

Pablo José Ramos Wilkins

Hugo Montoya Diaz

David Martínez Jiménez

Roberto Ramírez Vilchis

Apfata Cay

Daniel de Jesús Martínez Vega

LUIS ALBERTO GIRALDO POLANIA

Julián Cárdenas

José Florentino Ramos

Fredy Alberto Orozco Loaiza

Jeinfferson Bernal G

Sergio Rolan Rondón Polanco

Christian Sanclemente

Usuario anónimo

User

Jhon Freddy Tavera Blandon

David fernando Pinzon suarez

Franco Sosa

Mercedes Jue

Juan Acevedo

Wilfredo Holguín Arbeláez

Juan R Rossano

Cristian Velasco

Automatización de Modelos Machine Learning con Python

Aprender los conceptos clave

Curso Completo de Machine Learning con Scikit-learn para Principiantes

Tipos de Aprendizaje en Machine Learning: Supervisado, No Supervisado y por Refuerzo

Problemas de Clasificación, Regresión y Clustering con Scikit-learn

Fundamentos Matemáticos para Machine Learning Avanzado

Iniciar un proyecto con sklearn

Configuración Profesional de Entorno de Trabajo para Python

Instalación y configuración de librerías para Python

Análisis de Datos para el Bienestar y la Felicidad Humana

Optimización de features

Selección de Variables en Modelos de Aprendizaje Automático

Reducción de Dimensionalidad con Análisis de Componentes Principales

Reducción de Dimensionalidad y Regresión Logística con Python

Clasificación de Enfermedad Cardiaca con PCA y Regresión Logística

Funciones Kernel en la Clasificación de Datos Complejos

Regularización en Modelos de Machine Learning

Implementación de Regularización en Modelos de Regresión Lineal

Análisis de Resultados en Modelos de Regresión Ridge y Lasso

Regularización ElasticNet con Scikit-learn: Conceptos y Aplicación

Regresiones robustas

Identificación de Valores Atípicos en Datos para Modelos Predictivos

Técnicas de Regresión Robusta: RANSAC y Huber en Scikit-Learn

Regresión Lineal y Soporte Vectorial: Manejo de Datos Atípicos

Automatización de Modelos de Predicción en Python

Métodos de ensamble aplicados a clasificación

Métodos de Ensamble: Bagging y Boosting en Machine Learning

Implementación de Bagging Classifier con SAIC en Análisis Cardiaco

Métodos de Ensamble para Mejorar Clasificación en Machine Learning

Implementación de Gradient Boosting para Clasificación de Datos

Clustering

Agrupamiento de Datos en Aprendizaje No Supervisado

Agrupamiento de Caramelos con K-Means y Pandas

Agrupamiento de Datos con Algoritmo Mean Shift

Optimización paramétrica

Validación Cruzada en Modelos de Machine Learning

Validación Cruzada con Scikit-learn: Cruz Vales Cor y KFold

Optimización de Modelos con Búsqueda en Grilla y Aleatoria

Automatización de Parámetros en Modelos de Regresión con Random Forest

Optimización Automática de Modelos con Auto-sklearn

Salida a producción

Estructuración Modular de Código Python para Machine Learning

Automatización de Modelos Machine Learning con Python

Publicación de Modelos de IA con Flask y Python

Optimización de Modelos de Machine Learning para Producción

Recursos para Aprender Machine Learning y Data Science

Resumen