Aprender los conceptos clave

1

Todo lo que aprenderás sobre MA con Scikit-Learn

2

¿Cómo aprenden las máquinas?

3

Problemas que podemos resolver con Scikit-learn

4

Las matemáticas que vamos a necesitar

Iniciar un proyecto con sklearn

5

Configuración de nuestro entorno Python

6

Instalación de librerías en Python

7

Datasets que usaremos en el curso

Optimización de features

8

¿Cómo afectan nuestros features a los modelos de Machine Learning?

9

Introducción al PCA

10

Preparación de datos para PCA e IPCA

11

Implementación del algoritmo PCA e IPCA

12

Kernels y KPCA

13

¿Qué es la regularización y cómo aplicarla?

14

Implementación de Lasso y Ridge

15

Explicación resultado de la implementación

16

ElasticNet: Una técnica intermedia

Regresiones robustas

17

El problema de los valores atípicos

18

Regresiones Robustas en Scikit-learn

19

Preparación de datos para la regresión robusta

20

Implementación regresión robusta

Métodos de ensamble aplicados a clasificación

21

¿Qué son los métodos de ensamble?

22

Preparación de datos para implementar métodos de ensamble

23

Implementación de Bagging

24

Implementación de Boosting

Clustering

25

Estrategias de Clustering

26

Implementación de Batch K-Means

27

Implementación de Mean-Shift

Optimización paramétrica

28

Validación de nuestro modelo usando Cross Validation

29

Implementación de K-Folds Cross Validation

30

Optimización paramétrica

31

Implementación de Randomized

32

Bonus: Auto Machine Learning

Salida a producción

33

Revisión de nuestra arquitectura de código

34

Importar y exportar modelos con Sklearn

35

Creación de una API con Flask para el modelo

36

Cierre del curso

37

Material adicional para consultar

You don't have access to this class

Keep learning! Join and start boosting your career

Aprovecha el precio especial y haz tu profesión a prueba de IA

Antes: $249

Currency
$209
Suscríbete

Termina en:

0 Días
21 Hrs
10 Min
6 Seg

Implementación de Boosting

24/37
Resources

How to implement Gradient Boosting with scikit-learn on a heart disease dataset?

Implementing Machine Learning models can seem intimidating at first, but with the right tools, it becomes quite manageable. Scikit-learn is a Python library that makes this process easier with its pre-built models and assembly methods such as Gradient Boosting. In this guide, you will learn how to apply Gradient Boosting to classify a heart disease dataset, obtaining accurate and meaningful results.

What code changes are necessary?

To begin with, it is essential to work from a pre-existing code base. Here, we start from a code that already processes a heart disease dataset. However, since we will be using Gradient Boosting, certain libraries used initially will no longer be necessary:

from sklearn.ensemble import GradientBoostingClassifier.

This is the only import change required. The Gradient Boosting classifier, based on decision trees, will dispense with the previously used K-Nearest Neighbors classifier.

How do we define and train our classifier?

Defining the classifier is simple. We use the GradientBoostingClassifier method to create a model that will fit the training data. Here, we set a key parameter: the number of trees in the assembly.

# We define the classifierclassifier = GradientBoostingClassifier(n_estimators=50)
 # We train with the training dataclassifier.fit(X_train, y_train).

We choose to use 50 estimators, and although this number is initially arbitrary, you can adjust it according to performance, using techniques such ascross-validation to optimize the hyperparameters.

How do we generate predictions and evaluate the model?

Once we have the classifier trained, the next step is to generate predictions on the test data and evaluate the accuracy of our model.

# We generate predictionspredictions = classifier.predict(X_test)
 # We calculate the accuracyfrom sklearn.metrics import accuracy_scoreprecision = accuracy_score(y_test, predictions)

This process allows us to measure how well our model is classifying the instances of the test dataset. In this particular exercise, the model achieves an impressive 93% accuracy, which is an improvement over the previous method, K-Nearest Neighbors.

Why evaluate multiple ensemble methods?

While in this example we see an impressive 93% increase in accuracy with Gradient Boosting, it is crucial to remember that results may vary from dataset to dataset. Each Machine Learning model has its strengths and weaknesses, which is why we recommend you try different ensemble methods and classifiers to determine which one best suits your needs.

This practice will allow you to establish a more robust approach tailored to your specific problem, thus ensuring that the model is not only accurate, but also efficient and relevant.

File changes and execution

Finally, to maintain consistency and project organization, we renamed the file containing this process to boosting.py, ensuring that we will always be working with the correct contents in the code repositories.


With this understanding of how to integrate Gradient Boosting into your projects, you will be better prepared to face more complex challenges in your Machine Learning explorations. Keep learning and improving your models!

Contributions 14

Questions 4

Sort by:

Want to see more contributions, questions and answers from the community?

Para este método de ensamble, jugue un poco con los estimators:

X_train, X_test, y_train, y_test = train_test_split(X,y, test_size=0.35)

    estimators = range(10, 200, 10)
    total_accuracy = []
    for i in estimators:
        boost = GradientBoostingClassifier(n_estimators=i).fit(X_train, y_train)
        boost_pred = boost.predict(X_test)

        total_accuracy.append(accuracy_score(y_test, boost_pred))
    
    plt.plot(estimators, total_accuracy)
    plt.xlabel('Estimators')
    plt.ylabel('Accuracy')
    plt.show()
    plt.savefig('Boost.png')

    print(np.array(total_accuracy).max())

Accuracy = 0.9749303621169917

Configurando el boosting de esta manera:

boosting = GradientBoostingClassifier(loss='exponential',learning_rate=0.15, n_estimators=100, max_depth=5).fit(x_train, y_train)

Obtuve un score de:
0.9888579387186629

Mi intento de cross validation, al final deje n_estimators en 3 con 81%.

Para determinar el mejor n_estimator

estimators = range(10, 300, 10)
total_accuracy = []
best_result = {'result' : 0, 'n_estimator': 1}

for i in estimators:
    boost = GradientBoostingClassifier(n_estimators=i).fit(X_train, y_train)
    boost_pred = boost.predict(X_test)
    new_accuracy = accuracy_score(boost_pred, y_test)
    total_accuracy.append(new_accuracy)
    if new_accuracy > best_result['result']: 
        best_result['result'] = new_accuracy
        best_result['n_estimator'] = i

print(best_result)

investoge que es el cross validadtion para encontrar el n_estimators correcto, básicamente es dividir los datos en bloques y utilizar cada bloque como testing y el resto como training en cada iteration, con lo que se obtiene un valor de como se comporta el modelo con cualquier combinacion de los datos.

con este indicador se pueden compara modelos entre si o en este caso valores para un parametro, si quieren profundizar les recomiendo este video.

Les adjunto mi version del codigo:

import pandas as pd

from sklearn.ensemble import GradientBoostingClassifier

from sklearn.model_selection import train_test_split
from sklearn.metrics import  accuracy_score

if __name__ == "__main__":
    
    path = './Boosting/data/heart.csv'
    dataset = pd.read_csv(path)

    print(dataset.head(5))
    print('')
    print(dataset['target'].describe())

    x = dataset.drop(['target'], axis=1, inplace=False)
    y = dataset['target']

    x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.35, random_state=42)

    boost = GradientBoostingClassifier(n_estimators=50).fit(x_train, y_train)
    boost_pred = boost.predict(x_test)

    print('')
    #print('Accuracy GBC:', accuracy_score(y_test, boost_pred)) # este esta bien.
    print('Accuracy GBC:', accuracy_score(boost_pred, y_test)) # este me parece que esta mal.

Donde el output es el siguiente:

Accuracy GBC: 0.935933147632312

Me gusta mucho el código que lo que hace es iterar para buscar una mejor respuesta. Por esto es que les dejo este mismo para que lo prueben: ```python import pandas as pd from sklearn.ensemble import GradientBoostingClassifier from sklearn.model_selection import train_test_split, GridSearchCV from sklearn.metrics import accuracy_score if __name__ == "__main__": # Cargar los datos data = pd.read_csv('./data/heart.csv') # Preparar las variables predictoras y la variable objetivo X = data.drop(['target'], axis=1) Y = data['target'] # Dividir en conjunto de entrenamiento y prueba X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.35, random_state=42) # Definir el rango de valores a probar para los hiperparámetros param_grid = { 'n_estimators': [50, 100, 200], 'learning_rate': [0.01, 0.1, 0.2], 'max_depth': [3, 5, 7] } # Crear un modelo de Gradient Boosting gb_model = GradientBoostingClassifier(random_state=42) # Crear GridSearchCV para buscar la mejor combinación de parámetros grid_search = GridSearchCV(estimator=gb_model, param_grid=param_grid, cv=5, scoring='accuracy') # Entrenar el GridSearchCV grid_search.fit(X_train, Y_train) # Imprimir todos los resultados de las combinaciones results = grid_search.cv_results_ print("Resultados para cada combinación de hiperparámetros de Gradient Boosting:") for mean_score, params in zip(results['mean_test_score'], results['params']): print(f"Parámetros: {params}, Precisión promedio: {mean_score}") # Mejor modelo encontrado best_params = grid_search.best_params_ print(f"\nMejores parámetros encontrados: {best_params}") # Evaluar el mejor modelo en los datos de prueba best_model = grid_search.best_estimator_ Y_pred = best_model.predict(X_test) accuracy = accuracy_score(Y_test, Y_pred) print(f"\nPrecisión del mejor modelo en los datos de prueba: {accuracy}") ``` ![](https://static.platzi.com/media/user_upload/image-762af5d4-7ac8-49a9-a8d9-9bbad225c981.jpg)
***<u>Bagging vs Boosting </u>*** Tanto el bagging (agregación por bootstrap) como el boosting son técnicas de aprendizaje ensemble usadas en machine learning para mejorar el rendimiento de un modelo al combinar las predicciones de múltiples modelos más débiles (también llamados estimadores base). Si bien comparten el mismo objetivo, lo logran de formas diferentes: **Bagging (Agregación por Bootstrap):** * **Diversidad a través del muestreo aleatorio:** El bagging se centra en crear diversidad entre los estimadores base. Logra esto entrenando a cada estimador base en una muestra **bootstrap** diferente de los datos de entrenamiento. El bootstrap implica crear un nuevo conjunto de datos mediante el muestreo aleatorio (con reemplazo) de los datos de entrenamiento originales. Esto significa que algunos puntos de datos pueden aparecer varias veces en una muestra bootstrap, mientras que otros pueden no incluirse en absoluto. * **Entrenamiento independiente:** Cada estimador base en el bagging se entrena independientemente de los demás. No se "comunican" ni aprenden de los errores de los otros. * **Agregación de predicciones:** Finalmente, el bagging agrega las predicciones de todos los estimadores base utilizando técnicas como la votación por mayoría para clasificación o el promedio para regresión. **Boosting (Boosting de gradiente):** * **Aprendizaje secuencial:** El boosting toma un enfoque más secuencial. Entrena a los estimadores base uno tras otro, donde cada estimador posterior se enfoca en mejorar los errores cometidos por los anteriores. * **Corrección de errores:** El boosting utiliza una técnica llamada descenso del gradiente para ajustar los pesos de los estimadores base. Los pesos determinan la influencia de cada estimador en la predicción final. A los estimadores que cometen más errores se les asignan pesos más bajos, mientras que a los que cometen menos errores se les aumentan los pesos. * **Aprendizaje adaptativo:** Este proceso de enfocarse en corregir errores pasados permite que el boosting cree un ensemble más poderoso que pueda aprender patrones más complejos en los datos. **Diferencias clave y cuándo elegir cuál:** ![](<"C:\Users\USER\Documents\Platzi\Diplomas Platzi\Escuela de Data Science e Inteligencia Artificial\Pdfs e images\Scki-Learn_Professional\Bagging vs Boosting (Precision del modelo y eliminacion, coreccion de valores atipicos).png">)![]() **Aquí algunas pautas generales para elegir entre bagging y boosting:** * **Usa bagging:** Si te preocupa principalmente reducir la varianza y tus estimadores base ya son relativamente buenos, el bagging es una opción más simple y rápida. También es más fácil interpretar los modelos individuales en un ensemble de bagging. * **Usa boosting:** Si deseas un modelo potencialmente más poderoso que pueda reducir tanto la varianza como el sesgo, especialmente para problemas complejos, el boosting es una buena opción. Sin embargo, los algoritmos de boosting pueden ser más costosos computacionalmente y menos interpretables. En última instancia, la mejor opción depende de las características específicas de tus datos y tu problema. Es posible que desees experimentar con bagging y boosting para ver cuál funciona mejor en tu conjunto de datos.
LinearSVC
Accuracy: 0.8133704735376045
====================================================================
SVC
Accuracy: 0.6880222841225627
====================================================================
SGDClassifier
Accuracy: 0.6796657381615598
====================================================================
DecisionTreeClassifier
Accuracy: 0.9554317548746518
====================================================================
GradientBoostingClassifier
Accuracy: 0.9331476323119777

Otra gran clase 🥇🚀🔥

24. Implementación de Boosting

import pandas as pd

from sklearn.ensemble import GradientBoostingClassifier

from sklearn.neighbors import KNeighborsClassifier
from sklearn.ensemble import BaggingClassifier

from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

if __name__ == '__main__':
    # Load the dataset
    df = pd.read_csv('./data/heart.csv')
    print(df['target'].describe())

    # Split the dataset into features (X) and target (y)
    X = df.drop(['target'], axis=1)
    y = df['target']

    # Split the dataset into training and testing sets
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.35, random_state=42)

    # Fit a Gradient Boosting classifier to the training data and evaluate its performance on the testing data
    boost = GradientBoostingClassifier(n_estimators=50).fit(X_train, y_train)
    boost_pred = boost.predict(X_test)
    print('=' * 64)
    print('Gradient Boosting Accuracy: ', accuracy_score(y_test, boost_pred))

Epero este aporte les sirva. Estan implementados tanto sin metodo ensamble como con bagging y boosting como resultado

import pandas as pd 

from sklearn.neighbors import KNeighborsClassifier
from sklearn.ensemble import BaggingClassifier

from sklearn.ensemble import GradientBoostingClassifier

from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.svm import LinearSVC
from sklearn.linear_model import SGDClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier

from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

import warnings
warnings.filterwarnings("ignore")

if __name__ == '__main__':
    #dt_heart = pd.read_csv('./datasets/heart.csv')
    dt_heart = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/platzi/datas/heart.csv')
    #print(dt_heart['target'].describe())

    x = dt_heart.drop(['target'], axis=1)
    y = dt_heart['target']

    x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.35, random_state=1)



    estimators = {
        'LogisticRegression' : LogisticRegression(),
        'SVC' : SVC(),
        'LinearSVC' : LinearSVC(),
        'SGD' : SGDClassifier(loss="hinge", penalty="l2", max_iter=5),
        'KNN' : KNeighborsClassifier(),
        'DecisionTreeClf' : DecisionTreeClassifier(),
        'RandomTreeForest' : RandomForestClassifier(random_state=0)
    }

    for name, estimator in estimators.items():

        estimator_class = estimator.fit(x_train, y_train)
        estimator_prediction = estimator.predict(x_test)
        print('='*64)
        print('SCORE no bagging {} : {}'.format(name, accuracy_score(knn_prediction, y_test))  )

        bag_class = BaggingClassifier(base_estimator=estimator, n_estimators=50).fit(x_train, y_train)
        bag_predict = bag_class.predict(x_test)
        print('SCORE Bagging with {} : {}'.format(name, accuracy_score(bag_predict, y_test)))

        boost = GradientBoostingClassifier(n_estimators=50).fit(x_train, y_train)
        boost_pred = boost.predict(x_test)
        print('SCORE Boosting with {} : {}'.format(name, accuracy_score(boost_pred, y_test)))

resultado :

===============================================
SCORE no bagging LogisticRegression : 0.7270194986072424
SCORE Bagging with LogisticRegression : 0.8133704735376045
SCORE Boosting with LogisticRegression : 0.924791086350975
===============================================
SCORE no bagging SVC : 0.7270194986072424
SCORE Bagging with SVC : 0.6629526462395543
SCORE Boosting with SVC : 0.924791086350975
===============================================
SCORE no bagging LinearSVC : 0.7270194986072424
SCORE Bagging with LinearSVC : 0.8245125348189415
SCORE Boosting with LinearSVC : 0.924791086350975
===============================================
SCORE no bagging SGD : 0.7270194986072424
SCORE Bagging with SGD : 0.6685236768802229
SCORE Boosting with SGD : 0.924791086350975
===============================================
SCORE no bagging KNN : 0.7270194986072424
SCORE Bagging with KNN : 0.766016713091922
SCORE Boosting with KNN : 0.924791086350975
===============================================
SCORE no bagging DecisionTreeClf : 0.7270194986072424
SCORE Bagging with DecisionTreeClf : 0.9721448467966574
SCORE Boosting with DecisionTreeClf : 0.924791086350975
===============================================
SCORE no bagging RandomTreeForest : 0.7270194986072424
SCORE Bagging with RandomTreeForest : 0.9805013927576601
SCORE Boosting with RandomTreeForest : 0.924791086350975

Código para evitar los warnings:

KNeighborsClassifier 0.711038961038961

BaggingClassifier 0.7727272727272727

RanfomForestClassifier: 1.0

GradientBoostingClassifier: 0.9448051948051948