Aún no tienes acceso a esta clase

Crea una cuenta y continúa viendo este curso

Random Forest y Gradient Boosting Trees

30/32
Recursos

Aportes 19

Preguntas 4

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad? Crea una cuenta o inicia sesión.

Muchachos obtuve un error en Colab. con la variable
results= cross_validate(forest,X,y,cv=5,scoring=‘r2’).

Lo Solucione poniéndole la flag: return_train_score=True.

Al final me quedo así:
results= cross_validate(forest,X,y,cv=5,scoring=‘r2’,return_train_score=True)

Por si a alguien le sirve. Exitos =D.

Recuerden añadir al código la parte de mostrar el resultado de train_score para que no arroje error:

results = cross_validate(forest,X,y,cv=5,scoring='r2',
                         return_train_score=True)

Ahora hay que agregar el parámetro return_train_score=True en la función cross_validate para que funcione correctamente.
De la siguiente forma:

Sino puede que aparezca el siguiente error:

Esto también aparece en la documentación oficial: https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.cross_validate.html

comparto las ayudas de Crhis Albon:

https://chrisalbon.com/

Puntos clave:

Los submodelos de random forest tiene buen poder de predicción.
Los arboles del bosque no tienen correlación o tienen mala/baja correlación.

Esto hace que sea “justo” y poderoso.

🔄 Boosting
Consiste es ajustar, de forma secuencial, múltiples weak learners (modelos sencillos que predicen solo ligeramente mejor que lo esperado por azar). Cada nuevo modelo emplea información del modelo anterior para aprender de sus errores, mejorando iteración a iteración.

📌 Notas:

  • En el caso de los árboles de predicción, un weak learners se consigue utilizando árboles con muy pocas ramificaciones.

  • A diferencia del método de bagging (random forest), el boosting no hace uso de muestreo repetido (bootstrapping), la diferencia entre los árboles que forman el ensemble se origina por que la importancia (peso) de las observaciones va cambiando en cada iteración.

    📚 Referencias:

  • Cienciadedatos.net

Una buena fuente de aprendizaje de Chris Albon - https://chrisalbon.com/

Donde puedo encontrar el link para las flashcards que menciona en el video?

Gradient Boosting Tree o Gradient Boosted Regression Trees (GBRT), es una familia de algoritmos usados tanto en clasificación como en regresión basados en la combinación de modelos predictivos débiles (weak learners), utilizando normalmente árboles de decisión para crear un modelo predictivo fuerte. La generación de los árboles de decisión débiles se realiza de forma secuencial, creándose cada árbol de forma que corrija los errores del árbol anterior.

  • Random Forest y Gradient Boosted Trees. muy usados en las competencias de kaggle.com
  • Lo que se hace el #1 es entrenar varios GBT a mano y después hace un ensemble de éstos GBT, los pone a votar y hace la predicción basado en los votos.
    Random Forest: Tienen muchos decisión tree por debajo.

En mi caso los scores que me arroja son: 0,965656 y 0,915139 para lo forest y gradient respectivamente, habrá que ver como regular los parámetros.

buena explicacion

Excelente la clase. Aprendiendo desde el enfoque los modelos lineales hasta estos más elaborados y poderosos y que ganan competencias

Al mirar comentarios, ¿a qué se debe que se obtengan resultados en los scores? (a veces mejoran y otras no)

Random Forest y Gradient Boosting Trees, son del tipo Modelo Ensemble, que son un conjunto de varios modelos que son entrenados por separado, para luego votar o se promedian para obtener una mejor predicción.

interesante clase

Un ensemble es un conjunto de modelos de machine learning. Cada modelo produce una predicción diferente. Las predicciones de los distintos modelos se combinan para obtener una única predicción.

La ventaja que obtenemos al combinar modelos diferentes es que como cada modelo funciona de forma diferente, sus errores tienden a compensarse. Esto resulta en un mejor error de generalización.