Introducci贸n al curso

1

Introducci贸n al curso de Machine Learning Aplicado con Python

C贸mo definir un problema de Machine Learning

2

Importancia de definir el problema en Machine Learning

3

Predecir el ingreso de pel铆culas de IMDB

4

Terminolog铆a de Machine Learning

5

Materiales del curso: Notebooks de Jupyter

El ciclo de ingenier铆a de Machine Learning

6

El ciclo de Machine Learning

Montar un ambiente de trabajo Pydata

7

Configuraci贸n del ambiente de trabajo con Google Collab

8

Qu茅 es y c贸mo se utiliza Numpy

9

Arrays en Numpy

10

Operaciones aritm茅ticas en Numpy

Preparaci贸n de los datos

11

Cargar los datos necesarios para el proyecto

12

Inspecci贸n de los tipos de datos

13

Inspecci贸n cuantitativa y de salud de los datos

14

Limpiar los datos

15

Manejo de datos faltantes

Modelaci贸n y evaluaci贸n

16

El objeto estimador de Scikit-Learn

17

Implementar un modelo de regresi贸n (Lasso)

18

Ajustando Modelos de Machine Learning, Underfitting y Overfitting

19

Evaluando el modelo

Feature Engineering

20

Feedback del modelamiento

21

An谩lisis exploratorio

22

Continuando con el an谩lisis exploratorio

23

Creaci贸n de features

24

Creando m谩s features

25

Selecci贸n de features y la maldici贸n de la dimensionalidad

Modelos y Evaluaci贸n m谩s avanzada

26

Cross Validation

27

Selecci贸n de modelos

28

Curvas de aprendizaje

29

Introducci贸n a Ensembles y 脕rboles de Decisi贸n

30

Random Forest y Gradient Boosting Trees

31

Optimizaci贸n de hiperpar谩metros

32

Conclusiones del curso

A煤n no tienes acceso a esta clase

Crea una cuenta y contin煤a viendo este curso

Random Forest y Gradient Boosting Trees

30/32
Recursos

Aportes 19

Preguntas 4

Ordenar por:

驴Quieres ver m谩s aportes, preguntas y respuestas de la comunidad? Crea una cuenta o inicia sesi贸n.

Muchachos obtuve un error en Colab. con la variable
results= cross_validate(forest,X,y,cv=5,scoring=鈥榬2鈥).

Lo Solucione poni茅ndole la flag: return_train_score=True.

Al final me quedo as铆:
results= cross_validate(forest,X,y,cv=5,scoring=鈥榬2鈥,return_train_score=True)

Por si a alguien le sirve. Exitos =D.

Recuerden a帽adir al c贸digo la parte de mostrar el resultado de train_score para que no arroje error:

results = cross_validate(forest,X,y,cv=5,scoring='r2',
                         return_train_score=True)

Ahora hay que agregar el par谩metro return_train_score=True en la funci贸n cross_validate para que funcione correctamente.
De la siguiente forma:

Sino puede que aparezca el siguiente error:

Esto tambi茅n aparece en la documentaci贸n oficial: https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.cross_validate.html

comparto las ayudas de Crhis Albon:

https://chrisalbon.com/

Puntos clave:

Los submodelos de random forest tiene buen poder de predicci贸n.
Los arboles del bosque no tienen correlaci贸n o tienen mala/baja correlaci贸n.

Esto hace que sea 鈥渏usto鈥 y poderoso.

馃攧 Boosting
Consiste es ajustar, de forma secuencial, m煤ltiples weak learners (modelos sencillos que predicen solo ligeramente mejor que lo esperado por azar). Cada nuevo modelo emplea informaci贸n del modelo anterior para aprender de sus errores, mejorando iteraci贸n a iteraci贸n.

馃搶 Notas:

  • En el caso de los 谩rboles de predicci贸n, un weak learners se consigue utilizando 谩rboles con muy pocas ramificaciones.

  • A diferencia del m茅todo de bagging (random forest), el boosting no hace uso de muestreo repetido (bootstrapping), la diferencia entre los 谩rboles que forman el ensemble se origina por que la importancia (peso) de las observaciones va cambiando en cada iteraci贸n.

    馃摎 Referencias:

  • Cienciadedatos.net

Una buena fuente de aprendizaje de Chris Albon - https://chrisalbon.com/

Donde puedo encontrar el link para las flashcards que menciona en el video?

Gradient Boosting Tree o Gradient Boosted Regression Trees (GBRT), es una familia de algoritmos usados tanto en clasificaci贸n como en regresi贸n basados en la combinaci贸n de modelos predictivos d茅biles (weak learners), utilizando normalmente 谩rboles de decisi贸n para crear un modelo predictivo fuerte. La generaci贸n de los 谩rboles de decisi贸n d茅biles se realiza de forma secuencial, cre谩ndose cada 谩rbol de forma que corrija los errores del 谩rbol anterior.

  • Random Forest y Gradient Boosted Trees. muy usados en las competencias de kaggle.com
  • Lo que se hace el #1 es entrenar varios GBT a mano y despu茅s hace un ensemble de 茅stos GBT, los pone a votar y hace la predicci贸n basado en los votos.
    Random Forest: Tienen muchos decisi贸n tree por debajo.

En mi caso los scores que me arroja son: 0,965656 y 0,915139 para lo forest y gradient respectivamente, habr谩 que ver como regular los par谩metros.

buena explicacion

Excelente la clase. Aprendiendo desde el enfoque los modelos lineales hasta estos m谩s elaborados y poderosos y que ganan competencias

Al mirar comentarios, 驴a qu茅 se debe que se obtengan resultados en los scores? (a veces mejoran y otras no)

Random Forest y Gradient Boosting Trees, son del tipo Modelo Ensemble, que son un conjunto de varios modelos que son entrenados por separado, para luego votar o se promedian para obtener una mejor predicci贸n.

interesante clase

Un ensemble es un conjunto de modelos de machine learning. Cada modelo produce una predicci贸n diferente. Las predicciones de los distintos modelos se combinan para obtener una 煤nica predicci贸n.

La ventaja que obtenemos al combinar modelos diferentes es que como cada modelo funciona de forma diferente, sus errores tienden a compensarse. Esto resulta en un mejor error de generalizaci贸n.