Introducción a árboles de decisión

1

¿Qué son los árboles de decisión?

2

Tu primer árbol de decisión con scikit-learn

3

Análisis de datos para tu primer árbol de decisión

4

Entrenamiento y evaluación de árbol de decisión con scikit-learn

5

¿Cómo funcionan los árboles de decisión?

6

¿Cuándo usar árboles de decisión?

Quiz: Introducción a árboles de decisión

Proyecto práctico: árboles de decisión

7

Conociendo problema a resolver y dataset de clasificación

8

Análisis exploratorio de datos para árbol de decisión

9

Procesamiento de datos para el entrenamiento de árbol de decisión

10

Entrenamiento de modelo de clasificación con árbol de decisión

11

¿Cómo evaluar un modelo de árbol de decisión?

12

Evaluación de resultados del modelo de árbol de decisión

Quiz: Proyecto práctico: árboles de decisión

Introducción a random forest

13

¿Qué son los random forest o bosques aleatorios?

14

Tu primer random forest con scikit-learn

15

Análisis de datos para tu primer random forest

16

Entrenamiento de tu primer modelo de random forest con scikit-learn

17

Evaluación de tu primer modelo de random forest con scikit-learn

18

¿Cómo funcionan los random forest?

19

¿Cuándo utilizar random forest?

Quiz: Introducción a random forest

Proyecto práctico: random forest

20

Entrenamiento de modelo de clasificación de carros con random forest

21

Evaluación de resultados del modelo de clasificación con random forest

Quiz: Proyecto práctico: random forest

Conclusión

22

Proyecto final y cierre

23

Comparte tu proyecto de Random Forest y obtén tu certificado

No tienes acceso a esta clase

¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera

¿Qué son los random forest o bosques aleatorios?

13/23
Recursos

Aportes 5

Preguntas 0

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad?

Random Forest

Bosques aleatorios en sklearn (RandomForestClassifier y RandomForestRegressor), cada árbol del conjunto se construye a partir de una muestra de arranque del conjunto de entrenamiento.
.
Al dividir cada nodo durante la construcción de un árbol, la mejor división se encuentra entre todas las características de entrada o un subconjunto aleatorio de tamaño max_features(en sklearn).
.
El propósito es disminuir la varianza del estimador forest. Los árboles de decisión individuales suelen exhibir una gran variación y tienden a sobreajustarse.
.
En la práctica, la reducción de la varianza suele ser significativa, por lo que genera un mejor modelo general.

La implementación de scikit-learn combina clasificadores promediando su predicción probabilística, en lugar de permitir que cada clasificador vote por una sola clase.

Fuente doc sklearn: https://scikit-learn.org/stable/modules/ensemble.html#random-forests

Random foreste es un método de ensamble que se basa en la combinación de múltiples arboles de decisión, al igual que el árbol de decisión, es un algoritmo de aprendizaje supervisado, que puede utilizarse en problemas de clasificación como de regresión.

¿Que es un ensamble?

  • También conocidos como métodos combinados.
  • Intentan ayudar a mejorar el rendimiento de los modelos de
    machine learning, utilizando todas las bondades de los arboles de decisión.
  • Proceso mediante el cual se construyen estratégicamente
    varios modelos de machine learning para resolver un problema particular.
Un **Random Forest** es un conjunto de muchos árboles de decisión que trabajan en conjunto. La idea principal es que en lugar de entrenar un solo árbol de decisión, se entrena una colección de árboles y se toma la **decisión promedio** o **mayoritaria** entre ellos. Cada árbol se entrena con una muestra diferente de los datos, y las predicciones se combinan para obtener un resultado más robusto.

Qué es un Random Forest!

  • Un Random Forest (Bosque Aleatorio) es un algoritmo de aprendizaje automático que se utiliza para la clasificación y la regresión. Es una técnica de conjunto o ensamble que combina múltiples árboles de decisión para tomar decisiones más precisas y robustas. Fue propuesto por Leo Breiman en 2001 y se ha convertido en una técnica muy popular en el aprendizaje automático debido a su capacidad para producir modelos poderosos y versátiles.

Aquí hay algunas características clave de los Random Forests:

  1. Ensemble Learning: Los Random Forests se basan en el concepto de ensemble learning, que implica combinar múltiples modelos para mejorar el rendimiento predictivo. En el caso de Random Forests, los modelos individuales son árboles de decisión.

  2. Bagging (Bootstrap Aggregating): El proceso de construcción de un Random Forest implica la creación de múltiples árboles de decisión, cada uno entrenado en una muestra aleatoria (con reemplazo) de los datos de entrenamiento. Esto se conoce como bagging. Cada árbol “ve” una parte diferente de los datos, lo que reduce la probabilidad de sobreajuste.

  3. Random Feature Selection: Además de usar muestras aleatorias de datos, los Random Forests también utilizan selección aleatoria de características en cada árbol. En lugar de considerar todas las características para cada división de nodo, se elige un subconjunto aleatorio de características. Esto ayuda a decorrelacionar los árboles y mejora la diversidad de los modelos en el bosque.

  4. Votación y Promedio: Cuando se trata de clasificación, un Random Forest toma una decisión votando entre los árboles. Cada árbol emite su propia predicción y la clase que obtiene más votos se toma como la predicción final. En el caso de regresión, se promedian las predicciones de los árboles para obtener la predicción final.

  5. Robustez y Generalización: Debido a su naturaleza de conjunto y su capacidad para manejar automáticamente el sobreajuste, los Random Forests tienden a producir modelos robustos y generalizables que funcionan bien en una variedad de conjuntos de datos.

Los Random Forests se utilizan en una amplia gama de aplicaciones de aprendizaje automático,
incluyendo clasificación, regresión, detección de anomalías y más. Son particularmente útiles cuando se trabaja con conjuntos de datos grandes y complejos, y a menudo superan a los árboles de decisión individuales en términos de precisión y estabilidad.

supuestamente hice el curso supercondensado de ML de gabriel gomila en Udemy y ni idea que era un RF hasta hoy.