¿Cómo funcionan los random forest?

Clase 18 de 23 • Curso de Decision Trees y Random Forest con Python y scikit-learn

Contenido del curso

Introducción a árboles de decisión

Proyecto práctico: árboles de decisión

Introducción a random forest

Proyecto práctico: random forest

20
Entrenamiento de modelo de clasificación de carros con random forest
04:28 min
21
Evaluación de resultados del modelo de clasificación con random forest
11:34 min

Conclusión

Tomar examen

Comentarios

Nixon Rolando García Ramírez

student•

Este pequeño texto les puede ayudar a profundizar en el tema https://www.cienciadedatos.net/documentos/py08_random_forest_python , sin embargo, con la explicacion de la profe se entiende perfectamente.

Juan R. Vergara M.

student•

👍📝

Piero Olivas

student•

Excelente! 👩🏻💻

Sebastián Franco

student•

El mayor problema de los árboles de decisión base es que tienden mucho al overfitting. Al implementar un cierto nivel de profundidad, este va a memorizar inevitablemente la data en vez de generalizar una solución

Los Random Forest son entonces un mecanismo mediante el cuál acoplamos múltiples Decision Trees, cada uno inicializado bajo un feature diferente, este va a tomar una decisión individual de una clase o una valor lineal, luego, la cantidad de estimadores dada va a hacer un voto mayoritario (en el caso de la clasificación) o un promedio (en el caso de la regresión), este será el resultado final

Mario Alexander Vargas Celis

student•

Los Random Forest (o bosques aleatorios) son un algoritmo de aprendizaje automático supervisado basado en árboles de decisión, pero mejorado gracias a la combinación de muchos árboles. Su objetivo es hacer predicciones más precisas, robustas y menos propensas al sobreajuste que un único árbol.

🌳 ¿Cómo funciona un Random Forest?

Creación de múltiples árboles de decisión (forest):
- En lugar de construir un solo árbol, el Random Forest construye muchos árboles (por ejemplo, 100 o 500).
- Cada árbol se entrena con una muestra aleatoria del conjunto de datos original (con reemplazo, es decir, bootstrap).
Selección aleatoria de características:
- Cuando un árbol va a hacer una división en un nodo, no mira todas las características, sino que selecciona un subconjunto aleatorio.
- Esto aumenta la diversidad entre los árboles y mejora la generalización.
Votación o promedio de predicciones:
- Para clasificación, cada árbol "vota" por una clase, y gana la clase más votada.
- Para regresión, se promedia la predicción de todos los árboles.

🎯 Ejemplo simple (clasificación)

Supongamos que quieres predecir si un cliente comprará o no un producto.

Entrenas 100 árboles, cada uno con diferentes subconjuntos de datos y características.
Un cliente nuevo llega. Cada árbol da su predicción (sí o no).
El resultado final será el que tenga más votos.

⚖️ Ventajas del Random Forest

✅ Reduce el sobreajuste comparado con un solo árbol ✅ Funciona bien en la mayoría de los problemas (clasificación y regresión) ✅ Puede manejar datos faltantes y variables categóricas o numéricas ✅ Da una medida de importancia de las variables (feature_importances_)

⚠️ Desventajas

❌ Menos interpretables que un solo árbol ❌ Consumen más recursos (RAM/tiempo) ❌ El entrenamiento puede ser más lento con muchos árboles o muchos datos

🔧 Parámetros clave en Scikit-learn

from sklearn.ensemble import RandomForestClassifier

modelo = RandomForestClassifier( n_estimators=100, # número de árboles max_depth=None, # profundidad máxima del árbol max_features='sqrt', # número de features aleatorios por split bootstrap=True, # si usar muestreo con reemplazo random_state=42 )

Jesus Adrian Berrio Valdes

student•

Cual es la diferencia entre un ramdom forest y hacer bagging?

Layla Scheli

teacher•

Hola Jesus! te paso info:

"Random Forest es una extensión del Bagging, pero con la adición de la aleatorización de las características en la construcción de los árboles, lo que ayuda a mejorar la diversidad y la capacidad de generalización del modelo. Mientras que Bagging se centra en el muestreo bootstrap, Random Forest incorpora una mayor aleatorización para reducir la correlación entre los modelos base y mejorar la robustez del ensamblaje."

¿Cómo funcionan los random forest?

Introducción a árboles de decisión

¿Qué son los árboles de decisión?

Tu primer árbol de decisión con scikit-learn

Análisis de datos para tu primer árbol de decisión

Entrenamiento y evaluación de árbol de decisión con scikit-learn

¿Cómo funcionan los árboles de decisión?

¿Cuándo usar árboles de decisión?

Proyecto práctico: árboles de decisión

Conociendo problema a resolver y dataset de clasificación

Análisis exploratorio de datos para árbol de decisión

Procesamiento de datos para el entrenamiento de árbol de decisión

Entrenamiento de modelo de clasificación con árbol de decisión

¿Cómo evaluar un modelo de árbol de decisión?

Evaluación de resultados del modelo de árbol de decisión

Introducción a random forest

¿Qué son los random forest o bosques aleatorios?

Tu primer random forest con scikit-learn

Análisis de datos para tu primer random forest

Entrenamiento de tu primer modelo de random forest con scikit-learn

Evaluación de tu primer modelo de random forest con scikit-learn