Los Random Forest o Bosques Aleatorios son un algoritmo de aprendizaje automático supervisado que se utiliza tanto para clasificación como para regresión.
🌲 ¿Qué son?
Un Random Forest es un conjunto (ensamble) de muchos árboles de decisión que trabajan juntos. En lugar de confiar en un solo árbol de decisión, este método construye varios árboles y combina sus resultados para obtener una predicción más precisa y robusta.
🔍 ¿Cómo funciona?
- Se crean muchos árboles de decisión, cada uno entrenado con una muestra aleatoria del dataset (con reemplazo, técnica llamada bootstrap).
- Para cada árbol, al momento de decidir una división, solo se consideran aleatoriamente un subconjunto de las variables.
- Para clasificación: se toma el voto mayoritario de todos los árboles.
- Para regresión: se toma el promedio de las predicciones de todos los árboles.
🎯 Ventajas:
- ✅ Reduce el sobreajuste (overfitting) de un solo árbol.
- ✅ Es más preciso y estable que un árbol de decisión individual.
- ✅ Funciona bien incluso sin ajustes finos de hiperparámetros.
- ✅ Puede manejar datos faltantes y variables categóricas.
⚠️ Desventajas:
- ❌ Es más lento y consume más memoria que un solo árbol.
- ❌ Difícil de interpretar (a diferencia de un solo árbol de decisión).
📊 Ejemplo de uso:
Si estás clasificando tipos de vehículos (eléctrico, híbrido, gasolina) a partir de datos como peso, potencia, y consumo, un modelo Random Forest puede ofrecer muy buena precisión al combinar decisiones de múltiples árboles.