Mario Alexander Vargas Celis
Los árboles de decisión son modelos de aprendizaje supervisado que se utilizan para resolver problemas de clasificación y regresión. Su estructura se asemeja a un árbol, donde cada nodo interno representa una pregunta o condición sobre una característica (feature), cada rama representa el resultado de esa condición, y cada hoja representa una predicción final (una clase o un valor numérico).
🔍 ¿Cómo funcionan?
- División del conjunto de datos: En cada nodo, el algoritmo selecciona la característica que mejor divide los datos según algún criterio (como Gini, Entropía o MSE).
- Construcción del árbol:
El proceso se repite de forma recursiva dividiendo el conjunto en subconjuntos hasta que:
- Todos los datos en un nodo pertenecen a la misma clase.
- Se alcanza una profundidad máxima.
- Otras condiciones de parada.
- Predicción: Para predecir con un árbol, se sigue una ruta desde la raíz hasta una hoja, tomando decisiones según los valores de entrada.
✳️ Ventajas
- Fácil de entender e interpretar.
- No requiere escalado de variables.
- Puede manejar datos tanto categóricos como numéricos.
- Permite visualizar cómo se toman las decisiones.
⚠️ Desventajas
- Pueden sobreajustarse fácilmente si no se podan.
- Sensibles a pequeñas variaciones en los datos.
- No suelen ser tan precisos como modelos más complejos (aunque se pueden combinar en Random Forests o Gradient Boosting).
🔧 Ejemplo en Python con Scikit-learn
from sklearn.tree import DecisionTreeClassifier
modelo = DecisionTreeClassifier() modelo.fit(X_train, y_train) predicciones = modelo.predict(X_test)
