Introducción a árboles de decisión

1

¿Qué son los árboles de decisión?

2

Tu primer árbol de decisión con scikit-learn

3

Análisis de datos para tu primer árbol de decisión

4

Entrenamiento y evaluación de árbol de decisión con scikit-learn

5

¿Cómo funcionan los árboles de decisión?

6

¿Cuándo usar árboles de decisión?

Quiz: Introducción a árboles de decisión

Proyecto práctico: árboles de decisión

7

Conociendo problema a resolver y dataset de clasificación

8

Análisis exploratorio de datos para árbol de decisión

9

Procesamiento de datos para el entrenamiento de árbol de decisión

10

Entrenamiento de modelo de clasificación con árbol de decisión

11

¿Cómo evaluar un modelo de árbol de decisión?

12

Evaluación de resultados del modelo de árbol de decisión

Quiz: Proyecto práctico: árboles de decisión

Introducción a random forest

13

¿Qué son los random forest o bosques aleatorios?

14

Tu primer random forest con scikit-learn

15

Análisis de datos para tu primer random forest

16

Entrenamiento de tu primer modelo de random forest con scikit-learn

17

Evaluación de tu primer modelo de random forest con scikit-learn

18

¿Cómo funcionan los random forest?

19

¿Cuándo utilizar random forest?

Quiz: Introducción a random forest

Proyecto práctico: random forest

20

Entrenamiento de modelo de clasificación de carros con random forest

21

Evaluación de resultados del modelo de clasificación con random forest

Quiz: Proyecto práctico: random forest

Conclusión

22

Proyecto final y cierre

23

Comparte tu proyecto de Random Forest y obtén tu certificado

No tienes acceso a esta clase

¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera

¿Cómo funcionan los árboles de decisión?

5/23
Recursos

Aportes 4

Preguntas 0

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad?

En este sitio también podemos encontrar información adicional:
Decisions Trees: https://www.geeksforgeeks.org/decision-tree/

Los arboles de decisión son una estructura de datos formada por nodos, cada nodo representa una decisión. Para construir un modelo de ML con arboles de decisión, cada feature va a representar un nodo. La forma en que se elige el orden del feature para los nodos, es que se elige la variable que mejor separa los datos. Hay diferentes métricas para eso: **Métrica Gini:** Mide la impureza de los divisiones. Mide que tan mezcladas están las clases. Queremos que este valor sea bajo. ![](https://static.platzi.com/media/user_upload/image-1022ab3a-c7c0-4e24-85e4-19312d4dca38.jpg) -p: Es la proporción que tenemos de cada clase. **Métrica Entropía** Basada en la teoría de la información, busca reducir la incertidumbre de la información. ![](https://static.platzi.com/media/user_upload/image-81bab1f1-ea74-4c7f-bdf4-005198e8a0a2.jpg) **Ganancia:** Nos permite medir la capacidad para reducir la impureza o incertidumbre. ![](https://static.platzi.com/media/user_upload/image-91e2b3df-703b-4950-ab82-6787e184f529.jpg) ![](https://static.platzi.com/media/user_upload/image-f5e6808b-c83e-4768-b4ca-a27649451e23.jpg) -D: el subconjunto de datos resultante de la división El proceso para construir un árbol: **1.-** Todos los features entran al nodo raíz y se calcula Gini. **2.-** Con cada feature se prueban las divisiones posibles, y para cada feature se calcula el gini. **3.-** Se calcula la ganancia para cada feature. El feature con mayor ganancia se selecciona para dividir el nodo, pues es el que mejor separa los datos. 4.- Para los siguientes nodo se repite el proceso recursivamente. Este video les puede ayudar a profundizar: <https://www.youtube.com/watch?v=LDRbO9a6XPU>
Para que sea más claro: * **Nodo raíz**: Es el primer nodo del árbol, que contiene todo el conjunto de datos y se divide en subconjuntos en función de una característica que maximiza la separación. Es el punto de inicio de las decisiones. * **División (Split)**: Es el proceso mediante el cual el árbol de decisión separa los datos en base a una característica. Cada nodo se divide en dos o más ramas en función de una condición de las características. * **Nodo de decisión**: Es un nodo interno del árbol que representa una pregunta o una condición basada en una característica. Dependiendo del resultado de esa condición (por ejemplo, "¿La edad es mayor a 30?"), el árbol sigue una rama u otra. * **Nodo de hoja o terminal**: Son los nodos finales del árbol donde no hay más divisiones. Estos nodos contienen la predicción final de la clase o valor que se está estimando. * **Poda (Pruning)**: Es una técnica utilizada para simplificar un árbol de decisión al eliminar ramas que tienen poca importancia o no mejoran significativamente el modelo. Ayuda a reducir el sobreajuste (overfitting). * **Rama / Subárbol**: Es una subsección del árbol de decisión. Cada rama se origina a partir de un nodo y representa una serie de decisiones que conducen a un nodo terminal. * **Nodo madre/padre e hijo**: El nodo padre es un nodo que se divide en dos o más nodos hijos. Cada nodo hijo es el resultado de una división del nodo padre.
Hace falta más rigurosidad en muchas cosas. Siento que es mejor dar más clase teórica. :)