Los arboles de decisión son una estructura de datos formada por nodos, cada nodo representa una decisión.
Para construir un modelo de ML con arboles de decisión, cada feature va a representar un nodo. La forma en que se elige el orden del feature para los nodos, es que se elige la variable que mejor separa los datos.
Hay diferentes métricas para eso:
Métrica Gini: Mide la impureza de los divisiones. Mide que tan mezcladas están las clases. Queremos que este valor sea bajo.
-p: Es la proporción que tenemos de cada clase.
Métrica Entropía
Basada en la teoría de la información, busca reducir la incertidumbre de la información.
Ganancia:
Nos permite medir la capacidad para reducir la impureza o incertidumbre.
-D: el subconjunto de datos resultante de la división
El proceso para construir un árbol:
1.- Todos los features entran al nodo raíz y se calcula Gini.
2.- Con cada feature se prueban las divisiones posibles, y para cada feature se calcula el gini.
3.- Se calcula la ganancia para cada feature. El feature con mayor ganancia se selecciona para dividir el nodo, pues es el que mejor separa los datos.
4.- Para los siguientes nodo se repite el proceso recursivamente.
Este video les puede ayudar a profundizar: