Los arboles de decisión, son bastante usuales para determinar una clasificación de los datos, sin embargo un tema de gran interés y que hace que no sea tan sencillo el uso de los árboles de decición es cuando se tienen una gran cantidad de atributos (features) en los datos, el problema esta en el momento de determinar cuál es la mejor forma de realizar los nodos del árbol, es decir, qué atributos son de mayor relevancia que otros para llegar a la clasificación correcta de una manera más rápida y efectiva (recordemos que en los nodos del arbol es donde se va realizando la clasificación y en cada nodo se concidera un atributo o feature de nuestros datos).
EJEMPLO:
Consideremos que queremos determinar si a ciertas personas les interesa comprar una casa o no y contamos con una base de datos de personas que ya laboran con los siguientes atributos o features: Hombre/Mujer, Edad, Salario, Soltero/Casado, Tiene hijos o no, Lugar de residencia.
Con estos seis atributos necesitamos llegar a una clasificación de las personas sin son posibles compradores o no. Es super importante escoger muy bien la primer nodo de nuestro arbol de decisión debido a la pérdida de información valiosa que puede suceder, a esta perdida se le llama Entropía de la Información, tenemos que buscar la manera más óptima para que la Entropía sea mínima.
Sin entrar en detalles, entre menos números de nodos (pregutas si/no) tenga nuestro árbol, menos Entropía habrá, es decir, tenemos una ganancia de información muy rápida. Suponiendo que tenemos a la persona enfrente para hacerle las preguntas que quieras para inferir si es un potencial comprador de una casa o no. ¿Cuales serían las preguntas y orden de ellas, de tal manera que obtengas esa inferencia con el menor de preguntas hechas?(escogelas de los seis atributos de arriba).
Es aquí en donde entra la correlación de los atributos con la llamada etiqueta, si la correlación es alta (probabilidad alta), entonces éste sera un buen atributo para tomar en cuenta en nuestro árbol de desición y tener una menor entropía.
Siguiendo con nuestro ejemplo podemos creer que los atributos con bastante relación con la etiqueta posible comprador de casa o no sería salario e hijos/no.
Los arboles de desición eligen el mejor atributo para realizar sus nodos principales dependiendo la correlación que tengan con la etiqueta. sin embargo para sets de datos con bastantes atributos un arbol de desición empieza a ser no tan preciso y una manera de superarlo es con muchisimos árboles que consideran cada uno un atributo diferente (random forest).
Como podemos ver la entropía de la información en Machine Learning y algoritmos de Clasificación es muy importante y es un tema mucho más extenso y complicado en la rama de Teoría de la Información, si quieres adentrarte más en el tema te dejo los siguientes links
https://www.youtube.com/watch?v=69-YUSazuic&list=PLbg3ZX2pWlgKDVFNwn9B63UhYJVIerzHL
http://dsw.users.sonic.net/entropy.html
https://cs.uns.edu.ar/~ldm/mypage/data/ss/info/teoria_de_la_informacion1.pdf
Hola, de los Links que dejaste solo funciona el segundo. Podrías verificar por favor el Youtube(1ro) y del PDF (3ro).
Gracias de antemano.