Análisis de datos para tu primer árbol de decisión

Curso de Decision Trees y Random Forest con Python y scikit-learn

Contenido del curso

Introducción a árboles de decisión

Proyecto práctico: árboles de decisión

Introducción a random forest

Proyecto práctico: random forest

20
Entrenamiento de modelo de clasificación de carros con random forest
04:28 min
21
Evaluación de resultados del modelo de clasificación con random forest
11:34 min

Conclusión

Tomar examen

Análisis de datos para tu primer árbol de decisión

Mario Alexander Vargas Celis

Estudiante

Aquí tienes un análisis básico de los datos antes de construir tu primer árbol de decisión. Usaremos el dataset Iris como ejemplo, que es ideal para comenzar porque:

Es pequeño y limpio.
Tiene 150 observaciones.
Tiene 4 características numéricas.
Su objetivo (target) es predecir el tipo de flor (Setosa, Versicolor o Virginica).

🔍 1. Cargar y entender los datos

from sklearn.datasets import load_iris import pandas as pd

iris = load_iris() X = pd.DataFrame(iris.data, columns=iris.feature_names) y = pd.Series(iris.target, name='species')

X['species'] = y X.head()

Salida esperada (primeras filas):

sepal length (cm)sepal width (cm)petal length (cm)petal width (cm)species5.13.51.40.204.93.01.40.20...............

species: 0 = Setosa, 1 = Versicolor, 2 = Virginica

📊 2. Estadísticas descriptivas

X.describe()

Esto te dará un resumen de los valores mínimos, máximos, medias, etc. Sirve para:

Ver si hay valores extremos (outliers).
Ver si las escalas son muy distintas.
Observar la distribución de cada variable.

📈 3. Distribución de clases

import matplotlib.pyplot as plt import seaborn as sns

sns.countplot(x='species', data=X) plt.title('Distribución de clases') plt.xticks([0, 1, 2], iris.target_names) plt.show()

🔗 4. Correlaciones

sns.heatmap(X.drop('species', axis=1).corr(), annot=True, cmap='coolwarm') plt.title('Matriz de correlación') plt.show()

Esto ayuda a ver qué características están más relacionadas entre sí.

🧠 5. Observaciones clave

Setosa es fácil de separar por su pétalo corto y delgado.
Las clases Versicolor y Virginica son más parecidas.
Las características más importantes suelen ser el largo y ancho del pétalo.

FELIX DAVID CORDOVA GARCIA

Layla Scheli

Profesor

Alvaro Isaías Acuña

Antonio Demarco Bonino

Leandro Tenjo

Arazani Balcazar Martínez

Rodrigo Consuelos

Nestor Ramirez

Julián Cárdenas

Iván Roberto Rivas Celeita

Angelo Augusto Gallici Aquino

Miguel Angel Herrera Chavez

David Duque Uribe

Miguel Augusto Gutierrez Ochoa

Ximena Ruiz de la peña Capitaine

Oscar David Bocanegra Capeara

Jorge Fernando De Los Rios De Los Rios

Sebastián Franco

Juan Acevedo

Diego Andrés Rojas Pinzón

Isaac Bryan Ascanoa Roncall

Análisis de datos para tu primer árbol de decisión

Introducción a árboles de decisión

¿Qué son los árboles de decisión?

Tu primer árbol de decisión con scikit-learn