Análisis exploratorio de datos para árbol de decisión

Clase 8 de 23 • Curso de Decision Trees y Random Forest con Python y scikit-learn

Contenido del curso

Introducción a árboles de decisión

Proyecto práctico: árboles de decisión

Introducción a random forest

Proyecto práctico: random forest

20
Entrenamiento de modelo de clasificación de carros con random forest
04:28 min
21
Evaluación de resultados del modelo de clasificación con random forest
11:34 min

Conclusión

Tomar examen

Comentarios

FELIX DAVID CORDOVA GARCIA

student•

col_names=["buying","maint","doors","persons","lug_boot","safety","class"]

Helbert Otero

student•

si os pide abrir una cuenta y no queréis, podéis llamar directamente a la url para obtener el dataset:

pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/car/car.data', header=None)

Layla Scheli

teacher•

Gracias Helbert :) por tu aporte

Juan R. Vergara M.

student•

Gracias 👍💡

Mauricio Combariza

student•

Por si acaso les pone problema con las comillas dobles, se los paso con comillas simples.

col_names=['buying','maint','doors','persons','lug_boot','safety','class']
df_car.columns = col_names

Jorge Hernán López

student•

Y el nombre de nuestro objeto es df_car.... No se podía otro mejor :D

José Iván Sandoya

student•

Sería necesario convertir a entero los valores de "doors" y "persons"?

Originalmente son de tipo "object".

Layla Scheli

teacher•

Si la vas a utilizar podes hacerlo :)

Juan R. Vergara M.

student•

Like por más cursos como este 👍

Layla Scheli

teacher•

Pronto tendremos mas :)

reacosta7383

student•

df_car.columns = ['buying', 'main', 'doors', 'persons', 'lug_boot', 'safety', 'class']

Sebastián Franco

student•

Chequeando el dataset este no tiene nombres de columnas, por lo que debemos asignarlos, además de conocer las dimensiones y los tipos de datos del dataframe


\# Rename df columns

col\_names = \["buying", "maint", "doors", "persons", "lug\_boot", "safety", "class"]

df\_car.columns = col\_names



\# Check df dimensions

df\_car.shape

\# (1728, 7)



\# Check all data types - all are categorical apparently

df\_car.dtypes



\# buying      object

\# maint       object

\# doors       object

\# persons     object

\# lug\_boot    object

\# safety      object

\# class       object

\# dtype: object

Ahora se verificará las clases con value count y se verificará si hay valores null por columna


\# Exploring target variable

df\_car\["class"].value\_counts()



\# class

\# unacc    1210

\# acc       384

\# good       69

\# vgood      65

\# Name: count, dtype: int64



\# Check missing values

df\_car.isnull().sum()



\# buying      0

\# maint       0

\# doors       0

\# persons     0

\# lug\_boot    0

\# safety      0

\# class       0

\# dtype: int64

En este caso se puede ver que la clase unacc es la más dominantes y que no hay missing data

Juan Acevedo

student•

Quisiera saber que se hace en estos casos ya que la variable objetivo tiene un desbalanceo muy grande

Mario Alexander Vargas Celis

student•

El análisis exploratorio de datos (EDA) es un paso clave antes de aplicar un algoritmo como un árbol de decisión, ya que te permite:

Entender la estructura y calidad del dataset.
Detectar valores faltantes o atípicos.
Visualizar relaciones entre variables.
Evaluar qué variables podrían ser importantes para la predicción.

✅ Pasos del Análisis Exploratorio de Datos (EDA) para Árbol de Decisión

1. Cargar los datos y revisar estructura

import pandas as pd

df = pd.read_csv('autos.csv') # ejemplo print(df.head()) print(df.info()) print(df.describe())

2. Identificar la variable objetivo (target)

Verifica si es una variable categórica (clasificación) o numérica (regresión).

print(df['tipo_auto'].value_counts())

Ejemplo de categorías: ['fósil', 'eléctrico', 'híbrido']

3. Visualizar la distribución de la variable target

import seaborn as sns import matplotlib.pyplot as plt

sns.countplot(x='tipo_auto', data=df) plt.title('Distribución del tipo de automóvil') plt.show()

4. Revisar valores nulos

print(df.isnull().sum())

Soluciones:

Imputar valores nulos (media, moda, etc.)
Eliminar columnas o filas con muchos nulos

5. Revisar correlaciones entre variables numéricas

Aunque los árboles no necesitan variables escaladas ni normalizadas, es útil conocer la relación entre variables.

sns.heatmap(df.corr(), annot=True, cmap='coolwarm')

6. Codificar variables categóricas

Los árboles pueden trabajar con etiquetas numéricas, así que debes convertir las categorías:

from sklearn.preprocessing import LabelEncoder

le = LabelEncoder() df['tipo_auto'] = le.fit_transform(df['tipo_auto'])

Aplica lo mismo a otras columnas categóricas si es necesario.

7. Detectar outliers

Puedes usar diagramas de caja (boxplots):

sns.boxplot(x=df['potencia']) plt.title('Potencia - detección de outliers') plt.show()

8. Análisis bivariado

Estudia cómo se relacionan las variables predictoras con la variable objetivo:

sns.boxplot(x='tipo_auto', y='consumo', data=df)

9. Feature importance (opcional luego del modelo)

Los árboles te permiten saber qué variables son más importantes después del entrenamiento:

from sklearn.tree import DecisionTreeClassifier

X = df.drop('tipo_auto', axis=1) y = df['tipo_auto']

modelo = DecisionTreeClassifier() modelo.fit(X, y)

importances = modelo.feature_importances_ for col, imp in zip(X.columns, importances): print(f"{col}: {imp:.3f}")

Antonio Demarco Bonino

student•

Cambie 'persons' por 'people', pero únicamente por snob. Están bien las dos. Persons se usa cuando se sabe el número de personas que hay y people cuando el número es incierto:

Emilio José Chaparro Barrera

student•

columns_headers = ['Buying_price', 'Maint', 'Num_doors', 'Num_persons', 'Lug_boot', 'Safety', 'Decision']
car_df = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/car/car.data', names=columns_headers)
car_df.head(5)

Julián Cárdenas

student•

El código:

#Visualizamos los tipos de datos
df_car.dtypes

Exploremos un poco mas la variable target

df_car ['class'].value_counts() ** #Verificamos valores missings df_car.isnull().sum()

\# Rename df columns

col\_names = \["buying", "maint", "doors", "persons", "lug\_boot", "safety", "class"]

df\_car.columns = col\_names

\# Check df dimensions

df\_car.shape

\# (1728, 7)

\# Check all data types - all are categorical apparently

df\_car.dtypes

\# buying      object

\# maint       object

\# doors       object

\# persons     object

\# lug\_boot    object

\# safety      object

\# class       object

\# dtype: object

\# Exploring target variable

df\_car\["class"].value\_counts()

\# class

\# unacc    1210

\# acc       384

\# good       69

\# vgood      65

\# Name: count, dtype: int64

\# Check missing values

df\_car.isnull().sum()

\# buying      0

\# maint       0

\# doors       0

\# persons     0

\# lug\_boot    0

\# safety      0

\# class       0

\# dtype: int64

columns_headers = ['Buying_price', 'Maint', 'Num_doors', 'Num_persons', 'Lug_boot', 'Safety', 'Decision']
car_df = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/car/car.data', names=columns_headers)
car_df.head(5)

Análisis exploratorio de datos para árbol de decisión

Introducción a árboles de decisión

¿Qué son los árboles de decisión?

Tu primer árbol de decisión con scikit-learn

Análisis de datos para tu primer árbol de decisión

Entrenamiento y evaluación de árbol de decisión con scikit-learn

¿Cómo funcionan los árboles de decisión?

¿Cuándo usar árboles de decisión?

Proyecto práctico: árboles de decisión

Conociendo problema a resolver y dataset de clasificación