Procesamiento de datos para el entrenamiento de árbol de decisión

Clase 9 de 23 • Curso de Decision Trees y Random Forest con Python y scikit-learn

Comentarios

Sebastian Matiz Barrera

student•

Ha sido un gran curso hasta el momento, no he visto muchos compañeros así que esto es solo un saludo para quienes se unan a la ruta en el futuro.

Julián Cárdenas

student•

Hola compañero!! Sí me ha gustado un montooón la profe!

William Camilo Correa Sandoval

student•

Para evitar el sesgo en la división de los datos es ideal pasar el argumento “stratify = y” en train_test_split, lo cual garantiza que la distribución de clases en la variable de destino “y”, se conserve tanto en el conjunto de entrenamiento como en el de prueba.

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.3, random_state=45, stratify = y)

y_train.value_counts()

unacc 847 acc 269 good 48 vgood 45 Name: class, dtype: int64

Julián Cárdenas

student•

Vea pues datazo!

Leandro Tenjo

student•

Tu comentario debería ser parte oficial de la clase. Gracias

Joaquín Ricardo Svoboda Abregú

student•

Me encanta como separaste lo que es X y lo que es Y de manera tan visual :D

Layla Scheli

teacher•

Gracias :)

Juan R. Vergara M.

student•

👍🔥

Isaac Bryan Ascanoa Roncall

student•

Me encanto la forma de que la clase explica de manera especifica y facil la separacion de los elementos segun su categoria. En la universidad ni entendia nada, solo era copiar y pegar el codigo nada mas. Ahora me queda clara la funcionalidad de este.

Layla Scheli

teacher•

Que bueno Isaac, me alegra :)

Andres Jimenez

student•

En la función de train_test_split, el random_state sirve para que el modelo sea comparable con otros modelos, y también para que cuando se ejecute de nuevo el código, pueda ser comparable. No me quedaba tan claro por qué colocamos "42", y en el ejercicio anterior "00000". Pero es meramente para que pueda ser comparable.

Anthony Ismael Manotoa Moreno

student•

El 42 es una "semilla". Su principal razón es para que si quieres replicar tu código, te salgan los mismos resultados. ¿Por qué? Porque cuando separa tus datos entre datos de entrenamiento y datos de prueba, lo hace de una manera aleatoria, entonces si vuelves a ejecutar el código sin una semilla, cada vez te separará los datos de maneras distintas. En cambio, todas las veces que lo haga con la semilla "42", lo hará igual. Entonces el número de la semilla es irrelevante, podría ser cualquiera que tú quieras (00000, 42, 3, etc.), lo importante es que si usas el mismo número, tendrás los mismos resultados

Julián Cárdenas

student•

Exacto puede ser cualquier número, igual sí tienes dudas ChatGPT las responde increíblemente bien

Antonio Demarco Bonino

student•

La explicación de las X y la Y fue genial. Corta, concisa y clara. Todo lo que tiene que tener una buena conceptualización.

Layla Scheli

teacher•

Gracias Antonio, un saludo :)

Julián Cárdenas

student•

Consideramos a X, todos los feutures, que no encierren a nuestra variable target. Sencillo y directo!

José Salas Bolívar

student•

Hola... vengo del futuro 🤖🤖🤖 Me gusto mucho la estructura de los nootebooks, están muy bien comentados y siguen un orden lógico que no da lugar a perdidas !!! Saludos

Layla Scheli

teacher•

Gracias Jose por tus palabras :)

Sebastián Franco

student•

Los features serán todas las columnas excepto Class, entonces, el eje X está contenido por

buying, maint, doors, persons, lug_boot, safety

Y el target del modelo será

class

Así pues, definiremos X e Y, los splittearemos y verificaremos su contenido


\# Extract X and Y

X = df\_car.drop(\["class"], axis=1)

y = df\_car\["class"]



\# Split data

from sklearn.model\_selection import train\_test\_split

X\_train, X\_test, Y\_train, Y\_test = train\_test\_split(X, y, test\_size=0.3, random\_state=42)



\# Check dataset sizes

X\_train.shape, X\_test.shape

\# ((1209, 6), (519, 6))



Y\_train.shape, Y\_test.shape

((1209,), (519,))

Mario Alexander Vargas Celis

student•

El procesamiento de datos para entrenar un árbol de decisión implica preparar tu dataset de forma que el algoritmo pueda aprender patrones de manera efectiva. Aunque los árboles de decisión son muy flexibles (no requieren escalado de variables, por ejemplo), sí necesitan ciertos pasos clave para funcionar correctamente.

✅ Pasos de Procesamiento de Datos para Árbol de Decisión (Clasificación o Regresión)

1. Separar variables predictoras y objetivo

X = df.drop('target', axis=1) # variables predictoras y = df['target'] # variable objetivo

2. Codificar variables categóricas

Los árboles requieren valores numéricos.

Opción A: Label Encoding (útil si hay orden implícito o pocas categorías)

from sklearn.preprocessing import LabelEncoder

le = LabelEncoder() X['transmision'] = le.fit_transform(X['transmision'])

Opción B: One-Hot Encoding (útil para categorías sin orden)

X = pd.get_dummies(X, columns=['marca', 'modelo'])

3. Manejo de valores nulos

Los árboles no manejan valores faltantes por sí solos.

X = X.fillna(X.median()) # o usar X.dropna() si es apropiado

4. División de datos en entrenamiento y prueba

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split( X, y, test_size=0.2, random_state=42 )

5. (Opcional) Balancear clases si es clasificación

Si tienes un problema de clasificación desbalanceada:

from sklearn.utils import resample

# Combinar X e y df_train = pd.concat([X_train, y_train], axis=1) minority = df_train[df_train['target'] == 'clase_rara'] majority = df_train[df_train['target'] == 'clase_común']

minority_upsampled = resample(minority, replace=True, n_samples=len(majority), random_state=42)

df_balanced = pd.concat([majority, minority_upsampled]) X_train = df_balanced.drop('target', axis=1) y_train = df_balanced['target']

6. Entrenamiento del árbol

from sklearn.tree import DecisionTreeClassifier

clf = DecisionTreeClassifier(max_depth=5, random_state=42) clf.fit(X_train, y_train)

7. Evaluación

from sklearn.metrics import classification_report

y_pred = clf.predict(X_test) print(classification_report(y_test, y_pred))

8. (Opcional) Visualizar el árbol

from sklearn.tree import plot_tree import matplotlib.pyplot as plt

plt.figure(figsize=(16, 8)) plot_tree(clf, feature_names=X.columns, class_names=clf.classes_, filled=True) plt.show()

Eugenio Schiavoni

student•

Profe dado que el target esta desbalanceado, no seria mejor balancearlo con alguna librería como imbalanced-learn ???

Layla Scheli

teacher•

Hola Eugenio, si eso podría ser una optimización del modelo. Inicialmente lo podes ver como lo hemos visto y luego tratar de optimizarlo, con ese tipo de herramientas! Si lo haces, te invito a que nos compartas el codigo para que lo podamos ver :) Un saludo!

Diego Andrés Rojas Pinzón

student•

Los Datos de X estan en Object, no deberian estar en float o int antes de hacer el train_test_split ?

Layla Scheli

teacher•

Hola Diego no es necesario, podes transformarlo luego :)

Valeria Iglesias Miranda

student•

¿Cómo determino el valor para random_state?

Layla Scheli

teacher•

Hola Valeria, podes colocar cualquier valor, es solo una semilla, que te sirve para darle reproducibilidad al codigo luego, generalmente se pone 0 :)

Juan José Mamani Tarqui

student•

X: Son variables llamadas predictoras

y: El objetivo , target. Lo que queremos ver como resultado

Layla Scheli

teacher•

Correcto Juan :)

Darrien Sequera

student•

Gran clase!!!. Impecable la explicación.

Juan Cruz

student•

Explica muy bien!!!

\# Extract X and Y

X = df\_car.drop(\["class"], axis=1)

y = df\_car\["class"]

\# Split data

from sklearn.model\_selection import train\_test\_split

X\_train, X\_test, Y\_train, Y\_test = train\_test\_split(X, y, test\_size=0.3, random\_state=42)

\# Check dataset sizes

X\_train.shape, X\_test.shape

\# ((1209, 6), (519, 6))

Y\_train.shape, Y\_test.shape

((1209,), (519,))

Procesamiento de datos para el entrenamiento de árbol de decisión

Introducción a árboles de decisión

¿Qué son los árboles de decisión?

Tu primer árbol de decisión con scikit-learn

Análisis de datos para tu primer árbol de decisión

Entrenamiento y evaluación de árbol de decisión con scikit-learn

¿Cómo funcionan los árboles de decisión?

¿Cuándo usar árboles de decisión?

Proyecto práctico: árboles de decisión

Conociendo problema a resolver y dataset de clasificación

Análisis exploratorio de datos para árbol de decisión

Procesamiento de datos para el entrenamiento de árbol de decisión

Entrenamiento de modelo de clasificación con árbol de decisión

¿Cómo evaluar un modelo de árbol de decisión?

Evaluación de resultados del modelo de árbol de decisión

Introducción a random forest

¿Qué son los random forest o bosques aleatorios?

Tu primer random forest con scikit-learn

Análisis de datos para tu primer random forest

Entrenamiento de tu primer modelo de random forest con scikit-learn

Evaluación de tu primer modelo de random forest con scikit-learn

¿Cómo funcionan los random forest?

¿Cuándo utilizar random forest?

Proyecto práctico: random forest

Entrenamiento de modelo de clasificación de carros con random forest

Evaluación de resultados del modelo de clasificación con random forest

Conclusión

Proyecto final y cierre

Comparte tu proyecto de Random Forest y obtén tu certificado