Entrenamiento de tu primer modelo de random forest con scikit-learn

Cursos Empresas Blog Live Conf Precios

Contenido del curso

Introducción a árboles de decisión

Proyecto práctico: árboles de decisión

Introducción a random forest

Proyecto práctico: random forest

20
Entrenamiento de modelo de clasificación de carros con random forest
04:28 min
21
Evaluación de resultados del modelo de clasificación con random forest
11:34 min

Conclusión

Tomar examen

Entrenamiento de tu primer modelo de random forest con scikit-learn

Comentarios

Juan Manuel Núñez B.

student

Ctrl Enter para ejecutar jeje

Excelente las explicaciones y el orden y comentarios de los notebook. 10/10

Layla Scheli

teacher

Gracias Juan, por tus comentarios :) Un saludo!

Juan R. Vergara M.

student

Me encanta la metodología y la forma de explicar de la profe Layla, like para más cursos con ella.

Layla Scheli

teacher

Gracias Juan! :) pronto tendremos mas! Un abrazo!

Julián Cárdenas

student

Qúe hace -n_estimators-

n_estimators es un hiperparámetro que se utiliza en algoritmos de conjunto de árboles, como Random Forests y Gradient Boosting, en el contexto de aprendizaje automático. Este hiperparámetro controla el número de árboles que se deben construir en el conjunto. Cada árbol se entrena en un subconjunto aleatorio de los datos de entrenamiento y luego contribuye a las predicciones del conjunto.

La elección adecuada del valor de n_estimators es importante, ya que puede influir en el rendimiento del modelo. Aquí hay algunas consideraciones clave:

Menos árboles: Usar un valor pequeño de n_estimators puede llevar a un conjunto subóptimo de árboles que no capturan bien la estructura subyacente de los datos. El modelo puede tener un alto sesgo y un bajo rendimiento en el conjunto de datos de prueba.
Más árboles: Aumentar el valor de n_estimators generalmente mejora la capacidad del modelo para generalizar y puede reducir el sobreajuste. Sin embargo, agregar demasiados árboles puede aumentar el costo computacional del entrenamiento y la inferencia, sin una mejora significativa en el rendimiento.
Equilibrio: El valor óptimo de n_estimators generalmente se encuentra a través de la validación cruzada. Los practicantes de aprendizaje automático prueban diferentes valores de n_estimators y eligen el que da como resultado el mejor rendimiento en un conjunto de datos de validación o prueba.

En el caso de Random Forests, un valor típico para n_estimators podría ser 100 o más, pero esto puede variar según el problema y el tamaño del conjunto de datos. Para algoritmos de aumento (como Gradient Boosting), el valor óptimo de n_estimators puede ser menor que en Random Forests, ya que los árboles se agregan de manera secuencial y se detiene cuando se alcanza un cierto criterio de parada o cuando se logra un rendimiento satisfactorio.

En resumen, n_estimators es un hiperparámetro que controla la cantidad de árboles en un conjunto de árboles y debe ajustarse cuidadosamente para optimizar el rendimiento del modelo. La elección del valor adecuado depende del problema específico y debe determinarse mediante experimentación y validación cruzada.

Mauricio Escobar

student

Es importante tener en cuenta que el dataset con el que estamos trabajando contiene valores nulos implícitos en columnas "bmi", "plasma", "blood pressure", "test"(quizás en también en otras pero no hay forma de comprobarlo, dado que por ejemplo en pregnancies tiene sentido que exista un 0, aunque dada la estructura del dataset también podrían haber 0's que sean nan's)

si reemplazamos los 0's por nan's obtenemos el siguiente conteo:

en cuanto a la proporción de nulos dado el universo del dataset obtenemos las siguientes proporciones:

al hacer una matriz de correlación, notamos que estas variables tienen poco peso respecto a si el sujeto tendría o no diabetes en los próximos 5 años.

Lo cuál no tendría sentido porque el significaría que tanto el test como la skin thikness son poco significativas para el análisis. Sin embargo esto se explica por la influencia de los nulos

A raíz del análisis, mi hipótesis es que la presencia de nulos en skin thikness se explica por la presencia de nulos en el test. Es decir, quienes no se hicieron el test, tampoco se han hecho la medición de skin thickness.

Por lo que si entrenamos los datos con nulos podríamos (~48.6%en la columna test) podríamos obtener resultados inválidos

Layla Scheli

teacher

Gracias por tu aclaracion genial :)

Mauricio Escobar

student

Gracias a ti profe :D

Antonio Demarco Bonino

student

Feliz de seguir aprendiendo.

Juan José Mamani Tarqui

student

<u>El parámetro </u>n_estimators en RandomForestClassifier indica la cantidad de árboles de decisión que se utilizarán en el bosque. Cada árbol se ajusta de manera independiente a diferentes subconjuntos de datos y luego sus predicciones se combinan para obtener una predicción final.

En tu código:

pythonCopy coderandom_forest = RandomForestClassifier(n_estimators=10, random_state=00000)

n_estimators=10: Esto significa que se crearán 10 árboles de decisión en el bosque.
random_state=00000: Esto establece la semilla del generador de números aleatorios para asegurar que los resultados sean reproducibles. La elección específica de 00000 es una convención para indicar que la semilla es 0.

Entonces, random_forest es un objeto RandomForestClassifier que ha sido configurado para utilizar 10 árboles y una semilla específica para la aleatoriedad. Puedes entrenar este modelo en tus datos llamando al método fit y luego usarlo para hacer predicciones.

Layla Scheli

teacher

Gracias por la info :)

Sebastián Franco

student

Ahora se crearán los features y el target y se spliteará el dataset en train y split, finalmente se usará el Random Forest Classifier y se entrenará y harán predicciones


\# create X and y

X = df\_diabetes.drop("9. Class variable (0 or 1)", axis=1)

y = df\_diabetes\["9. Class variable (0 or 1)"]



\# split dataset

from sklearn.model\_selection import train\_test\_split



X\_train, X\_test, y\_train, y\_test = train\_test\_split(X, y, test\_size=0.3, random\_state=42)



\# Use random forest model

from sklearn.ensemble import RandomForestClassifier



random\_forest = RandomForestClassifier(

    n\_estimators=10,

    random\_state=42

)



random\_forest.fit(X\_train, y\_train)



y\_train\_pred\_random\_forest = random\_forest.predict(X\_train)

y\_test\_pred\_random\_forest = random\_forest.predict(X\_test)

Mario Alexander Vargas Celis

student

¡Perfecto! Aquí tienes una guía clara y práctica para el entrenamiento de tu primer modelo de Random Forest con scikit-learn usando un dataset real:

🔧 Paso 1: Importar librerías necesarias

from sklearn.ensemble import RandomForestClassifier from sklearn.datasets import load_iris from sklearn.model_selection import train_test_split from sklearn.metrics import classification_report, accuracy_score, confusion_matrix import matplotlib.pyplot as plt import seaborn as sns

📥 Paso 2: Cargar y explorar los datos

# Dataset clásico: Iris iris = load_iris() X = iris.data y = iris.target

# Opcional: ver forma de los datos print("Shape X:", X.shape) print("Shape y:", y.shape)

✂️ Paso 3: Dividir en entrenamiento y prueba

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

🌲 Paso 4: Crear y entrenar el modelo Random Forest

rf_model = RandomForestClassifier(n_estimators=100, random_state=42) rf_model.fit(X_train, y_train)

📈 Paso 5: Realizar predicciones

y_pred = rf_model.predict(X_test)

✅ Paso 6: Evaluar el modelo

print("Accuracy:", accuracy_score(y_test, y_pred)) print("\nClassification Report:\n", classification_report(y_test, y_pred)) print("\nConfusion Matrix:\n", confusion_matrix(y_test, y_pred))

🔍 Paso 7: Visualizar importancia de características

feature_importances = rf_model.feature_importances_ feature_names = iris.feature_names

sns.barplot(x=feature_importances, y=feature_names) plt.title("Importancia de las características") plt.xlabel("Importancia") plt.ylabel("Característica") plt.show()

🎉 Resultado:

Con el dataset Iris, deberías obtener una precisión bastante alta (cerca o superior al 95%), y podrás ver qué variables fueron más importantes para la clasificación.

Paolo Joaquin Pinto Perez

student

Si alguien lo necesita ya que no se esta utilizando ninguna notacion de variables(snake_case) como se estaba habituando

#Separamos en X e y
X = df_diabetes.drop('9. Class variable (0 or 1)', axis=1)
y = df_diabetes["9. Class variable (0 or 1)"]

\# create X and y

X = df\_diabetes.drop("9. Class variable (0 or 1)", axis=1)

y = df\_diabetes\["9. Class variable (0 or 1)"]

\# split dataset

from sklearn.model\_selection import train\_test\_split

X\_train, X\_test, y\_train, y\_test = train\_test\_split(X, y, test\_size=0.3, random\_state=42)

\# Use random forest model

from sklearn.ensemble import RandomForestClassifier

random\_forest = RandomForestClassifier(

    n\_estimators=10,

    random\_state=42

)

random\_forest.fit(X\_train, y\_train)

y\_train\_pred\_random\_forest = random\_forest.predict(X\_train)

y\_test\_pred\_random\_forest = random\_forest.predict(X\_test)

Introducción a árboles de decisión

¿Qué son los árboles de decisión?

Tu primer árbol de decisión con scikit-learn

Análisis de datos para tu primer árbol de decisión

Entrenamiento y evaluación de árbol de decisión con scikit-learn

¿Cómo funcionan los árboles de decisión?

¿Cuándo usar árboles de decisión?

Proyecto práctico: árboles de decisión

Conociendo problema a resolver y dataset de clasificación

Análisis exploratorio de datos para árbol de decisión

Procesamiento de datos para el entrenamiento de árbol de decisión

Entrenamiento de modelo de clasificación con árbol de decisión

¿Cómo evaluar un modelo de árbol de decisión?

Evaluación de resultados del modelo de árbol de decisión

Introducción a random forest

¿Qué son los random forest o bosques aleatorios?

Tu primer random forest con scikit-learn

Análisis de datos para tu primer random forest