Introducción a árboles de decisión

1

¿Qué son los árboles de decisión?

2

Tu primer árbol de decisión con scikit-learn

3

Análisis de datos para tu primer árbol de decisión

4

Entrenamiento y evaluación de árbol de decisión con scikit-learn

5

¿Cómo funcionan los árboles de decisión?

6

¿Cuándo usar árboles de decisión?

Quiz: Introducción a árboles de decisión

Proyecto práctico: árboles de decisión

7

Conociendo problema a resolver y dataset de clasificación

8

Análisis exploratorio de datos para árbol de decisión

9

Procesamiento de datos para el entrenamiento de árbol de decisión

10

Entrenamiento de modelo de clasificación con árbol de decisión

11

¿Cómo evaluar un modelo de árbol de decisión?

12

Evaluación de resultados del modelo de árbol de decisión

Quiz: Proyecto práctico: árboles de decisión

Introducción a random forest

13

¿Qué son los random forest o bosques aleatorios?

14

Tu primer random forest con scikit-learn

15

Análisis de datos para tu primer random forest

16

Entrenamiento de tu primer modelo de random forest con scikit-learn

17

Evaluación de tu primer modelo de random forest con scikit-learn

18

¿Cómo funcionan los random forest?

19

¿Cuándo utilizar random forest?

Quiz: Introducción a random forest

Proyecto práctico: random forest

20

Entrenamiento de modelo de clasificación de carros con random forest

21

Evaluación de resultados del modelo de clasificación con random forest

Quiz: Proyecto práctico: random forest

Conclusión

22

Proyecto final y cierre

23

Comparte tu proyecto de Random Forest y obtén tu certificado

No tienes acceso a esta clase

¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera

Convierte tus certificados en títulos universitarios en USA

Antes: $249

Currency
$209

Paga en 4 cuotas sin intereses

Paga en 4 cuotas sin intereses
Suscríbete

Termina en:

17 Días
23 Hrs
58 Min
36 Seg

Análisis de datos para tu primer random forest

15/23
Recursos

Aportes 8

Preguntas 1

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad?

df_diabetes.columns = [‘1. Number of times pregnant’, ‘2. Plasma glucose concentration a 2 hours in an oral glucose tolerance test’, ‘3. Diastolic blood pressure (mm Hg)’, ‘4. Triceps skin fold thickness (mm)’, ‘5. 2-Hour serum insulin (mu U/ml)’, ‘6. Body mass index (weight in kg/(height in m)^2)’, ‘7. Diabetes pedigree function’, ‘8. Age (years)’, ‘9. Class variable (0 or 1)’]

#Renombramos las columnas
df_diabetes.columns = ['1. Number of times pregnant', '2. Plasma glucose concentration a 2 hours in an oral glucose tolerance test', '3. Diastolic blood pressure (mm Hg)', '4. Triceps skin fold thickness (mm)', '5. 2-Hour serum insulin (mu U/ml)', '6. Body mass index (weight in kg/(height in m)^2)', '7. Diabetes pedigree function', '8. Age (years)', '9. Class variable (0 or 1)']

Tambien, hay columnas que tienen missing values pero de manera implicita. Se reconocen por que su valor es 0 y a nivel medico, no tendria sentido ese valor.

df.iloc[:, 1:6].replace(to_replace=[0], value=np.nan).isna().sum().reset_index(name = 'missing_values').rename(columns={"index": "variable"}).assign( percentage = lambda df_reset: df_reset.missing_values / len(df) * 100)

variable_____missing_values____percentage
Glucose_________5_____0.651042
BloodPressure____35____4.557292
SkinThickness____227___29.557292
Insulin__________374____48.697917
BMI____________11_____1.432292

Por si a alguien le queda más cómodo y le gusta más cómo renombré las columnas es que dejo el código acá: ```python data.columns = ['Preg', 'Plas', 'Press', 'Skin', 'Insulin', 'BMI', 'Pedi', 'Age', 'Diabetes'] ```
Excelente! 👩🏻💻
veo que se repite en muchos cursos el preprocesamiento y análisis inicial de los datos, me gustaría que hubiera un curso especifico para este tema con dataset más complejos y que requieren de un preprocesamiento mucho mayor.
Estaría bueno que en un curso hicieran un análisis de datos mas avanzado, no tan simple como lo veo en todos los cursos, el análisis de datos es algo esencial, y siempre veo que hacen lo mas sencillo.

Código de la clase:

#Renombramos las columnas
df_diabetes.columns = ['1. Number of times pregnant', '2. Plasma glucose concentration a 2 hours in an oral glucose tolerance test', '3. Diastolic blood pressure (mm Hg)', '4. Triceps skin fold thickness (mm)', '5. 2-Hour serum insulin (mu U/ml)', '6. Body mass index (weight in kg/(height in m)^2)', '7. Diabetes pedigree function', '8. Age (years)', '9. Class variable (0 or 1)']
#Verificacion de datos
df_diabetes.head()

#Analizamos el shape del objeto
df_diabetes.shape
**

df_diabetes.dtypes
df_diabetes.isnull().sum()