En el segundo 00:52 se está cometiendo un ERROR, el cual es muy sutil pero genera problemas de sobre-confianza al entrenar el modelo,dado que en la parte final del curso se obtiene un modelo con 0.99 de accuracy cuando en realidad es de solo 0.93, el error que se comete es el siguiente:
Al realizar
df_dea = X_over
df_dea[‘Class’] = y_over
Le estamos asignando una columna extra a la data X_over la cual es la columna de las clases,en el minuto 05:17 se observa que se eliminan 2 columnas,sin embargo, no se elimina la columna Classes la cual queda adherida al DataFrame X_over tal como se observa aquí:
Por lo que al tener esta columna dentro de los features de entrenamiento es muy FACIL para el modelo establecer los patrones y generar un modelo con tan buen accuracy tal como se puede observar en la siguiente clase
En todo caso ,si lo que se quería era generar un nuevo dataset para usar heatmap y ver las correlaciones ,simplemente se pudo usar la función concat de pandas ( en la cual uno el nuevo set de X & y generados con la librería imblearn ) tal como se muestra a continuación
:
¿Quieres ver más aportes, preguntas y respuestas de la comunidad?