David Felipe Zabala Castañeda
Siento que un error en los cursos precisamente es normalizar variables altamente correlacionadas cuando se conoce que pueden impactar seriamente el rendimiento de los modelos. Ademas, los datos se deben dividr en entrenamiento y validacin antes de escalar. Es un error escalar toda la data. Lo ideal es hacer el fit_transform del scaler con entrenamiento y luego el transform al test.
Emilio José Chaparro Barrera
Exacto, recomiendo leer un artículo de IBM: What is data leakage in machine learning? y me quedo con una frase del artículo relacionada a lo que comenta David.
"Preprocessing steps such as scaling, imputation or feature selection should be fitted only on the training data and then applied to the validation set, rather than fitting them on the entire dataset before splitting. Misapplying transformers such as scaling or normalization can lead to train-test contamination, especially in neural network models. When these improperly executed preprocessing steps are performed over the whole dataset, it leads to biased predictions and an unrealistic sense of the model's performance."
