Bienvenido a Platzi

Comentario de la clase:
Preparar datos para clusterizar
David Felipe Zabala Castañeda

David Felipe Zabala Castañeda

student
hace 7 meses

Siento que un error en los cursos precisamente es normalizar variables altamente correlacionadas cuando se conoce que pueden impactar seriamente el rendimiento de los modelos. Ademas, los datos se deben dividr en entrenamiento y validacin antes de escalar. Es un error escalar toda la data. Lo ideal es hacer el fit_transform del scaler con entrenamiento y luego el transform al test.

1 respuestas
    Emilio José Chaparro Barrera

    Emilio José Chaparro Barrera

    student
    hace 4 meses
    editado

    Exacto, recomiendo leer un artículo de IBM: What is data leakage in machine learning? y me quedo con una frase del artículo relacionada a lo que comenta David.

    "Preprocessing steps such as scaling, imputation or feature selection should be fitted only on the training data and then applied to the validation set, rather than fitting them on the entire dataset before splitting. Misapplying transformers such as scaling or normalization can lead to train-test contamination, especially in neural network models. When these improperly executed preprocessing steps are performed over the whole dataset, it leads to biased predictions and an unrealistic sense of the model's performance."

Curso de Clustering con Python y scikit-learn

Curso de Clustering con Python y scikit-learn

Agrupa países según métricas económicas y sociales usando clustering con Python y scikit-learn. Aprende a manejar datasets, eliminar duplicados, detectar outliers y normalizar variables. Aplica K-means, clustering jerárquico y DBSCAN.

Curso de Clustering con Python y scikit-learn
Curso de Clustering con Python y scikit-learn

Curso de Clustering con Python y scikit-learn

Agrupa países según métricas económicas y sociales usando clustering con Python y scikit-learn. Aprende a manejar datasets, eliminar duplicados, detectar outliers y normalizar variables. Aplica K-means, clustering jerárquico y DBSCAN.