MinMaxScaler y StandardScaler en Python

Curso de Fundamentos de Machine Learning

Contenido del curso

No sé dónde empezar

Fundamentos de Machine Learning y Contexto Deportivo

Preparación y Exploración de Datos

Ingeniería de Características

Modelado Predictivo Supervisado

Aprendizaje No Supervisado

MinMaxScaler y StandardScaler en Python

Resumen

Cuando trabajas con datos deportivos como tiros al arco o porcentaje de posesión, escalar los datos con MinMaxScaler y StandardScaler evita que el modelo confunda magnitud con importancia. Aquí aprenderás cuándo normalizar, cuándo estandarizar y cómo aplicarlo en Python para que tus predicciones sean justas y precisas.

¿Por qué es importante escalar los datos antes de entrenar un modelo?

Imagina que tu delantero tuvo 12 tiros al arco y el equipo manejó el 55% de posesión. Sin escalado, el algoritmo verá el 12 como un número más pequeño que 55, aunque el 55% represente una variable porcentual y el 12 una cuenta absoluta. Esa diferencia de rangos sesga los pesos del modelo y genera predicciones inexactas.

Escalar nivela el terreno de juego. Todas las variables quedan en una escala comparable y el modelo puede aprender sin sesgos numéricos [00:51].

¿Qué significa escalar datos en machine learning? Es transformar variables con rangos distintos a una escala común para que ningún atributo domine al modelo solo por tener números más grandes.

¿Cuál es la diferencia entre MinMaxScaler y StandardScaler?

Ambas son técnicas de preprocesamiento, pero responden a necesidades distintas según la distribución de tus datos [01:32].

MinMaxScaler (normalización): transforma los valores a un rango fijo, normalmente entre 0 y 1. Es ideal cuando los datos no siguen una distribución normal. Si un jugador tiene 12 tiros y el máximo es 15, el valor escalado sería 12/15 = 0.8.
StandardScaler (estandarización): centra los datos en torno a cero con desviación estándar uno. Es útil con algoritmos que asumen datos centrados, como regresión lineal o PCA.

En el caso de Cebollitas FC, los tiros al arco local y visitante se normalizan porque siempre caen entre 3 y 15. La posesión, en cambio, se estandariza porque queremos centrarla sin importar el valor original [02:20].

¿Cómo aplicar MinMaxScaler en pandas?

El flujo en el notebook empieza importando las clases necesarias desde scikit-learn y cargando el dataset con pandas. Luego se crea una instancia del scaler:

python from sklearn.preprocessing import MinMaxScaler, StandardScaler import pandas as pd

scaler_norm = MinMaxScaler() df[['tiros_local_norm', 'tiros_visitante_norm']] = scaler_norm.fit_transform( df[['tiros_local', 'tiros_visitante']] )

La clave está en fit_transform, un atajo que combina dos pasos: fit calcula el mínimo y el máximo de cada columna, y transform aplica la fórmula a cada dato. Pasar ambas columnas juntas garantiza que el cálculo considere el conjunto completo de cada variable [03:38].

Al imprimir las primeras filas con head(6), verás los tiros originales junto a sus versiones normalizadas entre 0 y 1.

¿Cómo aplicar StandardScaler en pandas?

La lógica es la misma, pero con otra clase y otra fórmula matemática. Aquí fit calcula la media y la desviación estándar, y transform centra los datos en cero con varianza uno:

python scaler_std = StandardScaler() df[['posesion_local_std', 'posesion_visitante_std']] = scaler_std.fit_transform( df[['posesion_local', 'posesion_visitante']] )

Transformar ambas columnas de posesión en una sola operación asegura consistencia entre local y visitante [05:25].

¿Cuándo uso MinMaxScaler y cuándo StandardScaler? Usa MinMaxScaler si necesitas un rango acotado (0 a 1) y tus datos no son normales. Usa StandardScaler si tu algoritmo asume datos centrados o quieres preservar la forma de la distribución.

¿Cómo visualizar el resultado del escalado con histogramas?

Después del preprocesamiento, los histogramas confirman si los datos quedaron bien distribuidos. Un histograma parejo es como un campo listo antes del partido: tu trabajo es dejarlo en condiciones [02:55].

Para graficar dos histogramas lado a lado se usan Matplotlib y Seaborn:

python import matplotlib.pyplot as plt import seaborn as sns

fig, axes = plt.subplots(1, 2, figsize=(12, 4))

sns.histplot(df['tiros_local_norm'], ax=axes[0]) axes[0].set_title('Tiros al arco local normalizados')

sns.histplot(df['posesion_local_std'], ax=axes[1], color='orange') axes[1].set_title('Posesión local estandarizada')

plt.show()

La función plt.subplots crea dos ejes en una fila, uno para cada histograma. Con plt.show() se muestran ambos gráficos de forma simultánea y puedes comparar cómo se ven los datos normalizados frente a los estandarizados [06:20].

¿Qué ganaste al escalar las variables de tu dataset?

Igualaste las escalas con dos técnicas fundamentales: MinMaxScaling para llevar valores al rango 0 a 1 y StandardScaler para centrar en media cero con varianza uno. Con esto, ninguna variable domina al modelo solo por su magnitud y quedas listo para entrenar algoritmos más precisos y equitativos.

¿Qué inferencias sacas tú al comparar ambos histogramas? Cuéntame en los comentarios cómo se vieron tus distribuciones después de aplicar cada técnica.

Mario Alexander Vargas Celis

Estudiante

📏 ¿Por qué normalizar o estandarizar?

Porque:

Muchas técnicas de ML son sensibles a la escala de los datos.
Si tus variables tienen unidades distintas (por ejemplo, “goles” y “minutos”), una puede dominar a la otra si no las escalas.
Mejora la velocidad de entrenamiento y la precisión del modelo.

🔄 Diferencia entre normalización y estandarización

TécnicaQué haceRango típicoNormalización (Min-Max)Escala los datos a un rango fijo, normalmente entre 0 y 1[0, 1] o [-1, 1]Estandarización (Z-score)Convierte los datos a una distribución con media = 0 y desviación estándar = 1Media = 0, Std = 1

⚽ Ejemplo en análisis deportivo

Supón que tienes:

JugadorGolesMinutosPases CompletosA5900300B2750250C71100500

👉 Estos valores están en escalas diferentes → necesitas escalarlos.

🧪 En Python con sklearn

🔹 Normalización (Min-Max Scaling)

from sklearn.preprocessing import MinMaxScaler import pandas as pd

# Datos simulados df = pd.DataFrame({ 'Goles': [5, 2, 7], 'Minutos': [900, 750, 1100], 'Pases': [300, 250, 500] })

scaler = MinMaxScaler() df_norm = pd.DataFrame(scaler.fit_transform(df), columns=df.columns)

print("Normalizados:\n", df_norm)

🔸 Estandarización (Z-score)

from sklearn.preprocessing import StandardScaler

scaler = StandardScaler() df_std = pd.DataFrame(scaler.fit_transform(df), columns=df.columns)

print("Estandarizados:\n", df_std)

🧠 ¿Cuándo usar cada uno?

Si vas a usar...RecomendaciónKNN, SVM, Redes Neuronales, PCA✅ Escala tus datos (normalización o estandarización)Árboles de decisión, Random Forest❌ No es obligatorio escalarVisualización (radar, scatter...)✅ Normalizar para comparación clara

🎯 Conclusión

Normalizar o estandarizar mejora el rendimiento del modelo.
Elige el método según el algoritmo que uses.
Usa sklearn.preprocessing para escalar fácilmente.

Jhon Freddy Tavera Blandon

Victor Hugo Rondon Cordero

Juan Osorio

Profesor

Daniel Rendon

Javier Emanuel González Andrade

Jonathan Mauricio Meza Bastidas

Juan Jose Tovar

Nicolás Melgarejo

Esteban Bastías B.

Jhon Maldonado

•

Jason Sepulveda

Gabriel Obregón

Keyner Corro Ruiz

David A. Vazquez Gonzalez

Juan Acevedo

Astrid Clarissa Esparza Aponte

Juliana Cortés

Jaime David Burbano Montoya

Juan Diego

Etna Abigail Lopez Garcia

José Eder Guzmán Mendoza

MinMaxScaler y StandardScaler en Python

Fundamentos de Machine Learning y Contexto Deportivo

Supervisado, no supervisado o refuerzo: cuál elegir

Modelos supervisados para predecir partidos

Clustering y PCA sin etiquetas en datos

Configuración de Python y Jupyter para análisis deportivo

Preparación y Exploración de Datos

Limpieza de datos CSV con Pandas

Estadística descriptiva para analizar partidos