Escalamiento Lineal de Datos Numéricos para Machine Learning
Clase 14 de 25 • Curso de Matemáticas para Data Science: Estadística Descriptiva
Contenido del curso
- 4
Uso de Deepnote para Jupyter Notebooks en Ciencia de Datos
01:19 - 5

Tipos de Datos en Ciencia de Datos: Categóricos y Numéricos
16:06 - 6

Medidas de Tendencia Central: Media, Mediana y Moda
09:47 - 7

Media vs. Mediana: Diferencias y Aplicaciones Prácticas
17:17 - 8

"Estadística Descriptiva con Pandas: Medidas de Tendencia Central"
20:58 - 9

Rango y Rango Intercuartil en Medidas de Dispersión
05:25 - 10

Desviación Estándar y Varianza en Estadística Descriptiva
14:29 - 11

Cálculo y Visualización de Medidas de Dispersión en Python
11:14 - 12

Visualización de Datos: Catálogo y Uso de Diagramas en Python
08:48 - 13

Diagramas de Dispersión y su Análisis con Seaborn
12:32
- 14

Escalamiento Lineal de Datos Numéricos para Machine Learning
10:54 - 15

Transformaciones No Lineales para Datos Sesgados en Machine Learning
08:51 - 16

Procesamiento y Escalamiento de Datos Numéricos en Python
14:55 - 17

Mapeo de Variables Categóricas en Python: Dumi y OneHot
05:00 - 18

Codificación de Variables Categóricas en Python con Pandas y Scikit-Learn
12:58 - 19

Correlación y covarianza en análisis de datos
09:09 - 20

Construcción y Análisis de la Matriz de Covarianza en Python
13:09
¿Por qué necesitamos escalar los datos antes de usar modelos de machine learning?
El preprocesamiento de datos es una etapa crucial antes de aplicar cualquier modelo de machine learning. Una práctica fundamental en esta fase es el escalamiento o normalización de datos, que busca garantizar que todos los atributos del conjunto de datos tengan las mismas dimensiones. Esto es vital porque la eficiencia de los optimizadores en machine learning se maximiza cuando los datos se encuentran en un rango estándar, usualmente entre -1 y 1. De no hacerlo, podríamos enfrentar problemas de convergencia en el entrenamiento de modelos, lo cual impacta negativamente su rendimiento y exactitud. Aquí exploraremos varios métodos de escalamiento y su aplicación a datos numéricos.
¿Cuáles son los principales métodos de escalamiento?
Al trabajar con estadísticas descriptivas y machine learning, es esencial comprender diferentes métodos de escalamiento para elegir el más adecuado según la distribución de los datos. A continuación, te presentamos tres de los más utilizados:
-
Escalamiento Min-Max: Convierte los valores originales a un rango predefinido. Se calcula usando la fórmula:
[ X' = \frac{(X - \text{Min})}{(\text{Max} - \text{Min})} \times (\text{Range nuevo}) ]
Este método es apropiado cuando los datos tienen una distribución uniforme o simétrica. Es una transformación lineal que asegura que todos los valores estén dentro del rango esperado, facilitando la optimización del modelo.
-
Clipping: Este método "recorta" los valores que están fuera de un rango específico. Por ejemplo, si se define que el rango es entre 2 y 4, cualquier valor menor que 2 se ajustará a 2, y cualquier valor mayor que 4 se ajustará a 4. Aunque sencillo, no es muy recomendado en machine learning, ya que se pueden omitir datos útiles, incluso si son outliers.
-
Z-score: Calcula un valor estandarizado que indica cuántas desviaciones estándar un dato se encuentra del promedio. La fórmula es:
[ Z = \frac{(X - \mu)}{\sigma} ]
Este método es popular por su base matemática en estadística y porque transforma los datos en una distribución normal estándar (media 0, desviación estándar 1), conservando propiedades importantes de los datos.
¿Cómo elegir el método de escalamiento adecuado?
La elección del método de escalamiento adecuado depende de la distribución original de los datos y del objetivo del análisis. Aquí algunos consejos para su adecuada aplicación:
-
Visualiza la distribución de datos: Usa histogramas o boxplots para identificar la simetría o dispersión de los datos. Esto ayudará a decidir si una distribución es uniforme, simétrica o si predomina algún sesgo.
-
Evalúa el impacto en el modelo: Algunos modelos son más sensibles a las escalas de datos (e.g., regresión logística, K-NN), por lo que un escalamiento adecuado puede mejorar significativamente el rendimiento.
-
Considera la presencia de outliers: Si bien algunos métodos normalizan valores extremos, otros como el clipping pueden eliminarlos, lo cual no siempre es deseable. Evalúa el valor que los outliers podrían aportar a tu análisis antes de descartarlos automáticamente.
-
Implementa y prueba múltiple escalamiento: No dudes en probar diferentes métodos de escalamiento y medir el rendimiento del modelo. Experiementar con las transformaciones es parte del proceso de optimización.
En cada etapa del proceso, recuerda que la preparación de datos es fundamental para extraer el máximo potencial de tus modelos de machine learning. Adentrarse en estas técnicas mejorará tus habilidades analíticas y te impulsará a lograr modelos más precisos y eficientes. ¡Continúa aprendiendo y explorando!