Escalamiento Lineal de Datos Numéricos para Machine Learning

Clase 14 de 24 • Curso de Matemáticas para Data Science: Estadística Descriptiva

Resumen

¿Por qué necesitamos escalar los datos antes de usar modelos de machine learning?

El preprocesamiento de datos es una etapa crucial antes de aplicar cualquier modelo de machine learning. Una práctica fundamental en esta fase es el escalamiento o normalización de datos, que busca garantizar que todos los atributos del conjunto de datos tengan las mismas dimensiones. Esto es vital porque la eficiencia de los optimizadores en machine learning se maximiza cuando los datos se encuentran en un rango estándar, usualmente entre -1 y 1. De no hacerlo, podríamos enfrentar problemas de convergencia en el entrenamiento de modelos, lo cual impacta negativamente su rendimiento y exactitud. Aquí exploraremos varios métodos de escalamiento y su aplicación a datos numéricos.

¿Cuáles son los principales métodos de escalamiento?

Al trabajar con estadísticas descriptivas y machine learning, es esencial comprender diferentes métodos de escalamiento para elegir el más adecuado según la distribución de los datos. A continuación, te presentamos tres de los más utilizados:

Escalamiento Min-Max: Convierte los valores originales a un rango predefinido. Se calcula usando la fórmula:

[ X' = \frac{(X - \text{Min})}{(\text{Max} - \text{Min})} \times (\text{Range nuevo}) ]

Este método es apropiado cuando los datos tienen una distribución uniforme o simétrica. Es una transformación lineal que asegura que todos los valores estén dentro del rango esperado, facilitando la optimización del modelo.
Clipping: Este método "recorta" los valores que están fuera de un rango específico. Por ejemplo, si se define que el rango es entre 2 y 4, cualquier valor menor que 2 se ajustará a 2, y cualquier valor mayor que 4 se ajustará a 4. Aunque sencillo, no es muy recomendado en machine learning, ya que se pueden omitir datos útiles, incluso si son outliers.
Z-score: Calcula un valor estandarizado que indica cuántas desviaciones estándar un dato se encuentra del promedio. La fórmula es:

[ Z = \frac{(X - \mu)}{\sigma} ]

Este método es popular por su base matemática en estadística y porque transforma los datos en una distribución normal estándar (media 0, desviación estándar 1), conservando propiedades importantes de los datos.

¿Cómo elegir el método de escalamiento adecuado?

La elección del método de escalamiento adecuado depende de la distribución original de los datos y del objetivo del análisis. Aquí algunos consejos para su adecuada aplicación:

Visualiza la distribución de datos: Usa histogramas o boxplots para identificar la simetría o dispersión de los datos. Esto ayudará a decidir si una distribución es uniforme, simétrica o si predomina algún sesgo.
Evalúa el impacto en el modelo: Algunos modelos son más sensibles a las escalas de datos (e.g., regresión logística, K-NN), por lo que un escalamiento adecuado puede mejorar significativamente el rendimiento.
Considera la presencia de outliers: Si bien algunos métodos normalizan valores extremos, otros como el clipping pueden eliminarlos, lo cual no siempre es deseable. Evalúa el valor que los outliers podrían aportar a tu análisis antes de descartarlos automáticamente.
Implementa y prueba múltiple escalamiento: No dudes en probar diferentes métodos de escalamiento y medir el rendimiento del modelo. Experiementar con las transformaciones es parte del proceso de optimización.

En cada etapa del proceso, recuerda que la preparación de datos es fundamental para extraer el máximo potencial de tus modelos de machine learning. Adentrarse en estas técnicas mejorará tus habilidades analíticas y te impulsará a lograr modelos más precisos y eficientes. ¡Continúa aprendiendo y explorando!

Miguel Angel Velazquez Romero

student•

Normalización

La normalización es una técnica que a menudo se aplica como parte de la preparación de datos para el aprendizaje automático. El objetivo de la normalización es cambiar los valores de las columnas numéricas en el conjunto de datos para usar una escala común, sin distorsionar las diferencias en los rangos de valores ni perder información. La normalización también es necesaria para que algunos algoritmos modelen los datos correctamente. . Por ejemplo, suponga que su conjunto de datos de entrada contiene una columna con valores que van de 0 a 1 y otra columna con valores que van de 10,000 a 100,000. La gran diferencia en la escala de los números podría causar problemas al intentar combinar los valores como características durante el modelado. . La normalización evita estos problemas al crear nuevos valores que mantienen la distribución general y las proporciones en los datos de origen, mientras mantienen los valores dentro de una escala aplicada en todas las columnas numéricas utilizadas en el modelo. .

Tenemos varias opciones para transformar datos numéricos:

Cambiar todos los valores a una escala de 0 a 1 o transformar los valores representándolos como rangos de percentiles en lugar de valores absolutos.
Aplicar la normalización a una sola columna o a varias columnas en el mismo conjunto de datos.
Si necesita repetir el experimento o aplicar los mismos pasos de normalización a otros datos, puede guardar los pasos como una transformación de normalización y aplicarlos a otros conjuntos de datos que tengan el mismo esquema.

Nota importante: Algunos algoritmos requieren que los datos se normalicen antes de entrenar un modelo. Otros algoritmos realizan su propia normalización o escalado de datos.

Normalización lineal

Algunos de los tipos:

Zscore : convierte todos los valores en una puntuación z. Los valores de la columna se transforman mediante la siguiente fórmula:

!z score

La media y la desviación estándar se calculan para cada columna por separado. Se utiliza la desviación estándar de la población.

MinMax : el normalizador min-max cambia la escala linealmente cada característica al intervalo [0,1]. El cambio de escala al intervalo [0,1] se realiza cambiando los valores de cada característica para que el valor mínimo sea 0, y luego dividiendo por el nuevo valor máximo (que es la diferencia entre los valores máximo y mínimo originales). Los valores de la columna se transforman mediante la siguiente fórmula: !min max .

¿Cuándo usar la normalización lineal?

En datos simétricos o en datos uniformemente distribuidos.

Uriel Alfonso Velandia Donado

student•

Este resumen me recuerda mis clases de estadistica basica de la U. ¡Gracias por el aporte! 💚

Agustín Ravena

student•

Gracias por tomarte el tiempo de publicar este aporte!!

Andres López

student•

Una pequeña definición de pipeline que encontré en un libro de Ingeniería de datos con Python:

La combinación de una base de datos transaccional, un lenguaje de programación, un motor de procesamiento y un almacén de datos da como resultado un pipeline. - Data Engineering with Python. Packtpub

Miguel Juan Carlos Rojas Ortega

student•

Algún libro en PDF o físico?

Andres López

student•

En PDF

LEANDRO DARIO MAMANI

student•

Una **pipeline **de datos es una construcción lógica que representa un proceso dividido en fases.

Alejandro Cuello Maure

student•

Como una guia de pasos

Javier Suárez Meerhoff

student•

gracias!

JHØN AVALØZ

student•

Escalamiento lineal

Técnica para normalizar los datos usando una escala común en las variables de interés antes de modelar o desarrollar un aprendizaje automático. Transforma el valor de cada dato para un rango determinado. Normalmente [-1,1]

Min-Max: Transforma cada dato (X) a un valor normalizado ($X_s$) usando el valor mínimo y máximo de cada variable

$$ X_s = (2X-min-max)/(max-min) $$

Clipping: Corta la distribución de los datos entre dos valores limite. El valor de cada dato fuera de los limites colapsa al valor del limite mas cercano.
- Winzoriding: Usando percentiles específicos de limites.
Z-Score: Se determina usando medidas de tendencia central y de dispersión.

$$ X_s = ( X - Promedio) / Desv. Stand $$

Javier Suárez Meerhoff

student•

gracias!

Max Andy Diaz Neyra

student•

Resumen de clase: Todo lo anterior visto sirve para identificar el uso de estadística descriptiva en el análisis de exploración de datos. El análisis exploratorio de datos no se reduce a la visto en estadística descriptiva. En esta sección se enfoca en el uso de estadística descriptiva para el procesamiento de datos pre modelo predictivo. . Escalamiento o normalización lineal ¿Qué es? La normalización es una técnica que a menudo se aplica como parte de la preparación de datos para el aprendizaje automático. ¿En qué consiste? En cambiar los valores de las columnas numéricas en el conjunto de datos para usar una escala común, sin distorsionar las diferencias en los rangos de valores ni perder información. ¿Por qué usarlos? Los modelos de machine Learning son eficientes en el rango [-1,1]. Si los datos no se encuentran en ese rango debes transformarlos mediante el escalamiento o normalización para que los algoritmos modelen los datos correctamente. ¿Cuándo usarlos? Data simétrica o uniformemente distribuida. Un ejemplo de ellos es la distribución Gaussiana. Usando el box-splot y el histograma podremos saber la distribución de la data. . Entre los tipos más importantes tenemos:

Min-max
Clipping
Winsorizing
Z-Score

José Rodrigo Arana Hi

student•

buen resumen

Juan José Mamani Tarqui

student•

Excelente muy entendible tu resume

gracxias

Andres López

student•

Z-Score

!z-score

https://mat117.wisconsin.edu/4-the-z-score/

Luis Dotto

student•

Basicamente Pipeline, como su traduccion al castellano es Tuberia, donde dentro de esta tuberia vemos los diferentes subprocesos de DS Dejo esta imagen y un link donde explica Pipeline para DS, esta en ingles Pipeline

Alexis Leonel Altamirano Barrera

student•

Z- Score en probabilidad se denomina Variable normal estandarizada. Se transforma la distribucion a una distribucion estandarizada y para cada valor de Z se encuentran tabulados los valores de la probabilidad (Estos valores salen de la integracion de la funcion de densidad de una distribucion normal y la suma del area bajo la curva). Por si quieren entender mejor el concepto, les recomiendo este video:

https://www.youtube.com/watch?v=_gyrWRyh6Qg

Eduard Giraldo Martínez

student•

Muchas gracias por el aporte, pude entender mucho mejor!. Pusieron ejemplo y todo 👾

Miguel Juan Carlos Rojas Ortega

student•

el Zscore tambien te lo puedes topar como StandartScaler.

Jhon Freddy Tavera Blandon

student•

¿Qué es una Pipeline de Datos?

Una pipeline de datos es una construcción lógica que representa un proceso dividido en fases. Las pipelines de datos se caracterizan por definir el conjunto de pasos o fases y las tecnologías involucradas en un proceso de movimiento o procesamiento de datos.
Las pipelines de datos son necesarias ya que no debemos analizar los datos en los mismos sistemas donde se crean. El proceso de analítica es costoso computacionalmente, por lo que se separa para evitar perjudicar el rendimiento del servicio. De esta forma, tenemos sistemas OLTP, encargados de capturar y crear datos, y sistemas OLAP, encargados de analizar los datos.
Por ejemplo, un sistema OLTP puede ser un CRM, mientras que un sistema OLAP será un Data Warehouse.

Ejemplo de Pipeline de Datos

Como ejemplo, podemos pensar en las APIs de ingesta para obtener los datos. Esta API es el punto de partida, y podría enviar los datos a un topic de Apache Kafka. Kafka actúa aquí como un buffer para el siguiente paso.
Después, una tecnología de procesamiento, que puede ser streaming o batch, leerá los datos de nuestro buffer. Por ejemplo, Apache Spark realizará analítica sobre estos datos.
Por último, la pipeline termina con el resultado almacenado de forma persistente en una base de datos como HBase o en un sistema de ficheros distribuido como HDFS.
Una vez que nuestros datos están persistidos se encuentran listos para ser usados. Podríamos implementar una aplicación web que muestra estos datos en un dashboard como Grafana o consultarlos con herramientas de visualización y BI.
Los movimientos de datos entre estos sistemas forman pipelines de datos y son

Franklin Garcia

student•

Un aporte la formula que comparte el profe el rango será de [-1, 1] pero la formula que siempre se encuentra la de x-min/max-min nos dará un rango de [0,1].

Alex Antonio Angulo Luna

student•

Aqui un Link donde explican el escalamiento de datos.

Para profundizar!!

Braian Molina

student•

muy interesante el aporte. graciassss ✌️✌️

Brian Reina

student•

Me surge una duda. Cuando usamos el escalamiento lineal de max-min en la formula debería ¿usar los max-min iniciales de la data? o ¿debo usar los max-min que fueron reajustados con el método de detección de outliers?

Miguel Rodríguez

student•

Se usan después de limpiar el dataset y antes de aplicar el modelo de ML, si los outliers sobrevivieron a la limpieza, Tambien serán afectados por el escalamiento.

Brian Reina

student•

Ya lo veo. Para que voy a usar los max-min en el escalamiento de una data que acabo de limpiar.

Daniel Darío Moreno Alemán

student•

no entiendo eso de rango -1 y 1

jose juan martinez

student•

significa aque el resultado de la ecuación X_s puede valer entre -1 y 1 como ejemplos X_s = -0.76 , X_s = 0.32 ... etc.

Leonardo Federico Farfán Paredes

student•

Yo lo entendí mejor aplicando la fórmula. Por ejemplo, si tienes un conjunto de datos de edades, que van entre 20 y 35, entonces, después de hacer el tratamiento de datos, el 20 se transformaría en -1, y el 35 en +1. Y todos los datos del medio, quedarían entre estos dos datos.

Alejandra Gonzalez Sosa

student•

Pipelines de procesamiento de datos númericos

Los **Pipelines de procesamiento de datos númericos **son secuencias de etapas o pasos que se utilizan para preparar y transformar datos numéricos para su análisis. Estos pipelines suelen incluir tareas como la limpieza de datos, la imputación de valores faltantes, la normalización y la selección de características.

Algunos ejemplos de tareas comunes que se pueden incluir en uin pipeline de procesamiento de datos númericos son:

Limpieza de datos: eliminación de valores atípicos, eliminación de valores faltantes, correción de errores de entrada de datos.
Imputación de valores faltantes: reemplazo de calores faltantes con estimaciones basadas en otros datros disponibles.
Normalización: tranformación de datos para que estén en la misma escala.
Selección de características: selección de l;as variables más relevantes para el análisis.
Reducción de dimendionalidad: reducción del número de variables mediante la eliminación de redundancias o la combinación de variables.
Discretización: tranformación de variables continuas en categorías discretas.

Normalización

La normalización es un proceso de transformación de datos que se utiliza para ajutar los valores de diferentes variables para que estén en la misma escala. Esto se hace a menudo para poder comparar y analizar los datos de manera más sencilla.

Hay varias formas de normalizar los datos, dependiendo de la distribución y el rango de los datos originales. Algunas de las formas más comunes de normalización incluyen:

Min-Max normalización: esta técnica escala los datos para que el valor mínimo sea 0 y el valor máaximo sea1. Se calcula restando el valor mínimo de cada punto de datos y luego dividiendo el resultado por la diferencia entre el valor máximo y el valor mínimo.
Z-score normalización: esta técnica escala los datos de tal manera que la media de los datos sea 0 y la desviación estándar sea 1. Se calcula restando la media de cada punto de datos y luego dividiendo el resultado por la deviación estándar.
Decimal scaling: esta técnica escala los datos multiplicando cada valor por una potencia de 10 para ajustar el rango de los datos.
Winsorizing: es un proceso de transformación de datos que se utiliza para limitar o “truncar” los valores extremos de un conjunto de datos. Esto se hace para reducir el impacto de valores atípicos o extremos en el análisis de datos. Para winsorizar un conjunto de datos, primero se calcula el percentil de los datos. Los valores por debajo del percentil más bajo se reemplazan por el valor del percentil más bajo, y los valores por encima del percentil más alto se reemplazan por el valor del percentil más alto. El proceso de winsorización se puede aplicar a una sola variable o a varias variables al mismo tiempo.
Clipping: Se utiliza también para limitar los valores extremos de un conjunto de datos. Es similar al proceso de Winsorizing, pero en lugar de reemplazar los valores extremos con el percentil más bajo o más alto, simplemente se eliminan. Para aplicar el clipping a un conjunto de datos, primero se calcula el percentil más bajo y el percentil más alto. Luego, se eliminan todos los valores por debajo del percentil más bajo y todos los valores por encima del percentil más alto.

Pepe Sosa

student•

Encontré este editor de ecuaciones online, me ha servido mucho para generar las ecuaciones en imagen y luego bajarlas para integrarlas en mis apuntes, espero le sirva a alguien:

https://www.codecogs.com/latex/eqneditor.php?lang=es-es

Christian Rangel

student•

Por este tipo de cosas siempre llego al final de los comentarios. Gracias Pepe!

Miguel Angel Reyes Moreno

student•

Pipelines de procesamiento para variables numéricas

Escalamiento lineal

PDF de La técnica de escalamiento lineal por intervalos: una propuesta de estandarización aplicada a la medición de niveles de bienestar social

¿Por qué usarlo? -> Porque los modelos de machine learning son eficientes en el rango [-1, 1].

¿Hay diferentes tipos? -> maxmin, Clipping, Z-score, Winsorizing, más información en la Documentación de Normalization de Google Developers

¿Cuándo usarlos? -> cuando tenemos data simétrica o uniformemente distribuida

Fórmula usando el escalamiento de min-max -> Tenemos X y debemos llegar a Xs, entonces: Xs = (2X - min - max) / (max- min)

Un escalamiento lineal es una función lineal que simplemente transforma unos números en otros

Luis Arces Palomino Blas

student•

Hola les comparto este vídeo, donde habla mas acerca de la normalizacion: https://www.youtube.com/watch?v=P1qc-pqhJGE

Hugo Montoya Diaz

student•

Pipelines de procesamiento

clint martinez

student•

Excelente imagen !!! muy ilustrativa e intuitiva, define muy bien el concepto de escalamiento, que se trata de no perder la proporcionalidad de los datos, al momento de normalizarlos gracias

Mauricio Rojas Nova

student•

Es necesario normalizar los datos antes de pasarlos por un modelo de machine learning, ya que estos son óptimos cuando los atributos están siempre en las mismas dimensiones.

Escalamiento Lineal de Datos Numéricos para Machine Learning

¿Para qué sirve la estadística descriptiva?

Fundamentos de Estadística Descriptiva y sus Aplicaciones Prácticas

Estadística Descriptiva en el Flujo de Ciencia de Datos

Estadística Descriptiva Aplicada a Ciencia de Datos

Estadística descriptiva para analítica

Uso de Deepnote para Jupyter Notebooks en Ciencia de Datos

Tipos de Datos en Ciencia de Datos: Categóricos y Numéricos

Medidas de Tendencia Central: Media, Mediana y Moda

Media vs. Mediana: Diferencias y Aplicaciones Prácticas

"Estadística Descriptiva con Pandas: Medidas de Tendencia Central"

Rango y Rango Intercuartil en Medidas de Dispersión

Desviación Estándar y Varianza en Estadística Descriptiva

Cálculo y Visualización de Medidas de Dispersión en Python

Visualización de Datos: Catálogo y Uso de Diagramas en Python

Diagramas de Dispersión y su Análisis con Seaborn

Estadística en la ingesta de datos