Transformaciones No Lineales para Datos Sesgados en Machine Learning

Curso de Matemáticas para Data Science: Estadística Descriptiva

Contenido del curso

¿Para qué sirve la estadística descriptiva?

Estadística descriptiva para analítica

Estadística en la ingesta de datos

Proyecto de aplicación

Despedida

24
Estadística Descriptiva: Claves para el Análisis de Datos
03:06 min

Tomar examen

Transformaciones No Lineales para Datos Sesgados en Machine Learning

Resumen

¿Qué hacer cuando la distribución de datos no es simétrica?

Cuando trabajamos con datos en machine learning, es común encontrarnos con distribuciones que no son simétricas y que, por tanto, no se benefician de técnicas de escalamiento lineal, como el uso de la media y la desviación estándar. En estos casos, debemos transformar los datos para que adquieran una distribución simétrica antes de aplicar cualquier escalamiento lineal.

¿Por qué utilizar transformaciones no lineales?

Las transformaciones no lineales son cruciales para manejar datos que presentan un fuerte sesgo. Estas transformaciones nos permiten modificar la distribución de manera que se vuelva más homogénea o simétrica, lo cual es esencial antes de aplicar escalamiento lineal.

Existen diferentes tipos de transformaciones no lineales que se pueden aplicar, entre las cuales se incluyen:

Logaritmos
Funciones sigmoides
Polinomios de grado mayor a uno

¿Cuándo aplicar las transformaciones?

Las transformaciones no lineales deben aplicarse justo antes de escalar linealmente los datos. Esto asegura que, al momento de realizar el escalamiento, la distribución de los datos ya sea simétrica.

¿Cómo afectan las funciones no lineales la distribución de datos?

Los efectos de las transformaciones no lineales son visibles al observar la función y cómo transforma valores de manera no homogénea.

Ejemplo: Tangente hiperbólica

Consideremos una distribución de datos altamente sesgada y su transformación mediante la tangente hiperbólica. La tangente hiperbólica transformará los datos original:

Valores pequeños -> Intervalo más ancho
Valores grandes -> Intervalo más delgado

Esto ayuda a reducir el sesgo, ya que los datos que estaban distantes ahora se mapean en posiciones más cercanas entre sí.

La tangente hiperbólica tiene carácter de simetrizar la distribución al expandir rangos cercanos al cero y contraer outliers. Puedes visualizar este efecto mediante un gráfico, donde verás que los valores pequeños se extienden sobre un rango más amplio comparado con los valores grandes.

Ejemplo: Funciones raíz y polinómicas

Raíz cuadrada: Esta función es útil porque los datos cercanos al origen son mapeados en intervalos más pequeños, reduciendo el impacto de valores extremos (outliers).
Polinomios: Podemos usar funciones polinómicas de la forma ( x^n ) con ( n ) siendo un número positivo. Dependiendo del valor de ( n ), la transformación de la distribución variará, y podemos adaptar el mapeo según nuestras necesidades de simetría.

¿Cómo elegir la mejor transformación?

No existe una única respuesta correcta para todas las situaciones. Las características de tus datos y el contexto del problema determinan la función más adecuada. Sin embargo, algunas funciones ampliamente utilizadas incluyen la tangente hiperbólica y las funciones sigmoides debido a su capacidad de expandir rangos bajos y reducir la influencia de outliers.

Implementar estas transformaciones y visualizar sus efectos es esencial para comprender plenamente su impacto. Pronto, realizaremos un ejercicio práctico utilizando Python para aplicar estas transformaciones y observar visualmente la mejoría en la distribución de nuestros datos.

Miguel Angel Velazquez Romero

Estudiante

Transformación no lineal

¿Por qué usarlos?

En el caso donde haya datos fuertemente sesgados y no simétricos.

Algunos tipos:

Logística: los valores de la columna se transforman mediante la siguiente fórmula:

!log

LogNormal: esta opción convierte todos los valores a una escala logarítmica normal. Los valores1 de la columna se transforman mediante la siguiente fórmula:

!lognormal

Aquí μ y σ son los parámetros de la distribución, calculados empíricamente a partir de los datos como estimaciones de máxima verosimilitud, para cada columna por separado.

TanH: todos los valores se convierten a una tangente hiperbólica. Los valores de la columna se transforman mediante la siguiente fórmula:

!Tha

¿Cuándo usarlos?

Justo antes de aplicar el escalamiento lineal, las transformaciones no lineales solo son para que nuestros datos queden lineales para luego aplicar la normalización lineal. Siempre se debe aplicar la normalización lineal.

Anthony Jean Paul Blaz Lazo

Estudiante

Excelente aporte

Roberth Mafla

Estudiante

Muy importante el aporte, especialmente el de logística, ese principio es el que permite trabajar con variables categóricas dependientes, por ejemplo cual es la probabilidad de que un evento ocurra (1= que si ocurra y 0= que no ocurra)

Juan David Suarez

Josue Gonzalez Macias

José Joaquín Tripp Gudiño

frank hurtado

Pablo Antipan Quiñenao

LUIS ENRIQUE BAEZ MENDEZ

Arazani Balcazar Martínez

Paula Andrea Hayle

David Andrés Torres Forero

Jose David Lievano Gonzalez

Aldair Avalos

Diego Alejandro Hernandez Londono

Frank Gianmarco Casanova Quiroz

Daniel Valenzuela

JHØN AVALØZ

Gerardo Mayel Fernández Alamilla

Nicolas Barragan

Manuel Espitia

Oscar Moreno

Diego García Alvarez

Mauricio Martínez Orjuela

Aaron Mainero

Braian Molina

Max Andy Diaz Neyra

Augusto Mas

Miguel Angel Reyes Moreno

Mauricio Rojas Nova

Transformaciones No Lineales para Datos Sesgados en Machine Learning

¿Para qué sirve la estadística descriptiva?

Fundamentos de Estadística Descriptiva y sus Aplicaciones Prácticas

Estadística Descriptiva en el Flujo de Ciencia de Datos

Estadística Descriptiva Aplicada a Ciencia de Datos

Estadística descriptiva para analítica

Uso de Deepnote para Jupyter Notebooks en Ciencia de Datos

Tipos de Datos en Ciencia de Datos: Categóricos y Numéricos

Medidas de Tendencia Central: Media, Mediana y Moda

Media vs. Mediana: Diferencias y Aplicaciones Prácticas

"Estadística Descriptiva con Pandas: Medidas de Tendencia Central"

Rango y Rango Intercuartil en Medidas de Dispersión

Desviación Estándar y Varianza en Estadística Descriptiva

Cálculo y Visualización de Medidas de Dispersión en Python

Visualización de Datos: Catálogo y Uso de Diagramas en Python

Diagramas de Dispersión y su Análisis con Seaborn

Estadística en la ingesta de datos

Escalamiento Lineal de Datos Numéricos para Machine Learning