Por que se debe escalar las variables? Que efecto tiene esto en los datos y siempre se debe hacer?

Andrés Naranjo Z.

Andrés Naranjo Z.

Pregunta
studenthace 5 años

Por que se debe escalar las variables? Que efecto tiene esto en los datos y siempre se debe hacer?

1 respuestas
para escribir tu comentario
    Andrés Felipe Rubiano Moreno

    Andrés Felipe Rubiano Moreno

    studenthace 5 años

    En general si se debe hacer siempre ya que facilita el proceso. cuando tiene n features/variables en la mayoría de casos estas van a tener rangos muy diferentes, algunas pueden ser muy pequeñas cercanas a 0, y otras pueden ser exageradamente grandes. Es muy raro encontrarse con un set de datos donde las variables compartan un rango similar. Cuando intente graficar estas variables se va a encontrar con que los ejes se van a distorsionar excesivamente, ya que por ejemplo si los datos tuvieran una forma circular y un eje es varios ordenes de magnitud más grande que otro la gráfica se vería como un ovalo, cuando los datos son normalizados la gráfica volvería a verse similar a un circulo, por lo tanto la forma/topología de los datos se ve afectada por este proceso. Escalar los datos toma mucha importancia al momento de optimizar ya que matemáticamente no tiene que tratar con una forma distorsionada, que es sensible a pequeños cambios de las variables de entrada, sino con una forma más "regular" ( escribo regular entre comillas por que esto no solo depende de escalar los features, sino del problema que se trata y los mismos features como tal) que facilita el proceso y mejora el resultado en comparación a su contraparte.

Curso Profesional de Ciencia de Datos 2019

Curso Profesional de Ciencia de Datos 2019

Implementa un flujo profesional de ciencia de datos. Recolecta datos con web scraping y R, procésalos y analízalos con el algoritmo K-means. Conecta los datos a una webapp utilizando una API con plumber y genera informes interactivos con Shiny.

Curso Profesional de Ciencia de Datos 2019
Curso Profesional de Ciencia de Datos 2019

Curso Profesional de Ciencia de Datos 2019

Implementa un flujo profesional de ciencia de datos. Recolecta datos con web scraping y R, procésalos y analízalos con el algoritmo K-means. Conecta los datos a una webapp utilizando una API con plumber y genera informes interactivos con Shiny.