
Andrés Naranjo Z.
PreguntaPor que se debe escalar las variables? Que efecto tiene esto en los datos y siempre se debe hacer?

Andrés Felipe Rubiano Moreno
En general si se debe hacer siempre ya que facilita el proceso. cuando tiene n features/variables en la mayoría de casos estas van a tener rangos muy diferentes, algunas pueden ser muy pequeñas cercanas a 0, y otras pueden ser exageradamente grandes. Es muy raro encontrarse con un set de datos donde las variables compartan un rango similar. Cuando intente graficar estas variables se va a encontrar con que los ejes se van a distorsionar excesivamente, ya que por ejemplo si los datos tuvieran una forma circular y un eje es varios ordenes de magnitud más grande que otro la gráfica se vería como un ovalo, cuando los datos son normalizados la gráfica volvería a verse similar a un circulo, por lo tanto la forma/topología de los datos se ve afectada por este proceso. Escalar los datos toma mucha importancia al momento de optimizar ya que matemáticamente no tiene que tratar con una forma distorsionada, que es sensible a pequeños cambios de las variables de entrada, sino con una forma más "regular" ( escribo regular entre comillas por que esto no solo depende de escalar los features, sino del problema que se trata y los mismos features como tal) que facilita el proceso y mejora el resultado en comparación a su contraparte.