Ejemplo de escalamiento de datos con la función tanh

PeluElGrande

9094Puntos

4 años

Esta super amigo, voy a usarlo, te cuento me gusta mas Deepnot

PeluElGrande

9094Puntos

4 años

Deepnote

mendozacortesmanuel

2609Puntos

2 años

Hola! tengo una duda.
Tenía entendido que deberías escalar los datos en el set de test con las mismas medias (promedios) del set de entrenamiento? Cuál es la diferencia de hacerlo así?

AlexRodS

32179Puntos

2 años

Hola! tienes razón en su momento lo hice así por un comentario de otra clase:

"los datos de test no deben poseer información de los datos de train, ya que incurrimos en faltas éticas y aparte conlleva a que nuestro modelo presente overfitting."

Pero investigando un poco encontré esto:

No se deben recalcular los parámetros de escalamiento (como el mínimo y el máximo para la normalización o la media y la desviación estándar para la estandarización) en función de los datos de prueba por varias razones:

1.- Consistencia: El propósito principal del escalamiento es garantizar que las características tengan la misma escala en los datos de entrenamiento y los datos de prueba. Si recalculas los parámetros de escalamiento en los datos de prueba, podrías obtener una escala diferente, lo que rompería la consistencia entre los dos conjuntos de datos.

2.- Evitar fugas de información: Recalcular los parámetros de escalamiento en los datos de prueba podría introducir una forma de fuga de información. Esto significa que estarías utilizando información de los datos de prueba para ajustar la transformación, lo cual no es apropiado, ya que los datos de prueba deberían tratarse como datos completamente nuevos que el modelo nunca ha visto antes. Esto podría llevar a una evaluación sesgada y poco realista del rendimiento del modelo.

3.- Mantener la misma escala de entrenamiento: La escala de las características en el conjunto de datos de entrenamiento se selecciona generalmente de manera deliberada para que el modelo aprenda relaciones significativas entre las características en esa escala específica. Si cambias la escala en los datos de prueba, el modelo podría no funcionar de la misma manera y dar lugar a predicciones incorrectas.

4.- Reproducibilidad: Mantener los parámetros de escalamiento constantes entre el entrenamiento y la prueba permite que los resultados del modelo sean reproducibles y coherentes en diferentes momentos o en diferentes entornos.

Gracias por la aclaración!

fedemario1998

13278Puntos

2 años

Muy buen post! Lo único a resaltar es que la diferencia del error es muuucho mas grande. El mínimo error de los otros modelos es de ~$83k, con lo cual la diferencia es de ~$66k.