porque los datos de entrenamiento y los datos de entrada no deben ser iguales?

Charles Daniel Carrasco Burgos

Pregunta

student•hace 3 años

Catalina Venecia

student•hace 2 años

Menos mal alguien hizo la pregunta :P... Yo seguí viendo otros vídeos pero al ver que no se le daba solución, me fui a chismosearle a Chat GPT 3.5. Esto fue lo que escribió>>

"En machine learning, es importante distinguir entre los datos de entrada y los datos de entrenamiento debido a la naturaleza del proceso de entrenamiento y la evaluación del modelo. Aquí te explico por qué no suelen ser los mismos:

Propósito del entrenamiento y la evaluación:

Datos de entrenamiento: Estos son los datos que se utilizan para entrenar el modelo. Durante el proceso de entrenamiento, el modelo ajusta sus parámetros para aprender patrones y relaciones en estos datos. El objetivo es que el modelo pueda generalizar a partir de los datos de entrenamiento para hacer predicciones precisas en datos no vistos en el futuro.

Datos de evaluación: Estos son datos separados y distintos de los datos de entrenamiento que se utilizan para evaluar el rendimiento del modelo después de que ha sido entrenado. El propósito principal de estos datos es medir la capacidad del modelo para generalizar a nuevas observaciones que no ha visto durante el entrenamiento. Los datos de evaluación ayudan a determinar si el modelo ha aprendido los patrones subyacentes en lugar de memorizar los datos de entrenamiento.

Evaluación imparcial:

Si se usaran los mismos datos de entrenamiento para evaluar el modelo, el rendimiento podría ser engañoso. El modelo podría parecer tener un rendimiento excelente en los datos de entrenamiento, pero no sería capaz de generalizar bien a datos desconocidos debido al sobreajuste (overfitting), donde el modelo se adapta demasiado a los detalles específicos de los datos de entrenamiento. Generalización:

El objetivo principal del aprendizaje automático es crear modelos que puedan generalizar a nuevos datos. Si se usaran los mismos datos para entrenar y evaluar, no se estaría probando realmente la capacidad de generalización del modelo. Validación y ajuste de hiperparámetros:

Los datos de evaluación también se utilizan en la selección de modelos y ajuste de hiperparámetros. Se pueden probar diferentes configuraciones de modelos y parámetros en los datos de evaluación para elegir la mejor combinación que generalice bien. En resumen, separar los datos de entrada de los datos de entrenamiento y evaluación es una práctica fundamental en machine learning para garantizar que los modelos se ajusten correctamente, generalicen bien a datos nuevos y eviten el sobreajuste. Esto permite construir modelos más robustos y útiles en aplicaciones del mundo real."

Para mayor claridad, le dije que hiciera una analogía del sobreajuste, esa fue su respuesta >>

Claro, aquí tienes una analogía breve para entender el sobreajuste:

Imagina que estás aprendiendo a jugar al lanzamiento de dardos en un tablero. Si practicas mucho usando un solo tablero y solo lanzas desde una distancia específica, es posible que te vuelvas muy bueno en ese tablero y a esa distancia particular. Sin embargo, cuando intentas lanzar dardos en otros tableros o desde diferentes distancias, tus habilidades pueden ser mucho menos precisas. En este caso, has "sobreajustado" tus habilidades al tablero y la distancia de entrenamiento específicos, y no puedes generalizar bien a otras situaciones. En el aprendizaje automático, el sobreajuste es similar: el modelo se ajusta demasiado a los datos de entrenamiento y no puede generalizar adecuadamente a nuevos datos.

Y ahí lo tienes, con algo de suerte no alucinó. Por otro lado, a mi lo que se me vino a la mente, fue su relación con el aprendizaje humano y la derivación de aprender por repetición vs análisis.

Charles Daniel Carrasco Burgos

student•hace 3 años

Gracias por sus respuestas. Ambas magníficas y me sacaron la duda.

Manuel Alejandro Arias Rodriguez

student•hace 3 años

En primer lugar, si los datos de entrenamiento y los de entrada son idénticos, el modelo se limitará a memorizar los datos de entrenamiento y no aprenderá a generalizar con los nuevos datos.

Esto no es deseable, ya que queremos que nuestros modelos sean capaces de aprender de nuevos ejemplos y de generalizar bien

En segundo lugar, el uso de datos diferentes para el entrenamiento y la prueba nos permite evaluar adecuadamente el rendimiento de nuestro modelo en datos no vistos.

Si utilizamos los mismos datos para el entrenamiento y para las pruebas, no podemos estar seguros del rendimiento de nuestro modelo con datos realmente desconocidos.

Esto podría llevar a un sobreajuste, en el que nuestro modelo se comporta bien durante el proceso de entrenamiento pero no funciona tan bien cuando se aplica a los nuevos datos.

Esto puede ser un gran problema, ya que el sobreajuste puede llevarnos a creer que nuestro modelo es realmente mejor de lo que es, y podemos acabar utilizándolo en sistemas de producción reales sin darnos cuenta de que en realidad no es muy preciso.

Anthony Ismael Manotoa Moreno

student•hace 3 años

Hola :)

Porque si envías los mismos, la precisión va a ser perfecta porque estás pasando lo mismo con lo que entrenaste. La idea es que funcione en otros contextos. Te hago una analogía con fútbol:

Los jugadores entrenan toda la semana, pero el fin de semana su partido es contra otros equipos, no contra los mismos que entrenaron entre semana (si jugaran contra los mismos de entrenamiento, siempre sabrían como ganar, pero probablemente no lo hagan contra equipos distintos).

porque los datos de entrenamiento y los datos de entrada no deben ser iguales?

Guía para Empezar una Carrera en Data Science e Inteligencia Artificial

Guía para Empezar una Carrera en Data Science e Inteligencia Artificial