En 1940 Alan Turing plantea la teoría de la computación la cuál planteaba un sistema binario para la comunicación de computadores, paralelamente, McCulloch y Pitts planteaban la primer neurona artificial, posteriormente, Turing plantearía la prueba de Turing, una prueba de imitación para diferenciar máquinas y humanos
La investigación de AI tuvo varios inviernos, momentos donde esta rama de las ciencias de la computación no avanzó, en concreto en los lapsos de 1970-1980 y 1987-2000. Algunos problemas fueron los pocos resultados de investigaciones financiadas, por lo que se invirtió en otras áreas
En 1989, Yann LeCun planteó la primera Convolutional Neural Network (CNN) bajo el dataset de MNIST. El uso de convoluciones es un concepto para muchas arquitecturas claves de Redes Neuronales, incluyendo los transformers
NVIDIA es la empresa clave para entrenar modelos de ML.Gracias a sus chips y a CUDA, se pueden hacer operaciones paralelas, en concreto, entrenamiento de modelos de Deep Learning lanzado en el 2007. En 2011 se logró el hito de entrenar el primer modelo bajo GPU, este modelo era AlexNet (entrenada en una GTX 580)
Todos estos avances y el del paper estrella Attention is all you need (en 2018) permitieron la creación del primer modelo generativo entrenado con transformers, GPT-1 (siendo el primer escalón para el futuro desarrollo de ChatGPT)
GPT-1 tiene 117 millones de parámetros, donde los modelos modernos tienen (en el más pequeño de los casos) 7 billones de parámetros, esto implica que las nuevas iteraciones requieren de más poder de cómputo, uno que es liberado año tras año por NVIDIA
GPT-2 nace meses después, este ahora tiene 1.5 billones de parámetros, sus mejoras fueron incrementar la cantidad de datos de entrenamiento y la cantidad de capas de atención implementada
Menos de 1 año después, OpenAI hizo release de GPT-3 más su API, permitiendo el acceso para interactuar con este modelo (este tiene 175 billones de parámetros)
A partir de este punto no hubo releases mayores por 2 años hasta el lanzamiento de ChatGPT, un producto que permitía interactuar con el modelo directamente a usuarios con una interfaz de chat y una mecánica de conversación (aparentemente el modelo under the hood era GPT-3.5, pero OpenAI dejó de dar indicaciones técnicas de sus productos a partir de este punto)
GPT-4 fue el siguiente gran lanzamiento, el cuál traería como feature principal agregar al usuario a la cadena de entrenamiento mediante el Reinforcement Learning with Human Feedback (RLHF), un mecanismo para avisar al modelo si las respuesta que daba eran correctas tanto en redacción como en contenido. Este fue aparentemente de 1.7 trillones de parámetros
El modelo de RLHF fue el prior para desarrollar otros modelos como Llama-3, Claude y Deepseek, este último fue revolucionario por plantear mecanismos en la optimización del modelo dado que fue desarrollado por investigadores chinos sin acceso a poder del cómputo en el estado del arte. Implementaron técnicas de optimización con CUDA y PTX, además de mejorar el caché del modelo