Historia de la inteligencia artificial desde Turing hasta GPT-4

Curso de Fundamentos de LLMs

Contenido del curso

Fundamentos de los LLMs

Componentes Avanzandos de los LLMs

Personalización y Optimización

Evaluación de Modelos

20
Benchmarks para evaluar y comparar modelos LLM
12:53 min

Tomar examen

Historia de la inteligencia artificial desde Turing hasta GPT-4

Resumen

La inteligencia artificial (IA) y específicamente los modelos GPT han revolucionado la forma en que interactuamos con la tecnología. Desde las bases sentadas por Alan Turing en los años cuarenta, hasta la aparición de ChatGPT, es esencial entender cómo ha evolucionado este campo y cómo influye en nuestro día a día.

¿Cómo inició la Inteligencia Artificial?

El origen de la inteligencia artificial se remonta a los años cuarenta con la teoría computacional desarrollada por Alan Turing. Este científico propuso la capacidad de que máquinas comprendieran el conocimiento humano mediante comandos binarios, y posteriormente, con su prueba de Turing, estableció las primeras bases para evaluar si una máquina podía emular la conversación humana.

Poco tiempo después, los investigadores McCulloch y Pitts introdujeron la primera neurona artificial, una innovación crucial para el posterior desarrollo del campo.

¿Qué fue el AI Winter y cómo afectó al desarrollo tecnológico?

Entre 1970 y principios del año 2000 ocurrió el denominado AI Winter, un periodo caracterizado por significativa reducción de recursos e inversiones en IA, principalmente debido al fracaso de varios proyectos gubernamentales que no cumplían con las expectativas. Durante estos años, agencias destacadas como DARPA vieron necesario cortar significativamente sus financiaciones debido a críticas y escepticismos generalizados.

Sin embargo, pese a estos desafíos, el trabajo continuó, destacándose aportes clave como el desarrollo de las Convolutional Neural Networks (CNN) por parte del joven Yann LeCun en 1989. Este avance marcó un punto importante en la mejora de procesos de reconocimiento de imágenes y datos visuales.

¿Cómo han evolucionado los modelos GPT?

NVIDIA, con su lanzamiento del software CUDA en 2007, capacitó a los desarrolladores para realizar cálculos complejos mediante tarjetas gráficas. Esta innovación propició en 2011 el entrenamiento del modelo AlexNet, utilizando hardware que inicialmente estaba destinado al gaming. Avances posteriores liderados por científicos como Ilya Sutskever y Geoffrey Hinton contribuyeron al lanzamiento de transformers y sentaron las bases para la aparición del primer GPT en 2018.

Desde entonces, OpenAI ha protagonizado la evolución acelerada de estos modelos:

GPT-1 (2018): introdujo los transformers con apenas 117 millones de parámetros.
GPT-2 (2019): incrementó la complejidad hasta los 1.5 billones de parámetros.
GPT-3 (2020): dio un gran salto, alcanzando 175 billones de parámetros.
ChatGPT y GPT-3.5: facilitaron a nivel masivo el acceso a estos modelos, mostrando un impresionante desempeño en interacciones conversacionales.
GPT-4: agregó el factor humano en su entrenamiento mediante Reinforcement Learning with Human Feedback, llegando a impresionantes 1.7 trillones de parámetros.
DeepSeek y LLAMA: modelos recientes que han optimizado sus capacidades con técnicas avanzadas frente a las limitaciones tecnológicas actuales.

¿Cuál es el presente y futuro cercano de la IA?

Hoy en día, el impacto de la inteligencia artificial se evidencia diariamente, modificando la interacción entre humanos y tecnologías digitales. Empresas líderes como Meta y Google están integrando estos avances en diversos productos, indicando la relevancia creciente de los grandes modelos de lenguaje.

La rápida escalabilidad de estos modelos plantea inquietudes en torno al acercamiento hacia la Inteligencia Artificial general (Artificial General Intelligence, AGI), y cómo estos progresos continuarán transformando múltiples aspectos del conocimiento y las interacciones humanas.

¿Cómo crees que impactarán estos desarrollos tecnológicos en nuestro futuro próximo? Deja tus reflexiones y preguntas en los comentarios.

Sebastián Franco

Estudiante

En 1940 Alan Turing plantea la teoría de la computación la cuál planteaba un sistema binario para la comunicación de computadores, paralelamente, McCulloch y Pitts planteaban la primer neurona artificial, posteriormente, Turing plantearía la prueba de Turing, una prueba de imitación para diferenciar máquinas y humanos

La investigación de AI tuvo varios inviernos, momentos donde esta rama de las ciencias de la computación no avanzó, en concreto en los lapsos de 1970-1980 y 1987-2000. Algunos problemas fueron los pocos resultados de investigaciones financiadas, por lo que se invirtió en otras áreas

En 1989, Yann LeCun planteó la primera Convolutional Neural Network (CNN) bajo el dataset de MNIST. El uso de convoluciones es un concepto para muchas arquitecturas claves de Redes Neuronales, incluyendo los transformers

NVIDIA es la empresa clave para entrenar modelos de ML.Gracias a sus chips y a CUDA, se pueden hacer operaciones paralelas, en concreto, entrenamiento de modelos de Deep Learning lanzado en el 2007. En 2011 se logró el hito de entrenar el primer modelo bajo GPU, este modelo era AlexNet (entrenada en una GTX 580)

Todos estos avances y el del paper estrella Attention is all you need (en 2018) permitieron la creación del primer modelo generativo entrenado con transformers, GPT-1 (siendo el primer escalón para el futuro desarrollo de ChatGPT)

GPT-1 tiene 117 millones de parámetros, donde los modelos modernos tienen (en el más pequeño de los casos) 7 billones de parámetros, esto implica que las nuevas iteraciones requieren de más poder de cómputo, uno que es liberado año tras año por NVIDIA

GPT-2 nace meses después, este ahora tiene 1.5 billones de parámetros, sus mejoras fueron incrementar la cantidad de datos de entrenamiento y la cantidad de capas de atención implementada

Menos de 1 año después, OpenAI hizo release de GPT-3 más su API, permitiendo el acceso para interactuar con este modelo (este tiene 175 billones de parámetros)

A partir de este punto no hubo releases mayores por 2 años hasta el lanzamiento de ChatGPT, un producto que permitía interactuar con el modelo directamente a usuarios con una interfaz de chat y una mecánica de conversación (aparentemente el modelo under the hood era GPT-3.5, pero OpenAI dejó de dar indicaciones técnicas de sus productos a partir de este punto)

GPT-4 fue el siguiente gran lanzamiento, el cuál traería como feature principal agregar al usuario a la cadena de entrenamiento mediante el Reinforcement Learning with Human Feedback (RLHF), un mecanismo para avisar al modelo si las respuesta que daba eran correctas tanto en redacción como en contenido. Este fue aparentemente de 1.7 trillones de parámetros

El modelo de RLHF fue el prior para desarrollar otros modelos como Llama-3, Claude y Deepseek, este último fue revolucionario por plantear mecanismos en la optimización del modelo dado que fue desarrollado por investigadores chinos sin acceso a poder del cómputo en el estado del arte. Implementaron técnicas de optimización con CUDA y PTX, además de mejorar el caché del modelo

Rosmer Campos

Miguel Angel Otero Otero

•

Sergio Eyzhan Del Castillo

Harold Celis

Mateo Roldán

Alfredo Olmedo

Claudia Andrea Aparicio Chavez

Kevin Daniel Mora Gonzalez

Gerardo Cazarín

Job Wilson Rioja Sejas

Eloy Chávez Dev

L. Iván Carrasquel Ballesteros

José Antonio De La Paz Fonseca

LEIDY YUDIER MORENO MORENO

Diego Gutierrez

Jhon Maldonado

Mauricio Pineda

Wilder Leoncio Correa Sánchez

José Luis Mendez Marcano

CARLOS EDUARDO MEJÍA LUNA

Mateo Montoya Henao

Franco Manca

Carolina Ibarra

Historia de la inteligencia artificial desde Turing hasta GPT-4

Fundamentos de los LLMs

Funcionamiento interno de los grandes modelos de lenguaje

Qué construirás al terminar el curso de LLMs