Cómo mantener contexto en conversaciones con OpenAI

Clase 4 de 18 • Curso de Configuración de APIs de LLMs

Contenido del curso

OpenAI API

Claude API

Gemini API y Despliegue con Vercel

Vercel AI SDK

ElevenLabs API

Tomar examen

Resumen

Construir un chatbot que olvida lo que le dijiste hace dos mensajes no tiene sentido en una aplicación real. Para lograr un flujo conversacional útil, la API de OpenAI necesita mantener el contexto entre mensajes. Aquí se explora cómo pasar de una respuesta única a una conversación completa, usando streaming y el endpoint de completions, todo desde la terminal con Node.js.

¿Cómo funciona el streaming en la API de OpenAI?

En una solicitud estándar, la API procesa todo el contenido y lo devuelve de golpe. Esto funciona para respuestas cortas, pero cuando pedimos textos más largos, como una historia de cien palabras, la espera se nota. La solución es activar el parámetro stream: true [01:40] dentro de la llamada a la API de responses.

Con stream activado, la API entrega la respuesta parte por parte mientras la genera. Cada fragmento llega como un evento llamado delta [02:07], que es el nombre que OpenAI asigna por defecto a cada porción de texto dentro del objeto de respuesta.

Para consumir ese flujo, se utiliza un bucle for await que itera sobre cada fragmento recibido:

javascript for await (const event of response) { process.stdout.write(event.output_text.delta); }

El resultado es muy parecido a lo que vemos en los chatbots actuales: el texto aparece en pantalla conforme se genera [02:24], palabra por palabra, en lugar de esperar a que se complete toda la respuesta. Este comportamiento mejora la experiencia del usuario en cualquier aplicación conversacional.

¿Qué es el endpoint de completions y por qué usarlo?

Para mantener una conversación con contexto, no basta con el endpoint de responses. Se necesita el endpoint de completions [03:10], que se encarga de leer múltiples mensajes, almacenarlos y devolver respuestas progresivas.

La estructura que recibe completions es un array de objetos, donde cada objeto representa un mensaje con dos propiedades:

role: define quién envía el mensaje (system, user o assistant).
content: el texto del mensaje como string.

Un ejemplo típico luce así [03:27]:

javascript const messages = [ { role: 'system', content: 'Eres un asistente muy útil y amable' }, { role: 'user', content: '¿Cuál es la capital de Colombia?' } ];

El rol de system establece la personalidad y las instrucciones del asistente. El rol de user simula las preguntas del usuario. Al enviar estos mensajes, la API genera una primera respuesta utilizando el modelo GPT [03:55].

¿Cómo se mantiene el contexto entre preguntas?

Después de obtener la primera respuesta, se concatena un nuevo mensaje al array original [04:15]. Por ejemplo, si el usuario pregunta "¿y su población?", la API ya sabe que se refiere a Bogotá porque conserva toda la lista de mensajes anteriores.

javascript messages.push({ role: 'user', content: '¿Y su población?' }); const res2 = await client.chat.completions.create({ model: 'gpt-4', messages });

La segunda respuesta depende directamente de la primera [04:40]. En el ejemplo mostrado, la API respondió con datos sobre los aproximadamente ocho millones de habitantes de Bogotá D.C. y su aglomeración urbana con Soacha, rondando los diez a once millones [05:05]. Esto confirma que la memoria se mantiene gracias al array de mensajes acumulados.

¿Cómo crear un chat interactivo desde la terminal?

El siguiente paso es reemplazar los mensajes predefinidos por entradas dinámicas del usuario [05:40]. En lugar de tener el array con contenido fijo, se lee el prompt directamente desde la terminal.

Al ejecutar node chatterminal.js [05:50], la terminal solicita un prompt y el asistente responde. Cada nueva pregunta se agrega al historial de mensajes. Por ejemplo:

"¿Cuál es la capital de Francia?" → "La capital de Francia es París."
"¿Y cuáles son los colores de su bandera?" → "La bandera de Francia es tricolor: azul, blanco y rojo" [06:20].

La tercera pregunta no menciona ningún país, pero la API infiere el contexto porque almacena las interacciones previas en memoria [06:40]. Este comportamiento es la base de cualquier aplicación conversacional real.

Los puntos más relevantes para implementar tu propio chat son:

Activar stream: true para respuestas progresivas.
Usar el endpoint de completions con un array de mensajes.
Acumular cada mensaje y respuesta en el array para preservar el contexto.
Leer la entrada del usuario con las herramientas de Node.js para hacerlo interactivo.

¿Cuál de estas funcionalidades te resultó más útil para tus proyectos? Comparte tu experiencia en los comentarios.

Comentarios

Roberto Carlos Moreira España

student•

¿Puedo usar esto para otros modelos?

Absolutamente. La arquitectura del cliente de OpenAI está diseñada para ser agnóstica respecto al modelo de lenguaje que elijas. En el objeto de configuración donde defines el model, puedes cambiar fácilmente el valor por cualquier otro modelo disponible en la plataforma, dependiendo de tus necesidades de velocidad, costo o capacidad de razonamiento.

Por ejemplo, si necesitas respuestas ultra rápidas y económicas para tareas sencillas, puedes cambiar el string a "gpt-3.5-turbo" o "gpt-4o-mini". Si requieres análisis profundo, lógica compleja o generación de código avanzado, puedes apuntar a "gpt-4o". Lo único que debes tener en cuenta es que algunos modelos más antiguos pueden usar endpoints diferentes (como Completions en lugar de Chat Completions), pero mientras uses los modelos modernos de la familia GPT, la estructura de tu código de conexión y el envío del prompt se mantendrán exactamente iguales. Solo cambias una línea de texto y obtienes un "cerebro" completamente distinto.

Alexander Volantines

student•

No es estrictamente necesario usar el endpoint de Chat Completions para mantener el contexto de una conversación. También se puede utilizar la Responses API. Para ello, basta con enviar en cada nueva solicitud el ID de la última respuesta generada. De esta forma, la API interpreta que deseas continuar con el contexto conversacional. En cada ejecución, debes capturar el ID de la respuesta anterior y enviarlo como parámetro en el siguiente request. (previous_response_id)

previous_response_id

Erasmo Hernández

teacher•

Eso te obliga a hacer un paso adicional, capturar el ID y mandarlo al siguiente mensaje... por lógica esto será más lento. Por eso la recomendación, pero igual, esto pasa a ser preferencias del desarrollador, nada está escrito en piedra.

Gabriel Obregón

student•

🧠 CHATBOTS CON CONTEXTO (OpenAI + Node.js)

🎯 IDEA CLAVE

• Un chatbot útil recuerda lo que se habló antes.

• Sin contexto → respuestas incoherentes ❌.

• Con contexto → conversación natural ✅.

⚠️ PROBLEMA PRINCIPAL

• El chatbot responde solo a la última pregunta. • Olvida mensajes anteriores. • La conversación pierde sentido.

👉 Conclusión: • Necesitamos memoria + flujo continuo.

⚡ STREAMING (RESPUESTA EN VIVO)

🔹 ¿Qué cambia? • Antes: respuesta completa al final ⏳. • Ahora: respuesta en tiempo real ⚡.

🔹 Activación: • stream: true

🔹 Funcionamiento: • La respuesta llega en partes → “delta”. • Cada fragmento se imprime al instante.

🔹 Ejemplo:

for await (const event of response) {

process.stdout.write(event.output_text.delta);

}

🎯 Resultado: • Texto aparece palabra por palabra. • Sensación tipo ChatGPT 💬.

🧩 ENDPOINT DE COMPLETIONS

🔹 ¿Para qué sirve? • Manejar conversaciones completas. • Mantener contexto entre mensajes.

🔹 Estructura: • Lista (array) de mensajes.

🔹 Cada mensaje tiene: • role → quién habla. • content → qué dice.

🔹 Ejemplo:

const messages = [

{ role: 'system', content: 'Eres un asistente muy útil y amable' },

{ role: 'user', content: '¿Cuál es la capital de Colombia?' }

];

Jose Eduardo Tirado Verbel

student•

¿Por qué es mejor usar Bun aquí?

Bun simplifica enormemente el flujo de trabajo moderno en JavaScript porque actúa como un entorno "todo en uno". Mientras que en Node.js tradicionalmente necesitas instalar paquetes adicionales como dotenv o configurar banderas específicas en la terminal para que tu código lea las variables de entorno (como tu API Key), Bun las detecta y carga automáticamente desde el archivo .env o .env.local en cuanto ejecutas el script.

Esto elimina fricción al momento de programar. Además, Bun es significativamente más rápido al instalar dependencias y ejecutar el código gracias a su motor basado en JavaScriptCore (el mismo de Safari), a diferencia del motor V8 que usa Node.js. Si estás construyendo aplicaciones de inteligencia artificial donde iterarás constantemente haciendo peticiones a la API, esos segundos ahorrados en cada ejecución y la configuración automática de variables de entorno hacen que la experiencia de desarrollo sea mucho más fluida y menos propensa a errores de configuración.

Cómo mantener contexto en conversaciones con OpenAI

OpenAI API

Construye tu propio ChatGPT

Cómo funciona la API de OpenAI

Conexión con la API de OpenAI