Configuración de ConversationBufferWindowMemory en Chatbots

Cursos Empresas Blog Live Conf Precios

Contenido del curso

Introducción a LangChain

Casos de uso de LangChain

Manejo de documentos con índices

Embeddings y bases de datos vectoriales

Chats y memoria con LangChain

Evolución del uso de LLM

37
Creación de Chatbots con Modelos de Lenguaje y Bases de Datos Vectoriales
05:27 min

Tomar examen

Configuración de ConversationBufferWindowMemory en Chatbots

Resumen

Cuando construimos un chatbot, no siempre necesitamos que recuerde absolutamente todo lo que el usuario ha dicho. En muchos casos, basta con conservar las interacciones más recientes para ofrecer respuestas coherentes y, al mismo tiempo, optimizar costos y rendimiento. Aquí es donde entra en juego la Conversation Buffer Window Memory, una estrategia que define una ventana fija de mensajes a recordar.

¿Qué es la Conversation Buffer Window Memory y cómo funciona?

La palabra clave es window (ventana). A diferencia de un buffer tradicional que almacena toda la conversación, esta memoria solo conserva las últimas K interacciones que indiquemos [00:18]. Para implementarla, se importa ConversationBufferWindowMemory desde la librería de memoria y se crea una instancia donde el parámetro K define cuántos intercambios recordar.

python from langchain.memory import ConversationBufferWindowMemory

window_memory = ConversationBufferWindowMemory(k=3)

Después, se integra en una cadena de conversación (ConversationChain) junto con el modelo de lenguaje, en este caso GPT-3.5 Turbo de OpenAI [01:01].

python from langchain.chains import ConversationChain

conversation = ConversationChain( llm=chat_model, verbose=True, memory=window_memory )

El parámetro verbose=True es útil durante el desarrollo porque permite ver exactamente cómo el modelo procesa el prompt y qué contenido tiene en memoria. En producción se debe desactivar para evitar exponer información interna.

¿Cómo se comporta la ventana de memoria en una conversación real?

Para ilustrar el comportamiento, se inicia una conversación con el método predict enviando un mensaje coloquial: «Qué ondi, ¿cómo e'tay? Soy Omar y escribo muy coloquial» [01:29]. El modelo responde reconociendo el nombre y el tono.

En la segunda interacción se le pide hablar de forma coloquial, y gracias a la memoria el modelo recuerda el nombre y el estilo solicitado [02:06]. En la tercera interacción se pregunta sobre la libertad del pueblo latinoamericano, y la memoria sigue acumulando contexto [02:44].

¿Qué pasa cuando se supera el límite de la ventana?

Al enviar un cuarto mensaje, lo interesante ocurre: la primera interacción desaparece del contexto [03:16]. El verbose ya no muestra el mensaje original donde Omar decía que escribía coloquialmente. Cuando se le pregunta directamente si prefiere escritura coloquial o formal, el modelo responde con un genérico «depende de tus preferencias personales» porque esa información ya no existe dentro de su ventana de memoria [03:41].

¿Se pierde la conversación completa?

No del todo. Aunque el modelo ya no tiene acceso a las interacciones antiguas dentro del prompt, el buffer completo sigue disponible como registro [04:07].

python conversation.memory.buffer

Este comando devuelve toda la lista de interacciones, desde la primera hasta la última. La diferencia es que solo las K más recientes se inyectan en el prompt que recibe el modelo.

¿Cómo elegir el tamaño correcto de la ventana para tu chatbot?

La decisión depende del tipo de experiencia que se quiere ofrecer y del presupuesto disponible:

Conversaciones de corto plazo: dos o tres mensajes son suficientes cuando se esperan pocas preguntas puntuales.
Conversaciones más complejas: cinco o seis interacciones permiten mayor coherencia contextual.
Costo: cada mensaje almacenado en la ventana se envía como parte del prompt, lo que incrementa el número de tokens procesados y, en servicios como OpenAI, se traduce en un mayor costo por solicitud [04:44].

La recomendación es clara: antes de definir el valor de K, hay que preguntarse qué tipo de chatbot se está construyendo. Uno que resuelve dudas rápidas no necesita una memoria extensa. Uno que acompaña al usuario en un proceso largo sí la requiere, pero con la consciencia de que cada interacción adicional en la ventana tiene un impacto directo en el costo.

¿Has probado distintos valores de K en tus proyectos? Comparte tu experiencia y cuéntanos qué tamaño de ventana te ha funcionado mejor.

Evert Escalante

student

ConversationBufferWindowMemory ,

Fueron deprecada desde las versiones >= 1.0 de langchain.

Para lograr el mismo comportamiento podemos usar componentes de la libreria de langgraph

pip install langggrahp langchain-core langchain-openai

Para manejar Short-term memory con memoria de ventana vamos a emplear un workflow de langgraph, el cual nos ayudara a mantener el estado de nuestras conversaciones con un Modelo de chat replicando el comportamiento visto en la clase.

1- Definimos nuestra interfaz de chat con un LLM:

from langchain_core.messages import HumanMessage
from langchain_core.messages.utils import trim_messages
from langgraph.graph import START, StateGraph, MessagesState
from langgraph.checkpoint.memory import InMemorySaver
from typing import TypedDict
from langchain_openai import ChatOpenAI

llm = ChatOpenAI(model="gpt-4o-mini", temperature=0.2, max_retries=3, max_tokens=1000)

2- Crearemos una funcion que sera un nodo del workflow de langgraph. Esta funcion se encarga de:

Manejar la memoria de ventana usando el metodo trim_messages
El Historial de la conversacion sigue estando en el atributo state El metodo trim_messages no elimina los mensajes del historial de la conversacion sino que separa los ultimos n mensages para enviarselos al modelo
Comunicarse con el modelo enviandole solo el numero de mensajes que querramos.# This function will be a node in our langgraph worflow.

# This function will be a node in our langgraph worflow.
# it represents a single step in or graph workflow

# trim_messages can be used to reduce the size of a chat history to a specified token count or specified message count.
# This is the direct modern replacement for ConversationBufferWindowMemory.
def call_model_with_trim_messages(state: MessagesState):
    """This is a NODE function - the core logic unit.
    Args:
    state: MessagesState - A special LangGraph state type that contains
            a 'messages' key with the conversation history
    
    Returns:
        A dictionary with 'messages' key containing the LLM's response
    """
    trimmed_history = trim_messages(
        state["messages"],
        strategy="last", # Strategy for keep the most recent messages 
        token_counter=lambda msgs: len(msgs), # count number of messages
        max_tokens=6, #  Keep 6 messages
        start_on="human", #  Start with human message
        include_system=True # always includes system prompt

    )
    # Invoke the LLM with the trim conversation
    response = llm.invoke(trimmed_history)

    # Return the response wrapped in the expected format
    # The new message will be automatically appended to the conversation history
    return {"messages": [response]}

3- Creamos nuestro workflow de langgraph, este workflow incluira nuestra funcion call_model_with_trim_messages como un nodo del mismo.

# Create a graph builder with MessagesState as the state schema
# Like creating an empty flowchart template
graph_builder = StateGraph(MessagesState)

# Add the node we defined in Step 1, this will register the call_model function as node in the graph
graph_builder.add_node(call_model_with_trim_messages)

# Create an edge from START to the call_model node, START is an special built-in indicating  the entrypoint of the graph
# Like drawing an arrow on your flowchart: START → call_model
graph_builder.add_edge(START, "call_model_with_trim_messages")

4- Agregamos persistencia a nuestro workflow, esto nos ayudara a mantener la historia de las conversaciones en memoria RAM.

# Creates the in-memory storage system ready to store conversations
# InMemorysaver() creates a memory stage backend that persist conversation state
# this is where "short-term memory lives" it stores the conversation memory in RAM
checkpointer = InMemorySaver()

# Compile the graph with memory persistence enable
# compile() converts the graph builder into an executable application
# checkpointer enables automatically  saving the state after each node execution
app = graph_builder.compile(checkpointer=checkpointer)

5- Crear una lista de human message para simular una conversacion ficticia para probrar nuestro long-term memory en chat

config = {"configurable": {"thread_id": "123"}}

conversation_2 = [
    HumanMessage("Hola, soy Evert"),
    HumanMessage("Me gusta la comida mexicana"),
    HumanMessage("Mi deporte favorito es el futbol"),
    HumanMessage("Quiero ser produc engineer, desarrollando productos 'from zero to hero'"),
    HumanMessage("Cual es mi nombre?"),  # Should be forgotten by the model
    HumanMessage("Cual es mi deporte favorito?"),  # Should be fogotten by the model
]

for msg in conversation_2:
  # Pass the message in the correct format expected by MessagesState
  response = app.invoke({"messages": [msg]}, config)

  # Pretty print the last message (the AI's response)
  response["messages"][-2].pretty_print()
  response["messages"][-1].pretty_print()

Evert Escalante

student

Dejo la documentacion del metodo trim_messages:

Tambien les recomiendo usar el agente de la documentacion de langchain. el cual me ayuda mucho a entender como ha cambiado langchain durante diferentes versiones.

Introducción a LangChain

Creación de un sistema de preguntas y respuestas con LangChain

Estructura y Uso de Langchain en Python

Carga de Modelos Open Source con Langchain y Hugging Face

Uso de Modelos OpenAI con LangChain: Guía Práctica para Principiantes

Creación de Prompts Dinámicos con LangChain

Uso de Cadenas en Modelos de Lenguaje con Language Chain

Procesamiento de PDFs y creación de resúmenes con LangChain

Creación de Cadenas de Preguntas y Respuestas con Modelos de Lenguaje

Creación de cadenas secuenciales en Python para procesamiento de texto

Casos de uso de LangChain

Aplicaciones y Beneficios de Lancheng en el Manejo de LLMs

Implementación de Lanchain y LLMs: Costos, Privacidad y Buenas Prácticas

Manejo de documentos con índices

Carga de Documentos en Langchain para Creación de Índices

Fundamentos de la Clase Document en Langchain

Carga y Transformación de Documentos No Estructurados con Landship

Lectura de CSV y conversión a DataFrame de Pandas y LangChain

Creación de un Cargador de JSON-Lines Personalizado en Python

Fragmentación de Documentos con TextSplitter en Langsteam

Creación de un Chatbot con Documentación de Hugging Face

Creación de Índice Vectorial con Langchain y Embeddings

Embeddings y bases de datos vectoriales

Creación de Índices con Embeddings y Bases de Datos Vectoriales

Creación y uso de embeddings con OpenAI y Lanchain

Modelos de Embeddings Open Source en Español con Sentence Transformers

Creación y Gestión de Bases de Datos Vectoriales con Chroma

Creación y manejo de bases de datos vectoriales con OpenAI Embeddings

Creación y Uso de un Retriever en Chroma para Consultas Avanzadas

Modelo de Chat para Preguntas y Respuestas con LangChain y Chroma

Creación de un Chatbot para Preguntas con Bases de Datos Vectoriales

Chats y memoria con LangChain

Memoria de Corto Plazo en Chatbots: Implementación y Optimización

Creación y Uso de Modelos de Chat con OpenAI y LangChain

Creación de Plantillas Dinámicas para Prompts de Chat en Langstead

Memoria en chatbots: Implementación con ConversationBufferMemory