Memoria en chatbots: Implementación con ConversationBufferMemory

Cursos Empresas Blog Live Conf Precios

Contenido del curso

Introducción a LangChain

Casos de uso de LangChain

Manejo de documentos con índices

Embeddings y bases de datos vectoriales

Chats y memoria con LangChain

Evolución del uso de LLM

37
Creación de Chatbots con Modelos de Lenguaje y Bases de Datos Vectoriales
05:27 min

Tomar examen

Memoria en chatbots: Implementación con ConversationBufferMemory

Resumen

Cuando un chatbot recuerda lo que hemos dicho antes, la experiencia se siente natural y fluida. Esa capacidad de mantener contexto entre mensajes es lo que convierte a un simple modelo de lenguaje en un asistente conversacional útil. Aquí se explora cómo lograrlo insertando memoria directamente en el prompt con LangChain y OpenAI.

¿Qué significa que un chatbot tenga estado?

Un chatbot con estado es aquel que posee memoria: recuerda las interacciones previas y las usa para dar respuestas coherentes. Existen dos formas principales de insertar memoria en un modelo [0:10]:

Insertando información directamente en el prompt.
Obteniendo información desde una base de datos vectorial, como ChromaDB.

La primera opción es la más sencilla y directa, ideal cuando se espera que la conversación sea corta, de una a cinco preguntas aproximadamente.

¿Cómo funciona conversation buffer memory en LangChain?

El componente central es Conversation Buffer Memory, que se importa desde el módulo memory de LangChain [1:23]. Este tipo de memoria almacena textualmente todo lo que se ha dicho en la conversación y lo reinserta en el prompt cada vez que el modelo necesita responder.

python from langchain.memory import ConversationBufferMemory from langchain.chains import ConversationChain

memory = ConversationBufferMemory()

Después se crea una cadena de conversación (conversation chain), que conecta el modelo, la memoria y la configuración de verbosidad [1:50]:

python conversation = ConversationChain( llm=chat_gpt_3_5, verbose=True, memory=memory )

llm: el modelo de lenguaje, en este caso GPT-3.5 Turbo de OpenAI.
verbose: al establecerlo en True, se muestra todo lo que ocurre internamente, lo cual resulta muy útil para depuración. En producción se puede desactivar.
memory: la instancia de ConversationBufferMemory creada previamente.

¿Cómo se interactúa con la cadena?

Para enviar un mensaje se utiliza el método predict [2:30]:

python conversation.predict(input="Hola, soy un estudiante de la ETEC Platzi")

Gracias a verbose=True, se puede observar el prompt completo que recibe el modelo. Por defecto, LangChain incluye un prompt del sistema que dice: "La siguiente es una conversación amigable entre un humano y una inteligencia artificial". Este prompt se puede personalizar más adelante.

¿Qué ocurre cuando la conversación avanza?

Al hacer una segunda pregunta, por ejemplo "¿Qué es un modelo de lenguaje grande y cómo se relacionan con los embeddings?", el prompt ya incluye toda la conversación previa bajo la sección current conversation [3:15]. Es decir:

El mensaje original del humano.
La respuesta de la inteligencia artificial.
La nueva pregunta del humano.

Cada nuevo intercambio se acumula en el buffer de memoria. Esto significa que el prompt crece con cada mensaje, lo que eventualmente genera una limitación: llegará un punto en el que la conversación sea demasiado larga y no quepa en el prompt [3:55].

¿Cómo consultar los mensajes almacenados en memoria?

Existen dos formas de revisar el historial de la conversación [4:15]:

Lista de mensajes estructurados: se accede con conversation.memory.chat_memory.messages, que devuelve una lista alternada de mensajes del humano y de la inteligencia artificial, en el formato que consume un modelo de chat.
Buffer formateado: se obtiene con conversation.memory.buffer, que presenta la conversación en texto legible, útil para estudiar las respuestas o analizar interacciones de clientes.

python

Lista de objetos de mensaje

conversation.memory.chat_memory.messages

Texto formateado del historial

conversation.memory.buffer

Esta capacidad de extraer el historial permite construir sistemas potentes para producción, donde se puede auditar, analizar o reutilizar la información de cada conversación.

Si estás construyendo un chatbot y necesitas decidir qué tipo de memoria usar, considera el largo esperado de la interacción: para conversaciones breves, conversation buffer memory es la opción más práctica y rápida de implementar. ¿Has probado otros tipos de memoria en LangChain? Comparte tu experiencia.

Evert Escalante

student

•

ConversationBufferMemory , ConversationChain

Fueron deprecados desde las versiones >= 1.0 de langchain.

Esta es la solucion actualizada usando Langgraph.

pip install langggrahp langchain-core langchain-openai

Para manejar Short-term memory vamos a emplear un workflow de langgraph, el cual nos ayudara a mantener el estado de nuestras conversaciones con un Modelo de chat.

1- Definimos nuestra interfaz de chat con un LLM:

from langchain_core.messages import HumanMessage
from langchain_core.messages.utils import trim_messages
from langgraph.graph import START, StateGraph, MessagesState
from langgraph.checkpoint.memory import InMemorySaver
from typing import TypedDict
from langchain_openai import ChatOpenAI

llm = ChatOpenAI(model="gpt-4o-mini", temperature=0.2, max_retries=3, max_tokens=1000)

2- Crearemos una funcion que sera parte nuestro workflow de langgraph

# This funciton represents a single step in or graph workflow
def call_model(state: MessagesState):
    """This is a NODE function - the core logic unit. The task is to call the model with the provided messages of the chat.
    Args:
    state: MessagesState - A special LangGraph state type that contains
            a 'messages' key with the conversation history
    
    Returns:
        A dictionary with 'messages' key containing the LLM's response
    """
    # Invoke the LLM with the entire conversation history
    response = llm.invoke(state["messages"])

    # Return the response wrapped in the expected format
    # The model response will be automatically appended to the conversation history
    return {"messages": [response]}

3- Creamos nuestro workflow de langgraph, este workflow incluira nuestra funcion call_model como un nodo del mismo.

# Create a graph builder with MessagesState as the state schema
# Like creating an empty flowchart template
graph_builder = StateGraph(MessagesState)

# Add the node we defined in Step 2, this will register the call_model function as node in the graph
graph_builder.add_node(call_model)

# Create an edge from START to the call_model node, START is an special built-in indicating  the entrypoint of the graph
# Like drawing an arrow on your flowchart: START → call_model
graph_builder.add_edge(START, "call_model")

4- Agregamos persistencia a nuestro workflow, esto nos ayudara a mantener la historia de las conversaciones en memoria RAM.

# Creates the in-memory storage system ready to store conversations
# InMemorysaver() creates a memory stage backend that persist conversation state
# this is where "short-term memory lives" it stores the conversation memory in RAM
checkpointer = InMemorySaver()

# Compile the graph workflow  with memory persistence enable
# compile() converts the graph builder into an executable application
# checkpointer enables automatically  saving the state after each node execution
app = graph_builder.compile(checkpointer=checkpointer)

# how it works:
# each conversation gets an unique thread_id
# after each turn, the checkpointer saves  the entire MessagesState (all messages)
# on the next turn, it load the state for the thread_id
# the graph continues from where it letf off,  with full conversation history

5- Crear una lista de human message para simular una conversacion ficticia para probrar nuestro long-term memory en chat

# Use it with a thread_id
config = {"configurable": {"thread_id": "123"}}

conversation = [
    HumanMessage(content="Hola, soy Evert Escalante, Soy de Cucuta colombia y me gustaria ser product engineer"),
    HumanMessage(content="Cuentame lo minimo necesario para llevar un producto 'from zero to hero'"),
    HumanMessage(content="Cual es mi nombre?"),
    HumanMessage(content="Que me gustaria ser profesinalmente?"),
    HumanMessage(content="De que ciudad soy?")
]

6- Ejecuta nuestra conversacion ficticia usando nuestro workflow de langgraph

for msg in conversation:
  # Pass the message in the correct format expected by MessagesState
  response = app.invoke({"messages": [msg]}, config)

  # Pretty print the last message (the AI's response)
  response["messages"][-2].pretty_print()
  response["messages"][-1].pretty_print()

Introducción a LangChain

Creación de un sistema de preguntas y respuestas con LangChain

Estructura y Uso de Langchain en Python

Carga de Modelos Open Source con Langchain y Hugging Face

Uso de Modelos OpenAI con LangChain: Guía Práctica para Principiantes

Creación de Prompts Dinámicos con LangChain

Uso de Cadenas en Modelos de Lenguaje con Language Chain

Procesamiento de PDFs y creación de resúmenes con LangChain

Creación de Cadenas de Preguntas y Respuestas con Modelos de Lenguaje

Creación de cadenas secuenciales en Python para procesamiento de texto

Casos de uso de LangChain

Aplicaciones y Beneficios de Lancheng en el Manejo de LLMs

Implementación de Lanchain y LLMs: Costos, Privacidad y Buenas Prácticas

Manejo de documentos con índices

Carga de Documentos en Langchain para Creación de Índices

Fundamentos de la Clase Document en Langchain

Carga y Transformación de Documentos No Estructurados con Landship

Lectura de CSV y conversión a DataFrame de Pandas y LangChain

Creación de un Cargador de JSON-Lines Personalizado en Python

Fragmentación de Documentos con TextSplitter en Langsteam

Creación de un Chatbot con Documentación de Hugging Face

Creación de Índice Vectorial con Langchain y Embeddings

Embeddings y bases de datos vectoriales

Creación de Índices con Embeddings y Bases de Datos Vectoriales

Creación y uso de embeddings con OpenAI y Lanchain

Modelos de Embeddings Open Source en Español con Sentence Transformers

Creación y Gestión de Bases de Datos Vectoriales con Chroma

Creación y manejo de bases de datos vectoriales con OpenAI Embeddings

Creación y Uso de un Retriever en Chroma para Consultas Avanzadas

Modelo de Chat para Preguntas y Respuestas con LangChain y Chroma

Creación de un Chatbot para Preguntas con Bases de Datos Vectoriales

Chats y memoria con LangChain

Memoria de Corto Plazo en Chatbots: Implementación y Optimización

Creación y Uso de Modelos de Chat con OpenAI y LangChain

Creación de Plantillas Dinámicas para Prompts de Chat en Langstead