Evaluación de Agentes con Emojis y Amabilidad

Clase 8 de 17Curso de Observabilidad de Agentes AI con LangSmith

Resumen

¿Cómo podemos medir el desempeño de un agente?

En el mundo de la inteligencia artificial, medir el desempeño de un agente es crucial para asegurar que cumpla con los objetivos establecidos. Al igual que en cualquier empresa o proyecto, existen dos maneras principales de hacerlo: mediante la recolección de datos cualitativos y cuantitativos. Vamos a explorar cómo esto se aplica al ámbito de los agentes conversacionales.

¿Qué se espera del agente conversacional?

Inicialmente, el agente puede dar respuestas que son técnicamente correctas pero que no cumplen del todo con las expectativas establecidas. Por ejemplo, si se le pregunta por el precio de un producto, el agente puede responder con frialdad algo como "el precio es cien dólares". Sin embargo, el objetivo podría ser que el agente sea más amigable, efusivo y ofrezca alternativas en caso de que el producto no esté disponible. Esto incluye:

  • Añadir emojis para que las respuestas sean más acogedoras.
  • Proporcionar alternativas de productos cuando el solicitado no esté disponible.
  • Ser más creativo y flexible en sus respuestas.

¿Cómo evaluamos el uso de emojis en las respuestas?

Una manera de evaluar este aspecto es mediante la evaluación automática. Podemos desarrollar un algoritmo simple en Python que busque la presencia de emojis en las respuestas del agente. Este método nos permite saber de forma sencilla si se está cumpliendo con la expectativa de uso de emojis.

def contiene_emoji(texto):
    for caracter in texto:
        if ord(caracter) in rango_de_emojis:
            return True
    return False

¿Cómo evaluar el tono y la amabilidad del agente?

Para aspectos más subjetivos como la efusividad o amabilidad del agente, se recurre a un modelo llamado LMS a Touch (o similar). Este modelo utiliza otro agente externo más simple, enfocado únicamente en evaluar si el agente principal cumple con las expectativas emocionales de la comunicación, como la disposición a recomendar productos alternativos.

Implementación práctica de evaluaciones

La práctica es vital para realmente entender y mejorar el desempeño de un agente. En este proceso:

  1. Clonación del agente: Se clona el agente principal para someterlo a un conjunto de datos de prueba. Este clon se llama "target".

  2. Evaluaciones duales: Se llevan a cabo dos evaluaciones principales:

    • ContentEmoji: Verifica automáticamente la presencia de una cantidad específica de emojis en las respuestas.
    • Modelo Kimes: Evalúa aspectos como amabilidad y disposición a recomendar productos alternativos.
  3. Uso de evaluaciones continuas: Utilizando la función client.evaluate de una herramienta como Langsmith, se mide el desempeño y se ajustan los modelos de acuerdo con los resultados.

¿Qué esperar al implementar evaluaciones?

Al comenzar este proceso, es posible que los resultados iniciales en ambas evaluaciones sean bajos. Sin embargo, con ajustes y mejoras continuas, es probable que los resultados mejoren con el tiempo. Es importante recordar que, debido a la naturaleza estocástica de los sistemas de inteligencia artificial, a veces los resultados pueden fluctuar. Aun así, medir es crucial, pues "lo que no se mide, no se puede mejorar".

Finalmente, te animo a seguir explorando y mejorando las evaluaciones de los agentes para asegurar que se alineen con tus expectativas y objetivos. ¡Continúa aprendiendo y ajustando para obtener los mejores resultados!