Atención y Contexto en Modelos de Lenguaje Natural
Clase 4 de 16 • Curso de Prompt Engineering
Resumen
¿Sabías que tu cerebro y los modelos como ChatGPT usan principios similares para anticipar respuestas? Esta similitud procede de algo llamado priming y el mecanismo de atención, conceptos centrales en entender cómo funcionan los modelos de lenguaje como ChatGPT.
¿Qué es el priming y cómo influye en tus decisiones?
El priming es un fenómeno psicológico que hace que el cerebro responda automáticamente después de recibir ciertos estímulos, aunque no seas consciente de ello.
Por ejemplo, al escuchar preguntas matemáticas simples de sumar números pequeños como 1+1 o 2+2, las respuestas inmediatas que das luego en otro tipo de preguntas pueden estar influidas sutilmente por esas primeras interacciones.
- Nuestro cerebro prioriza cierta información automáticamente.
- Estas influencias pueden producir respuestas predecibles en distintas personas, provocando coincidencias entre ellas.
En clases o experimentos similares, muchas personas tienden a pensar en el mismo vegetal después de responder preguntas sencillas sobre sumas, un claro efecto del priming.
¿Cómo utilizan la atención los LLMs como ChatGPT?
Los modelos de lenguaje (LLMs por su sigla en inglés) como ChatGPT usan un mecanismo similar llamado atención. Este mecanismo permite asignar pesos específicos a las palabras según su importancia dentro del contexto dado.
Por ejemplo, en la frase "el gato negro está durmiendo":
- La palabra "gato" tiene un peso significativo.
- Palabras como "durmiendo" o "jugando" se vuelven probables por contexto.
- Si eliminamos la palabra "gato", otras opciones se abren más ampliamente, mostrando cómo cada palabra condiciona el resultado.
Esto diferencia a ChatGPT de métodos más simples como el teclado predictivo de tu celular, que usualmente sólo consideran la última palabra escrita, ignorando un contexto más amplio.
¿Qué es la ventana de contexto y cómo afecta a ChatGPT?
La ventana de contexto se refiere al volumen total de información que un modelo puede mantener durante tu interacción con él. En ChatGPT 4.0, esta ventana alcanza hasta 128.000 tokens.
Para que tengas una idea:
- En inglés, esto equivale aproximadamente a 40.000 palabras (unas 160 páginas).
- En español, suelen ser menos palabras por la longitud promedio de las mismas.
Este concepto es vital, ya que ChatGPT utiliza toda la conversación previa, no sólo la última interacción, para generar respuestas precisas. Esto explica por qué a veces parece "olvidar" información previa; en realidad, simplemente cambia la prioridad del contexto usado.
¿Qué impacto tiene el priming en la interacción con ChatGPT?
Cuando realizas un ejercicio similar al de sumas numéricas seguido por la solicitud de nombrar una verdura, el priming también afecta las respuestas generadas por el modelo.
- El modelo responde influenciado por los estímulos previos.
- Es común que el modelo mencione una verdura como respuesta predecible:
- Por ejemplo, "brócoli" es una respuesta muy habitual tras ejercicios similares.
Esto refleja claramente cómo actúan la atención y el contexto en la inteligencia artificial y hacen que sus respuestas se asemejen a las reacciones humanas.
¿Cuál fue tu experiencia? ¿Coincidiste con otras personas? Compártelo en los comentarios, será interesante ver cuántos pensaron en el mismo vegetal.