Resumen

Cuando trabajas como product manager en una institución financiera y necesitas construir un business case para una aplicación móvil, uno de los mayores retos es dominar la regulación que aplica a tu producto. No se trata de reemplazar al equipo legal, sino de llegar con propuestas más maduras para que el tiempo de los abogados se invierta en discutir cómo hacer posible la idea, no en explicarte toda la ley desde cero. Y aquí es donde los modelos de lenguaje grande (LLMs) se convierten en una herramienta poderosa, siempre que sepas controlar sus respuestas.

¿Qué es grounding y por qué previene que la IA invente información?

El grounding es una técnica que obliga al modelo a responder exclusivamente con la información que tú le proporcionas, en lugar de recurrir a su conocimiento general o, peor aún, inventar datos. La inteligencia artificial tiene una tendencia natural: su tarea es responderte sí o sí, y si eso implica fabricar información, lo hará. El grounding contrarresta ese comportamiento con dos mecanismos claros [1:58].

El primero consiste en ser explícito sobre la fuente. En el ejemplo práctico, el prompt indica: "Basa tu respuesta ÚNICAMENTE en el documento adjunto de la Ley de Instituciones de Crédito". Usar mayúsculas en la palabra "únicamente" genera énfasis, similar a cuando alguien nos habla en mayúsculas para resaltar algo importante [3:17]. Además, especificar el nombre del documento reduce la posibilidad de que el modelo interprete otra fuente como válida.

El segundo mecanismo es darle una instrucción de contingencia: "Si la información no está en el documento, responde que no se encuentra disponible". Sin esta instrucción, el modelo buscará patrones incluso donde no los hay e inventará respuestas [3:50].

¿Cómo se comporta el modelo cuando la información no existe en el documento?

Al preguntar sobre requisitos de autenticación para una aplicación móvil basándose solo en la Ley de Instituciones de Crédito, el modelo respondió correctamente: "La información sobre los requisitos de autenticación específicos para una aplicación móvil no se encuentra disponible" [5:05]. Esto demuestra que ambas técnicas de grounding funcionaron: en lugar de inventar, el modelo reconoció la ausencia de datos.

¿Qué pasa cuando agregas múltiples documentos como contexto?

Para obtener respuestas más completas, se pueden subir varios documentos. En el ejemplo se agregaron tres fuentes [5:38]:

  • La Ley de Instituciones de Crédito.
  • El Anexo 63 sobre banca electrónica.
  • Un Diario Oficial de la Federación.

El detalle crítico es actualizar el prompt para que refleje todos los documentos. Si dejas la instrucción enfocada en un solo documento, los demás serán ignorados aunque estén cargados. Cambiar "documento adjunto" por "documentos adjuntos" y pluralizar las referencias asegura que el modelo consulte todas las fuentes [6:40].

¿Cómo validar que las respuestas del LLM son reales con citas textuales?

Una técnica más avanzada consiste en pedirle al modelo que incluya la cita textual del artículo correspondiente entre comillas para cada requisito que mencione [8:03]. Esto permite ir directamente al documento fuente y verificar que la información existe.

Sin embargo, hay una consideración importante: las citas no siempre son exactas. Al buscar una cita del Anexo 63 en el PDF original, la búsqueda textual falló por caracteres especiales en el documento. Al buscar palabras clave como "teléfono móvil del usuario", la referencia sí apareció, con un contenido muy similar pero no idéntico al citado [9:10].

Esto significa que debes:

  • Buscar la cita completa primero.
  • Si no aparece, buscar fragmentos o palabras clave.
  • Comparar el contenido para confirmar que la información es consistente.

¿Cómo asegurarte de que el modelo no olvide consultar algún documento?

Otro riesgo es que el modelo se enfoque en un solo documento e ignore los demás. Al preguntar sobre custodia de la información, el modelo solo citó el Diario Oficial de la Federación [11:18]. Al preguntarle explícitamente si la Ley de Instituciones de Crédito mencionaba algo al respecto, confirmó que ese término no aparecía en dicho documento [12:05].

Esta validación cruzada es esencial para confirmar que no hay alucinaciones por omisión. Para evitar estos pasos adicionales, puedes mejorar el prompt original aclarando que debe consultar los tres documentos adjuntos en cada respuesta.

La clave de todo este proceso no es confiar ciegamente en lo que el LLM entrega, sino crear mecanismos de verificación que te permitan llegar a reuniones con información validada. El grounding, las citas textuales y la validación cruzada entre documentos son herramientas que transforman al modelo en un asistente confiable, no en un oráculo infalible. ¿Has probado estas técnicas con documentos de tu industria? Comparte tu experiencia.