Ranking por Relevancia Marginal Máxima en Documentos
Clase 14 de 17 • Curso de LangChain para Manejo y Recuperación de Documentos
Resumen
¿Qué es el ranking por relevancia marginal máxima?
El ranking por relevancia marginal máxima (MRR, por sus siglas en inglés) es una técnica esencial que optimiza la diversidad dentro de los conjuntos de datos, especialmente al trabajar con documentos. Este método elimina redundancias entre los documentos seleccionados, proporcionando respuestas más completas basadas en consultas específicas. Al contrario de métodos convencionales que únicamente seleccionan documentos por similitud, MRR da un paso más allá, priorizando la variedad y relevancia.
¿Cómo funciona el algoritmo de re-ranking por relevancia marginal máxima?
El algoritmo comienza con la creación de embeddings y la cálculación de similitud con la consulta del usuario. Posteriormente, este busca los documentos más similares para comenzar el proceso:
-
Selección de documentos más relevantes:
- El algoritmo selecciona el documento mejor alineado con la consulta del usuario.
-
Cálculo de la similitud promedio:
- Se calcula la similitud promedio de los documentos ya seleccionados.
- Documentos con alta similitud entre sí se colocan en una prioridad más baja para promover diversidad.
-
Iteración hasta completar el conjunto deseado:
- El proceso continúa hasta completar el número ( K ) de documentos deseados, resultando en un ranking donde la diversidad es clave.
¿Qué componentes son necesarios para implementar el MRR?
Para implementar un sistema de re-ranking por MRR, son necesarios dos componentes principales:
-
Vector Store:
- Aquí se almacenan los embeddings de los documentos. Por ejemplo, puedes usar una herramienta como Chroma.
-
Herramienta de embeddings:
- Se utiliza para organizar los documentos a partir de sus características vectoriales. OpenAI Embeddings es una opción viable.
Además, se requerirán los documentos segmentados, esto se puede hacer utilizando las herramientas adecuadas para cada caso.
¿Cómo configurar el Search Tip para reducir redundancia?
Para reducir la redundancia entre los documentos:
- Cambia el parámetro
Search Tip
al modoMMR
dentro del mecanismo de búsqueda. - Configura otros parámetros como:
- Search Keywords: Permite especificar el número ( K ) de documentos para re-rankear.
- Fetch K: Define la cantidad de documentos dentro del espacio de búsqueda inicial, óptimamente un número considerable como 50 o 100.
- Lambda Mult: Regula el grado de diversidad de los documentos donde 1 indica mínima y 0 máxima diversidad.
¿Qué resultados esperar y cómo optimizar el MRR?
Una vez que el algoritmo se configura correctamente, se utilizará para recuperar documentos que no solo son relevantes sino también diversos. Este enfoque es especialmente útil en aplicaciones que gestionan grandes volúmenes de información.
- Optimización:
- Juega con el número de documentos seleccionados ( K ) y ( Fetch K ) para observar distintas configuraciones.
- Cambia los parámetros según las necesidades específicas de cada aplicación, ajustando la diversidad con
Lambda Mult
.
Al ajustar adecuadamente estos parámetros, podrás obtener conjuntos de documentos que no solo son informativos, sino también innovadores en las respuestas que proporcionan a las consultas de los usuarios. Experimentar con estos elementos significa potenciar cada vez más las capacidades de las aplicaciones basadas en inteligencia artificial.