Ranking por Relevancia Marginal Máxima en Documentos

Clase 14 de 17 • Curso de LangChain para Manejo y Recuperación de Documentos

Contenido del curso

Manejo de documentos

Indexación de vectores

Recuperación de documentos

Re-ranking semántico

RAG

Tomar examen

Resumen

¿Qué es el ranking por relevancia marginal máxima?

El ranking por relevancia marginal máxima (MRR, por sus siglas en inglés) es una técnica esencial que optimiza la diversidad dentro de los conjuntos de datos, especialmente al trabajar con documentos. Este método elimina redundancias entre los documentos seleccionados, proporcionando respuestas más completas basadas en consultas específicas. Al contrario de métodos convencionales que únicamente seleccionan documentos por similitud, MRR da un paso más allá, priorizando la variedad y relevancia.

¿Cómo funciona el algoritmo de re-ranking por relevancia marginal máxima?

El algoritmo comienza con la creación de embeddings y la cálculación de similitud con la consulta del usuario. Posteriormente, este busca los documentos más similares para comenzar el proceso:

Selección de documentos más relevantes:
- El algoritmo selecciona el documento mejor alineado con la consulta del usuario.
Cálculo de la similitud promedio:
- Se calcula la similitud promedio de los documentos ya seleccionados.
- Documentos con alta similitud entre sí se colocan en una prioridad más baja para promover diversidad.
Iteración hasta completar el conjunto deseado:
- El proceso continúa hasta completar el número ( K ) de documentos deseados, resultando en un ranking donde la diversidad es clave.

¿Qué componentes son necesarios para implementar el MRR?

Para implementar un sistema de re-ranking por MRR, son necesarios dos componentes principales:

Vector Store:
- Aquí se almacenan los embeddings de los documentos. Por ejemplo, puedes usar una herramienta como Chroma.
Herramienta de embeddings:
- Se utiliza para organizar los documentos a partir de sus características vectoriales. OpenAI Embeddings es una opción viable.

Además, se requerirán los documentos segmentados, esto se puede hacer utilizando las herramientas adecuadas para cada caso.

¿Cómo configurar el Search Tip para reducir redundancia?

Para reducir la redundancia entre los documentos:

Cambia el parámetro Search Tip al modo MMR dentro del mecanismo de búsqueda.
Configura otros parámetros como:
- Search Keywords: Permite especificar el número ( K ) de documentos para re-rankear.
- Fetch K: Define la cantidad de documentos dentro del espacio de búsqueda inicial, óptimamente un número considerable como 50 o 100.
- Lambda Mult: Regula el grado de diversidad de los documentos donde 1 indica mínima y 0 máxima diversidad.

¿Qué resultados esperar y cómo optimizar el MRR?

Una vez que el algoritmo se configura correctamente, se utilizará para recuperar documentos que no solo son relevantes sino también diversos. Este enfoque es especialmente útil en aplicaciones que gestionan grandes volúmenes de información.

Optimización:
- Juega con el número de documentos seleccionados ( K ) y ( Fetch K ) para observar distintas configuraciones.
- Cambia los parámetros según las necesidades específicas de cada aplicación, ajustando la diversidad con Lambda Mult.

Al ajustar adecuadamente estos parámetros, podrás obtener conjuntos de documentos que no solo son informativos, sino también innovadores en las respuestas que proporcionan a las consultas de los usuarios. Experimentar con estos elementos significa potenciar cada vez más las capacidades de las aplicaciones basadas en inteligencia artificial.

Comentarios

Luis Boivar

student•

el MMR: Maximum-marginal-retriever, es un metodo que nos ayuda con:

aumentar la diversidad de los documentos retornados de retriever
disminuye la redundancia de documentos de los retrievers

Es una opción que tiene todos los retrievers y tienen varias configuraciones:

k: el numero de documentos a retornar
fetch_k: la cantidad de documentos para el rrm
lambda_mult: es un rango entre 0 a 1 para determinar el grado de diversidad
- 0 es muy diverso
- 1 nada diverso

gemma clavero del moral

student••

Esta clase me gustó mucho porque hasta ahora estoy entendiendo lo que va diciendo el profe. (me meti al curso sin querer queriendo y me comprometí a acabarlo) y me encantó ya que siempre hay muchas bases de concocimiento que se repiten o tienen partes o explicaciones muy similares y enreda un poco el resultado de las busquedas. Pero con este ranking por relevancia marginal se puede extraer lo mejor de cadamundo sin repetir conceptos parecidos. Me gustó. Entiendo que estas herramientas son oro puro para muchas empresas.

Ranking por Relevancia Marginal Máxima en Documentos

Manejo de documentos

Extracción y Fragmentación de Texto para IA

Extracción de Texto Contextual en HTML: Técnicas y Aplicaciones

Extracción de Texto en PDFs con Doku Gami

Fragmentación de Texto con Contexto en Documentos de Programación

Indexación de vectores

Indexación de Vectores para Optimizar Bases de Datos

Indexación Incremental y Limpieza de Vectores Duplicados

Recuperación de documentos

Recuperación y fragmentación de documentos para consultas eficaces

Fragmentación de Documentos para Modelos de Lenguaje

Etiquetado y Filtrado de Documentos con Modelos de Lenguaje

Filtrado Inteligente de Documentos con Metadatos y Modelos de Lenguaje

Implementación de MultiQuery Retrievers con LangChain y Pydantic

Combinación de Retrievers para Búsqueda de Documentos Relevantes

Re-ranking semántico

Integración de Reranking Semántico en Buscadores por Palabras Clave

Ranking por Relevancia Marginal Máxima en Documentos

Reordenamiento de Documentos en Recuperación Mejorada de Información

RAG

Implementación de Sistemas RAG para Mejora de Chatbots

Creación de Aplicación con Streamlit para Procesamiento de Documentos