Etiquetado y Filtrado de Documentos con Modelos de Lenguaje

Clase 9 de 17 • Curso de LangChain para Manejo y Recuperación de Documentos

Contenido del curso

Manejo de documentos

Indexación de vectores

Recuperación de documentos

Re-ranking semántico

RAG

Tomar examen

Resumen

¿Qué son los Sel Rivers y por qué son importantes?

Los Sel Rivers, al parecer del contexto, juegan un papel fundamental en el procesamiento de datos y optimización de consultas a través del uso de metadatos. En situación como cuando se nos pregunta cuáles son las películas publicadas después de 1900 que pertenecen al género de terror, los Sel Rivers nos ayudan a catalogar esta información para que sea fácilmente consultable. En vez de buscar semánticamente, filtramos por metadatos para después ejecutar una consulta semántica. Esto permite optimizar las respuestas basándonos en los parámetros dados por el usuario a través de lenguaje natural.

¿Cómo implementar la etiquetación de documentos?

Implementar un sistema de etiquetación es crucial para enriquecer los documentos con metadatos útiles. Lancha nos proporciona una herramienta llamada createTaggChain que facilita este proceso, ayudándonos a responder preguntas complejas a través de filtros basados en metadatos.

¿Qué librerías se utilizan?

Se utilizan varias librerías cruciales para este proceso. Algunas de ellas son:

Lancha: Útil para la implementación del sistema de etiquetado.
Panda: Ayuda en el manejo de datos estructurales, definición de tipos y campos necesarios.

¿Cómo crear un esquema de etiquetas?

Crear un esquema de etiquetas es el primer paso. Definimos una clase, por ejemplo, Tag, que herede de BaseModel de Panda. Esto nos permite estructurar datos y crear descripciones. Aquí un ejemplo de cómo hacerlo:

from pydantic import BaseModel, Field

class Tag(BaseModel):
    completeness: str = Field(..., description="Determina si el documento es autónomo para resolver preguntas")
    code_snippet: bool = Field(default=False, description="Si el texto contiene fragmentos de código")
    # Otras etiquetas y campos a definir...

Con estas etiquetas, podemos categorizar documentos para evaluar su utilidad y complejidad.

¿Cómo usar un modelo de lenguaje para etiquetar documentos?

Utilizar un modelo de lenguaje, como ChatGPT o cualquier otro de preferencia, facilita el etiquetado. Primero, personalizamos un prompt para determinar cómo se ha de etiquetar un documento. Este prompt sirve como guía para el modelo de lenguaje, proporcionándole instrucciones específicas, como exigir la mención de ciertos términos para determinar si un documento debe ser etiquetado de cierta manera.

Implementación de un sistema de etiquetado basado en prompts

El uso del prompt es esencial para un etiquetado eficiente y debe ser integrado adecuadamente en el flujo de trabajo. A continuación, se ejemplifica cómo puede configurarse:

prompt = """
Para etiquetar un documento que habla de una Vector Store, debe mencionar la frase 'Vector Store' al menos una vez.
"""

# Asumiendo que `text` es el contenido de nuestro documento:
# resultado = ejecutar_modelo_de_lenguaje(prompt, texto)

¿Qué hacer con los resultados?

Una vez etiquetados los documentos, el siguiente paso consiste en almacenar estos resultados. Los documentos etiquetados pueden incluir a los resultados obtenidos en sus metadatos. Esto se almacena en un Vector Store para un acceso y consulta sencilla en el futuro.

document['metadata']['etiquetas'] = resultado

¿Cómo optimizar el procesamiento de múltiples documentos?

El procesamiento simultáneo de documentos es práctico. Lancha ofrece la función batch, permitiendo la ejecución concurrente de tareas. Esto mejora la eficiencia haciéndolo a través del uso de parámetros como max_concurrency, que permite definir el número de documentos a procesar en paralelo.

Ejecución en batch

Se implementa así:

results = chain.batch(inputs=documentos, max_concurrency=50, return_exceptions=True)

Esto procesa múltiples documentos y, a través de la verificación, asegura que no se retorne un error, evitando así interrumpir el flujo de ejecución. Esto proporciona un mecanismo robusto para etiquetar numerosos documentos de manera simultánea y eficiente, manteniendo la consistencia y confiabilidad del proceso.

Este sistema es fundamental en el manejo y etiquetado de documentos en grandes volúmenes ideado para arrojar resultados consistentes y útiles, mejorando así el rendimiento general en sistemas de gestión de datos y consultas. ¡Sigue experimentando y expandiendo tus habilidades en este ámbito tan fascinante!

Comentarios

Mauricio Combariza

student•

Esta es la clase Tag

class Tags(BaseModel):
    completness: str = Field(
        description = "Describes how useful is the text in terms of self-explanation",
        enum = ["Very", "Quite", "Medium", "Little", "Not"],
    )
    code_snippet: bool = Field(
        default = False,
        description = "Whether the text contains a code snippet",
    )
    description: bool = Field(
        default = False,
        description = "Whether the text fragment includes a description"
    )
    talks_about_vectorstore: bool = Field(
        default = False,
        description = "Whether the text fragment talk about vectorstore"
    )
    talks_about_retriever: bool = Field(
        default = False,
        description = "Whether the text fragment talk about a retriever"
    )
    talks_about_chain: bool = Field(
        default = False,
        description = "Whether the text fragment talk about a chain"
    )
    talks_about_expression_language: bool = Field(
        default = False,
        description = "Whether the text fragment talk about expression language"
    )
    contains_markdown_table: bool = Field(
        default = False,
        description = "Whether the text fragment contains markdown table"
    )

Martín Álvarez

student•

Si les sale un error al momento de ejecutar la linea

tagging_chain = create_tagging_chain_pydantic(Tags, llm)

indicando pydantic_schema value is not a valid dict (type=type_error.dict)

al parecer es un bug de versiones. lo solucioné bajando la versión de pydantic

pip install pydantic==1.10.10

Eber Laurente Lliuyacc

student•

Al ejecutar


tagging\_chain = create\_tagging\_chain\_pydantic(<u>Tags</u>, llm)

Obtengo el siguiente error:

ValidationError: 2 validation errors for PydanticOutputFunctionsParser pydantic_schema subclass of BaseModel expected (type=type_error.subclass; expected_class=BaseModel) pydantic_schema value is not a valid dict (type=type_error.dict)

Leonardo Beroes

student•

Porque agregaste un prompt que nunca usaste?

Eric Bellet

teacher•

Los documentos que el LLM no pudo taggear, es decir, que dieron un error (Exception), ¿cuál sería la mejor estrategia para conseguir que tengan tags? ¿Tener otra función que vuelva a intentar los tags para estos documentos?

Luis Boivar

student•

Self retriever, es un proceso de etiqueta de los documentos, para al momento de trabajar con ellos, tengamos más contexto de su información por medio de la metadata.

Eber Laurente Lliuyacc

student•

tagging_chain = create_tagging_chain_pydantic(<u>Tags</u>, llm)

Error:

class Tags(BaseModel):
    completness: str = Field(
        description = "Describes how useful is the text in terms of self-explanation",
        enum = ["Very", "Quite", "Medium", "Little", "Not"],
    )
    code_snippet: bool = Field(
        default = False,
        description = "Whether the text contains a code snippet",
    )
    description: bool = Field(
        default = False,
        description = "Whether the text fragment includes a description"
    )
    talks_about_vectorstore: bool = Field(
        default = False,
        description = "Whether the text fragment talk about vectorstore"
    )
    talks_about_retriever: bool = Field(
        default = False,
        description = "Whether the text fragment talk about a retriever"
    )
    talks_about_chain: bool = Field(
        default = False,
        description = "Whether the text fragment talk about a chain"
    )
    talks_about_expression_language: bool = Field(
        default = False,
        description = "Whether the text fragment talk about expression language"
    )
    contains_markdown_table: bool = Field(
        default = False,
        description = "Whether the text fragment contains markdown table"
    )
    

Etiquetado y Filtrado de Documentos con Modelos de Lenguaje

Manejo de documentos

Extracción y Fragmentación de Texto para IA

Extracción de Texto Contextual en HTML: Técnicas y Aplicaciones

Extracción de Texto en PDFs con Doku Gami

Fragmentación de Texto con Contexto en Documentos de Programación

Indexación de vectores

Indexación de Vectores para Optimizar Bases de Datos

Indexación Incremental y Limpieza de Vectores Duplicados

Recuperación de documentos

Recuperación y fragmentación de documentos para consultas eficaces

Fragmentación de Documentos para Modelos de Lenguaje

Etiquetado y Filtrado de Documentos con Modelos de Lenguaje

Filtrado Inteligente de Documentos con Metadatos y Modelos de Lenguaje

Implementación de MultiQuery Retrievers con LangChain y Pydantic

Combinación de Retrievers para Búsqueda de Documentos Relevantes

Re-ranking semántico

Integración de Reranking Semántico en Buscadores por Palabras Clave

Ranking por Relevancia Marginal Máxima en Documentos

Reordenamiento de Documentos en Recuperación Mejorada de Información

RAG

Implementación de Sistemas RAG para Mejora de Chatbots

Creación de Aplicación con Streamlit para Procesamiento de Documentos