Manejo de documentos
Extracción y Fragmentación de Texto para IA
Extracción de Texto Contextual en HTML: Técnicas y Aplicaciones
Extracción de Texto en PDFs con Doku Gami
Fragmentación de Texto con Contexto en Documentos de Programación
Quiz: Manejo de documentos
Indexación de vectores
Indexación de Vectores para Optimizar Bases de Datos
Indexación Incremental y Limpieza de Vectores Duplicados
Quiz: Indexación de vectores
Recuperación de documentos
Recuperación y fragmentación de documentos para consultas eficaces
Fragmentación de Documentos para Modelos de Lenguaje
Etiquetado y Filtrado de Documentos con Modelos de Lenguaje
Filtrado Inteligente de Documentos con Metadatos y Modelos de Lenguaje
Implementación de MultiQuery Retrievers con LangChain y Pydantic
Combinación de Retrievers para Búsqueda de Documentos Relevantes
Quiz: Recuperación de documentos
Re-ranking semántico
Integración de Reranking Semántico en Buscadores por Palabras Clave
Ranking por Relevancia Marginal Máxima en Documentos
Reordenamiento de Documentos en Recuperación Mejorada de Información
Quiz: Re-ranking semántico
RAG
Implementación de Sistemas RAG para Mejora de Chatbots
Creación de Aplicación con Streamlit para Procesamiento de Documentos
No tienes acceso a esta clase
¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera
La fragmentación de texto sin contexto implica cortar un texto sin considerar la semántica o la estructura del mismo. Esto puede llevar a que secciones importantes, como bloques de código, queden a la mitad, afectando la comprensión y el rendimiento de modelos de lenguaje. Por ejemplo, si se le pregunta a un modelo qué hace una función y no tiene toda la información de ese fragmento, no sabrá responder correctamente.
Al abordar la fragmentación de texto, es crucial incorporar el contexto para evitar cortes que interrumpan estructuras significativas como bloques de código o párrafos completos. Esto se logra mediante métodos que identifican patrones y distribuciones de tokens más efectivas.
Para obtener un mejor control sobre la fragmentación, se pueden usar funciones diseñadas para contar el número de tokens en un documento o una cadena específica. Esto permite adaptar la segmentación según la longitud del contenido y las demandas del modelo.
Ejemplo de código:
# Función para contar tokens
def contar_tokens(texto):
# Lógica para contar tokens
pass
# Aplicación de la función en un documento
numero_de_tokens = contar_tokens(mi_documento)
Entender cómo se distribuyen los tokens a lo largo de los documentos es esencial para evitar cortes no deseados durante la fragmentación. Usar herramientas como pandas
permite obtener estadísticas precisas sobre esta distribución.
Existen diversas estrategias para aplicar fragmentación con conocimiento de contexto, como el uso de heathers y caracteres delimitadores específicos. Esto ayuda a separar el texto de una manera que respete la estructura lógica y semántica.
La fragmentación basada en heathers consiste en identificar y usar los títulos o encabezados (ej. h1, h2) para delimitar el contenido. Al hacerlo, se logra que cada fragmento mantenga su coherencia temática.
Ejemplo de código:
# Usar Markdown headers para fragmentar
from mi_paquete import MarkdownHeaderTextSplitter
splitter = MarkdownHeaderTextSplitter()
documentos_fragmentados = splitter.split(mi_documento)
Consideraciones:
Determinar el número adecuado de tokens y overlays (superposición de tokens entre fragmentos) es crítico. Un análisis cuidadoso te permitirá balancear entre fragmentación y cohesión textual.
Para textos más complejos o especializados, como los documentos de código, se pueden usar funciones más avanzadas que consideran las características del lenguaje como delimitadores específicos y bloques de comentarios.
Al trabajar con textos de programación o documentos técnicos que usan lenguaje de marcado o código, es fundamental considerar caracteres específicos y la estructura del documento.
Nota final: Si bien las herramientas automáticas facilitan gran parte del proceso, se recomienda siempre verificar y ajustar manualmente los fragmentos para casos en los que la precisión es crítica.
Aportes 6
Preguntas 0
¿Quieres ver más aportes, preguntas y respuestas de la comunidad?