Extracción de Texto Contextual en HTML: Técnicas y Aplicaciones

Clase 2 de 17 • Curso de LangChain para Manejo y Recuperación de Documentos

Contenido del curso

Manejo de documentos

Indexación de vectores

Recuperación de documentos

Re-ranking semántico

RAG

Tomar examen

Resumen

¿Qué es la extracción de texto con base en el contexto y por qué es importante?

La extracción de texto basada en el contexto es una técnica esencial para obtener información relevante al analizar documentos complejos. Esta acción es vital, sobre todo cuando trabajamos con grandes volúmenes de datos de naturalezas variadas, ya que nos permite eliminar información redundante y centrarnos en lo que realmente aporta valor a nuestros modelos de lenguaje o análisis de datos. Como ejemplo, en un sitio de documentación, no toda la información presentada en la barra de navegación o en elementos repetidos es útil para nuestro propósito. La clave es hacer un uso inteligente del contexto para limpiar y estructurar la información.

¿Cómo podemos extraer texto relevante de HTML?

Para comenzar a extraer texto de un documento HTML de manera efectiva, es necesario definir claramente qué partes de ese documento son relevantes. Aquí es donde librerías como BeautifulSoup o recursos ORL loader son útiles. Estas permiten navegar y manipular la estructura HTML fácilmente, centrándose en elementos específicos, por ejemplo:

from bs4 import BeautifulSoup

def extract_text(html):
    soup = BeautifulSoup(html, 'html.parser')
    text = soup.find_all('article')
    # Procesa el contenido relevante
    return text

Estos pasos son fundamentales para filtrar el contenido no deseado y enfocar las consultas únicamente en secciones de interés, optimizando así nuestros esfuerzos para el desarrollo de modelos más precisos.

¿Cuáles son las claves para optimizar la extracción de texto?

Aplica un enfoque detallista

Para asegurar que solo estamos extrayendo texto relevante y estructurado, es fundamental adoptar un enfoque meticuloso. Esto implica analizar la estructura HTML y definir filtros que nos permitan obtener contenido limpio. Observa que no todos los textos son iguales, y diferenciarlos según su relevancia y estructura es esencial:

Identifica patrones en los datos: Observa etiquetas y contenedores claves, como <article>, donde se concentra el texto útil.
Adapta el extractor a contextos específicos: Crea funciones que transformen HTML en Markdown o formateos estructurados que faciliten su manipulación.

Observación y análisis del HTML

Para desarrollar un extractor efectivo, se requiere un análisis exhaustivo del documento HTML, observando su estructura y contenido. Esto se logra revisando el código mediante herramientas como "inspect" en navegadores, identificando patrones y estructuras repetitivas o útiles:

def html_to_markdown(html):
    from html2text import HTML2Text
    
    h2t = HTML2Text()
    h2t.ignore_links = False
    h2t.ignore_images = False
    # Convierte HTML a Markdown manteniendo formato
    return h2t.handle(html)

Herramientas que facilitan la conversión del HTML

Ahora, al utilizar herramientas como Copilot en combinación con nuestras funciones ya definidas, podemos simplificar y automatizar procesos, garantizando que los datos procesados sean consistentes y precisos. A través de extractores personalizados, es posible tener resultados listos para ser analizados con una claridad impresionante.

Recomendaciones prácticas

Conoce las herramientas y librerías que te apoyarán: BeautifulSoup, html2text y Copilot son excelentes aliados para tareas de extracción.
Obsérvalos desde varios ángulos: Cada documento puede presentar distintas particularidades. Familiarízate con la estructura de los documentos que necesitas analizar.
Mejora continuamente tu extractor de texto: Ajusta tus funciones en base a nuevas observaciones, patrones y métodos que optimicen la limpieza y estructuración del contenido.

La extracción de texto no solo se trata de obtener información, sino de hacerlo de manera eficaz y adaptada al contexto de cada proyecto. Al dominar estas técnicas, podrás mejorar significativamente la calidad de tus análisis y aplicaciones.

Comentarios

Tomas Pucutay

student•

Si por algún motivo están utilizando una versión de Python menor a 3.10 y ya sea que dependen de una máquina virtual que no les permite cambiar de versión, ejemplo: Yo uso GPUs desde Paperspace, tiene 3.9.16, cambiar la versión implica crear otra máquina virtual y levantarlo con un contenedor de Python 3.10

La solución más sencilla es agregar al código lo siguiente:

from __future__ import annotations
```De esta manera se pueden solucionar algunos problemas de compatibilidad.

Ejemplo: En esta parte path\_url: str | None = None, el operador | en los tipos solo está permitido desde Python 3.10

Mauricio Martínez Orjuela

student•

1:43 el link es

Blanca Segura Garcia

student•

Lástima tengo problemas de instalar pyenv en Linux Ubuntu. Siempre me sale p7env. Tengo la versión de Python3.11 pero no me resulta. Alguien tiene una idea?

Gustavo Trillo

student•

Es cierto, debería iniciar por instalar los requerimientos para correr los ejemplos, y tener todo listo para la clase

Emilio Sala

student•

yo uso anaconda para crear un ambiente llamado llm, donde tengo la mayoria de librerias que necesito para este curso y otros que usan langchain

Mauricio Combariza

student•

Se ve muy bueno el curso y el profesor es excelente!!

Josué Barrios Rodriguez

student•

Todo esto no lo podria hacer un LLM? se supone que deberia diferenciar entre codigo HTML y contenido de texto no?

Leonel Federico Valencia Estudillo

student•

cómo puedo extraer data donde la información lo puedo obtener de 2 maneras?, con datasets que ofrece su página como el archivo PromoterSet.csv y otra forma es por su servicio web de graphQL que puedo obtener de la query y queir que me devuelva 100 promotores

Mauricio Combariza

student•

Les recomiendo si van a trabajar en jupyter notebook, abran uno nuevo con anaconda navigator, en donde python que tenga sea mínimo 3.11, para que los corran todas las librerias de LangChain

Luis Boivar

student•

super interesante como usar los loaders para cargar está data y depurarla.

from __future__ import annotations
```De esta manera se pueden solucionar algunos problemas de compatibilidad.

Ejemplo: En esta parte path\_url: str | None = None, el operador | en los tipos solo está permitido desde Python 3.10

Extracción de Texto Contextual en HTML: Técnicas y Aplicaciones

Manejo de documentos

Extracción y Fragmentación de Texto para IA