Carga y procesamiento de archivos HTML con LangChain y Beautiful Soup

Resumen

En esta clase, exploramos cómo LangChain nos permite cargar y procesar archivos HTML utilizando herramientas especializadas llamadas document loaders. A continuación, desglosamos los puntos clave para aprovechar esta funcionalidad, así como algunos conceptos y buenas prácticas para gestionar múltiples archivos y directorios.

1. Carga de Archivos HTML en LangChain

Los archivos HTML son esenciales para estructurar y visualizar contenido en la web. LangChain permite cargar estos archivos y tratarlos como documentos procesables, lo que significa que puedes extraer texto, metadatos y hacer análisis sobre el contenido utilizando document loaders.

a) Document Loaders para HTML

LangChain tiene loaders específicos para diferentes tipos de archivos, incluido HTML. Uno de los más comunes es Beautiful Soup, una biblioteca en Python utilizada para trabajar con archivos HTML, facilitando la extracción de información estructurada.

¿Por qué usar Beautiful Soup?: Es una herramienta robusta para analizar HTML y es ampliamente utilizada en proyectos de web scraping. Si ya tienes experiencia con Beautiful Soup, su integración con LangChain te resultará familiar.

Proceso de carga de HTML:

Instalación de Beautiful Soup: Es necesario instalar esta biblioteca para trabajar con archivos HTML dentro de LangChain.
Cargar el archivo HTML: Una vez instalada, se puede utilizar el HTML loader de Beautiful Soup para cargar el archivo y comenzar a extraer texto y metadatos, como el título de la página o cualquier otro elemento que desees procesar.

b) Extracción de Contenido y Metadatos

Cuando cargamos un archivo HTML, LangChain no solo permite acceder al texto del documento, sino también a los metadatos asociados, como el nombre del archivo, la ruta, el título, etc. Estos metadatos pueden ser útiles en proyectos donde se necesita hacer referencia a la fuente de la información o en casos de análisis de grandes cantidades de documentos.

2. Cargar Directorios con Archivos Múltiples

Una de las funcionalidades más poderosas de LangChain es la capacidad de cargar directorios completos que contienen múltiples archivos, como PDFs, CSVs o HTMLs. Esto es especialmente útil cuando se trabaja con grandes volúmenes de datos distribuidos en diferentes archivos.

a) Carga de Directorios

Puedes cargar todo el contenido de un directorio y especificar qué tipo de archivos deseas procesar (por ejemplo, solo HTML o solo CSV). Esto se realiza a través de un directory loader, que automatiza la carga de archivos múltiples y permite procesarlos en secuencia.

Importancia de los Loaders Específicos: Es importante utilizar el loader adecuado para cada tipo de archivo. Por ejemplo, si en un directorio tienes PDFs y HTMLs, y solo necesitas procesar los HTMLs, el HTML loader te permitirá cargar únicamente esos archivos.

b) Barra de Progreso

Cuando trabajas con muchos archivos, LangChain ofrece una opción para mostrar una barra de progreso, que te permite visualizar el estado de carga de cada documento en tiempo real. Esto es útil en proyectos grandes donde el tiempo de carga puede variar dependiendo de la cantidad de archivos y su tamaño.

3. Integración con Google Drive y Google Colaboratory

Si trabajas en Google Colab, una buena práctica es utilizar Google Drive para almacenar y acceder a los archivos. LangChain permite fácilmente conectar tu entorno de trabajo con Google Drive, lo que facilita la carga y el procesamiento de archivos.

a) Cargar Archivos desde Google Drive

Conexión con Google Drive: En Google Colab, puedes conectar tu cuenta de Google Drive y acceder a los archivos almacenados en él, como PDFs, HTMLs o CSVs.
Carga de Archivos y Directorios: Una vez conectado, puedes acceder a los directorios en tu My Drive, lo que te permite cargar archivos de manera sencilla y trabajar con ellos directamente en Colab.

4. Buenas Prácticas para Trabajar con Documentos

Utiliza Loaders Específicos: Cada tipo de archivo (HTML, PDF, CSV) tiene su propio loader, y es importante utilizarlos de manera adecuada para evitar errores de formato.
Organización de Archivos: Si trabajas con múltiples tipos de archivos en un mismo proyecto, es recomendable separarlos en carpetas específicas para facilitar la carga y procesamiento con el loader correcto.
Aprovecha los Metadatos: Los archivos cargados no solo contienen texto, sino también metadatos valiosos que puedes utilizar para hacer referencias cruzadas o identificar documentos específicos dentro de un gran conjunto de datos.

Comentarios

Alejandro Nieto

student•

Alguien dijo Web Scraping😏

By the way, recomiendo ampliamente el curso de 'LangChain para Manejo y Recuperación de Documentos', gran curso👌

Jovanny Delgado

student•

Una de las funcionalidades clave de LangChain es la capacidad de cargar y procesar diversos tipos de datos, incluyendo documentos HTML y directorios completos. Esto permite crear aplicaciones de IA que pueden comprender y responder a una amplia variedad de información.

Cargando Archivos HTML

LangChain ofrece varias opciones para cargar archivos HTML, cada una con sus propias características y ventajas:

UnstructuredHTMLLoader: Esta clase utiliza la biblioteca Unstructured para extraer texto de archivos HTML. Es una opción sencilla y efectiva para muchos casos de uso.

Pythonfrom langchain.document_loaders import UnstructuredHTMLLoader

loader = UnstructuredHTMLLoader("example_data/fake-content.html") data = loader.load() Usa el código con precaución.

BSHTMLLoader: Utiliza BeautifulSoup4 para parsear el HTML y extraer el texto. Permite un mayor control sobre el proceso de extracción.

Pythonfrom langchain.document_loaders import BSHTMLLoader

loader = BSHTMLLoader("example_data/fake-content.html") data = loader.load() Usa el código con precaución.

SpiderLoader: Esta clase utiliza la API de Spider para cargar páginas web completas y convertirlas en texto, markdown, o HTML. Es útil para cargar grandes cantidades de datos de la web.

Pythonfrom langchain_community.document_loaders import SpiderLoader

loader = SpiderLoader(api_key="YOUR_API_KEY", url="https://spider.cloud") data = loader.load() Usa el código con precaución.

Cargando Directorios Completos

Para cargar todos los archivos de un directorio, LangChain proporciona el cargador DirectoryLoader. Puedes especificar patrones para filtrar los archivos que deseas cargar.

Pythonfrom langchain.document_loaders import DirectoryLoader

loader = DirectoryLoader("my_documents", glob="*.pdf") # Cargar todos los PDF data = loader.load() Usa el código con precaución.

Procesamiento Posterior de los Datos

Una vez que has cargado los documentos, puedes realizar diversas operaciones, como:

Crear un índice: Para realizar búsquedas rápidas dentro de los documentos.
Entrenar un modelo de lenguaje: Para crear un modelo que pueda responder preguntas sobre los datos.
Generar texto: Para crear resúmenes, traducciones o nuevas piezas de contenido basadas en los documentos.

Pythonfrom langchain.vectorstores import FAISS

# Crear un índice vectorstore = FAISS.from_documents(data)

# Realizar una búsqueda query = "Cuál es la capital de Francia?" docs = vectorstore.similarity_search(query) Usa el código con precaución.

Consideraciones Adicionales

Estructura de los documentos HTML: La complejidad de la estructura HTML puede afectar la calidad de la extracción de texto.
Limpieza de datos: Es posible que necesites realizar una limpieza adicional de los datos extraídos, como eliminar etiquetas HTML o normalizar el texto.
Rendimiento: Para grandes cantidades de datos, considera utilizar técnicas de procesamiento paralelo o distribuido.

Ejemplos de Uso

Chatbots: Crear un chatbot que pueda responder preguntas sobre un sitio web completo.
Sistemas de búsqueda: Desarrollar un motor de búsqueda personalizado sobre una colección de documentos.
Análisis de sentimientos: Analizar la opinión de los usuarios a partir de comentarios en páginas web.

Conclusión

LangChain ofrece una forma sencilla y flexible de cargar y procesar documentos HTML y directorios completos. Al combinar estas capacidades con los modelos de lenguaje de gran tamaño, puedes crear aplicaciones de IA potentes y personalizadas.

¿Tienes alguna pregunta específica sobre la carga de HTML y directorios con LangChain? Por ejemplo, podemos explorar:

Cómo manejar diferentes formatos de archivos: PDF, DOCX, etc.
Cómo personalizar la extracción de texto: Utilizando expresiones regulares o XPath.
Cómo optimizar el rendimiento para grandes conjuntos de datos.

Platzi Team

student•

Para cargar un archivo HTML en Google Colab, debes seguir estos pasos:

Guardar el archivo en Google Drive: Crea una carpeta en tu Google Drive y sube el archivo HTML allí.
Conectar Google Colab a Google Drive: Usa el siguiente código en una celda de Colab para montar tu Google Drive:
```
from google.colab import drive
drive.mount('/content/drive')
```
Acceder al archivo: Después de montar, puedes acceder a tu archivo HTML usando la ruta correspondiente, por ejemplo:
```
file_path = '/content/drive/My Drive/tu_carpeta/tu_archivo.html'
```

Luego, puedes utilizar el cargador de HTML en LangChain para procesarlo.

Prevalentware SAS

student•

Si les da error usando

loader = BSHTMLLoader(file_path)

pueden cambiar a

loader = BSHTMLLoader(file_path, bs_kwargs={"features": "html.parser"})

Andres Ricardo Martinez Diaz

student•

Hola, si quieren cargar contenido web desde un link pueden hacerlo con la clase WebBaseLoader de langchain_community.document_loaders de la siguiente manera


from langchain\_community.document\_loaders import WebBaseLoader

loader = WebBaseLoader("https://url.com")
docs = loader.load()
print(docs)

Guillermo Baldán López

student•

¿Puedo cargar un html que se encuentra en la web (no en mi máquina local)?

iecgerman .

student•

from bs4 import BeautifulSoup

Ulqernesh Karvenae

student•

Reto completado en base a la ruta de cada archivo se usa un loader o otro

from langchain_community.document_loaders import DirectoryLoader

!pid install langchain_community
!pip install unstructured
!pip install unstructured[pdf]
!pip install unstructured[docx]
!pip install unstructured[excel]

from langchain.document_loaders import PyPDFLoader, CSVLoader, BSHTMLLoader, TextLoader
import os

# Directorio que contiene los archivos
directory_path = "/content/documents"

files = [os.path.join(directory_path, f) for f in os.listdir(directory_path)]

for file_path in files:
    if file_path.endswith(".pdf"):
        print(f"Procesando PDF: {file_path}")
        loader = PyPDFLoader(file_path)
        docs = loader.load()
        for doc in docs:
            print(f"Contenido (primeros 100 caracteres): {doc.page_content[:100]}...\n")
    elif file_path.endswith(".csv"):
        print(f"Procesando CSV: {file_path}")
        loader = CSVLoader(file_path=file_path)
        data = loader.load()
        for record in data[:4]:
            print(record)
    elif file_path.endswith(".html"):
        print(f"Procesando HTML: {file_path}")
        loader = BSHTMLLoader(file_path)
        data = loader.load()
        for doc in data:
            print(f"Contenido (primeros 100 caracteres): {doc.page_content[:100]}...\n")
    elif file_path.endswith(".md"):
        print(f"Procesando Markdown: {file_path}")
        loader = TextLoader(file_path)
        docs = loader.load()
        for doc in docs:
            print(f"Contenido (primeros 100 caracteres): {doc.page_content[:100]}...\n")
    else:
        print(f"Archivo no soportado: {file_path}")

Juan Felipe Rodriguez Valencia

student•

from langchain.document_loaders import PyPDFLoader

Luisa Alvarez Bello

student•

Para cargar un sitio web externo en LangChain utilizando una URI, puedes utilizar requests para obtener el contenido HTML y luego procesarlo con Beautiful Soup. Aquí tienes un ejemplo básico:

import requests
from bs4 import BeautifulSoup
from langchain.document_loaders import BeautifulSoupLoader

# Cargar HTML desde una URI
url = "https://ejemplo.com"
response = requests.get(url)
soup = BeautifulSoup(response.content, 'html.parser')

# Crear un documento con Beautiful Soup
loader = BeautifulSoupLoader(soup.prettify())
document = loader.load()

print(document)

Asegúrate de tener instaladas las librerías necesarias y ajustar el código según tus necesidades.

Carga y procesamiento de archivos HTML con LangChain y Beautiful Soup

Fundamentos de los Agentes Inteligentes y LangChain

Conexión a Huggingface GPT-2 en Google Collaboratory

Desarrollo de Aplicaciones Conversacionales con LangChain

Creación de Agentes Inteligentes con LangChain

Instalación y uso de API Keys para modelos de lenguaje en Google Collab

Chat Models y Prompt templates

Chat Messages con OpenAI

Conexión y uso de modelos de chat con LangChain y OpenAI

Uso de Modelos de Google AI Gemini en LangChain

Creación de Plantillas de Prompts en LangChain

Técnicas de Few-Shot Prompting en Modelos de Lenguaje

Cadenas en LangChain

Creación de Cadenas en LangChain con String Output Parser

Gestión de Historial de Chat con LangChain

Integración de Herramientas Claves en LangChain: Runnable, OutputParser, Streaming

Creación de Chatbots Inteligentes con Memoria Conversacional

Cadena de Procesos para Memoria Conversacional con GPT-3.5 Turbo

Carga de documentos en LangChain

Carga y procesamiento de archivos HTML con LangChain y Beautiful Soup

Carga de PDFs y CSVs en LangChain con PyPDF y CSV Loader

División de Texto en Fragmentos con TextSplitters en LangChain

Retrieval-augmented generation (RAG)

Gestión de Vectores de Texto con Chroma y LangChain

Embeddings y su aplicación en modelos de lenguaje y RAG

Pinecone: Implementación de Bases de Datos Vectoriales Escalables

Creación de Chatbot RAG con LangChain y ChromaDB

Construcción de un Asistente Conversacional con LangChain y RAG

Agentes en LangChain

Creación de Agentes en LangChain con Tavily Search y OpenAI

Integración de Toolkits en LangChain para Modelos de Lenguaje

Creación de Agentes Inteligentes con LangChain y Memoria

Ecosistema de LangChain

Creación y Gestión de Aplicaciones con LangChain, LangSmith y LangGraph