Carga y Transformación de Documentos No Estructurados con Landship
Clase 14 de 37 • Curso de LangChain
Resumen
¿Cómo indexar documentos no estructurados?
Cuando comenzamos a trabajar con documentos no estructurados, debemos cargarlos y transformarlos al formato deseado, con su correspondiente contenido y metadatos. Esta tarea es esencial para poder manipular y acceder a la información de manera eficiente. Afortunadamente, existen distintas integraciones disponibles que facilitan la conversión de textos provenientes de diferentes formatos, como CSV, Excel, HTML, y mucho más, a documentos estructurados.
¿Cómo descargar y cargar un PDF?
Para empezar, el primer paso consiste en descargar el PDF y guardarlo localmente. A continuación, utilizaremos unstructured file loader
de la librería Document Loaders en Landship para cargar el archivo.
from document_loaders import UnstructuredFileLoader
# Cargamos la librería de unstructured si aún no lo hemos hecho
!pip install unstructured
# Creamos el loader
loader = UnstructuredFileLoader('ruta_al_archivo.pdf')
# Cargamos los datos
data = loader.load()
Con este enfoque, logramos tener el contenido del PDF en un solo documento cuando se trata, por ejemplo, de 18 páginas. Al utilizar el unstructured file loader
, tratamos con documentos no estructurados de manera eficaz.
¿Cómo entender el formato de los datos cargados?
Primero, es fundamental saber que los datos se almacenan como una lista en Python. Al explorar el primer elemento de esta lista, podemos comprobar que es un document
que contiene dos atributos clave: metadata
y page content
.
- Metadata: Incluye detalles como
source
(la ruta del PDF). - Page Content: La parte del contenido del documento.
# Ver la metadata
metadata = data[0].metadata
print(metadata['source'])
# Ver los primeros 300 caracteres del contenido del documento
print(data[0].page_content[:300])
¿Cómo dividir un PDF en documentos por página?
Si necesitamos que cada página del PDF se guarde como un documento independiente, podemos utilizar la clase pypdfloader
de la misma librería Document Loaders. Con esta técnica, cada página del PDF se convierte en un documento único, lo cual resulta útil para proyectos que requieren una granularidad más fina de los datos.
from document_loaders import PyPDFLoader
# Instalar la librería pypdf si no ha sido instalada
!pip install pypdf
# Crear el loader para dividir por páginas
loader = PyPDFLoader('ruta_al_archivo.pdf')
# Cargar los datos
data = loader.load()
¿Por qué es importante la metadata al dividir por página?
La metadata nos ofrece información valiosa sobre cada página del documento. Al dividir el PDF en documentos por página, podemos acceder a información como el número de página, lo cual facilita la navegación y organización de los contenidos.
- Page: Además del
source
, ahora tenemos el atributopage
, que indica el número de página correspondiente, tal como lo haría un índice en un libro.
# Comprobar metadata y contenido de una página
pagina_17 = data[16] # Índice 16 para la página 17
print(pagina_17.metadata)
print(pagina_17.page_content)
¿Cómo trabajar con documentos Word?
La metodología para trabajar con documentos Word de manera similar es igualmente práctica. En los recursos adicionales de la clase, encontrarás la documentación necesaria para aplicar estas técnicas a documentos Word, permitiendo dividirlos también en diferentes documentos por página.
Estos pasos y herramientas te permiten manejar un amplio rango de formatos de documento de manera flexible y eficiente. Te animo a seguir explorando y experimentando con otras integraciones, dado que el mundo de los datos no estructurados ofrece un horizonte sin fin de posibilidades para descubrir y aprovechar.