Cuando comenzamos a trabajar con documentos no estructurados, debemos cargarlos y transformarlos al formato deseado, con su correspondiente contenido y metadatos. Esta tarea es esencial para poder manipular y acceder a la información de manera eficiente. Afortunadamente, existen distintas integraciones disponibles que facilitan la conversión de textos provenientes de diferentes formatos, como CSV, Excel, HTML, y mucho más, a documentos estructurados.
¿Cómo descargar y cargar un PDF?
Para empezar, el primer paso consiste en descargar el PDF y guardarlo localmente. A continuación, utilizaremos unstructured file loader de la librería Document Loaders en Landship para cargar el archivo.
from document_loaders import UnstructuredFileLoader
# Cargamos la librería de unstructured si aún no lo hemos hecho!pip install unstructured
# Creamos el loaderloader = UnstructuredFileLoader('ruta_al_archivo.pdf')# Cargamos los datosdata = loader.load()
Con este enfoque, logramos tener el contenido del PDF en un solo documento cuando se trata, por ejemplo, de 18 páginas. Al utilizar el unstructured file loader, tratamos con documentos no estructurados de manera eficaz.
¿Cómo entender el formato de los datos cargados?
Primero, es fundamental saber que los datos se almacenan como una lista en Python. Al explorar el primer elemento de esta lista, podemos comprobar que es un document que contiene dos atributos clave: metadata y page content.
Metadata: Incluye detalles como source (la ruta del PDF).
Page Content: La parte del contenido del documento.
# Ver la metadatametadata = data[0].metadata
print(metadata['source'])# Ver los primeros 300 caracteres del contenido del documentoprint(data[0].page_content[:300])
¿Cómo dividir un PDF en documentos por página?
Si necesitamos que cada página del PDF se guarde como un documento independiente, podemos utilizar la clase pypdfloader de la misma librería Document Loaders. Con esta técnica, cada página del PDF se convierte en un documento único, lo cual resulta útil para proyectos que requieren una granularidad más fina de los datos.
from document_loaders import PyPDFLoader
# Instalar la librería pypdf si no ha sido instalada!pip install pypdf
# Crear el loader para dividir por páginasloader = PyPDFLoader('ruta_al_archivo.pdf')# Cargar los datosdata = loader.load()
¿Por qué es importante la metadata al dividir por página?
La metadata nos ofrece información valiosa sobre cada página del documento. Al dividir el PDF en documentos por página, podemos acceder a información como el número de página, lo cual facilita la navegación y organización de los contenidos.
Page: Además del source, ahora tenemos el atributo page, que indica el número de página correspondiente, tal como lo haría un índice en un libro.
# Comprobar metadata y contenido de una páginapagina_17 = data[16]# Índice 16 para la página 17print(pagina_17.metadata)print(pagina_17.page_content)
¿Cómo trabajar con documentos Word?
La metodología para trabajar con documentos Word de manera similar es igualmente práctica. En los recursos adicionales de la clase, encontrarás la documentación necesaria para aplicar estas técnicas a documentos Word, permitiendo dividirlos también en diferentes documentos por página.
Estos pasos y herramientas te permiten manejar un amplio rango de formatos de documento de manera flexible y eficiente. Te animo a seguir explorando y experimentando con otras integraciones, dado que el mundo de los datos no estructurados ofrece un horizonte sin fin de posibilidades para descubrir y aprovechar.
en mi caso tuve un problema con el uso de unstructured, por lo que tuve que instalarlo usando:
%%capture
!pip install "unstructured[pdf]"```no tuve que cambiar nada más
además, en mi caso uso jupyter noteboks en local, para evitar problemas de cache reinicie mi entorno de jupypter y con eso me basto
Actualización a Jan 2024:
Estas son las librerías que deben importar para que esta clase pueda funcionar:
Y este es el enlace para ver como hacer el ejercicio de word:
Debido a las actualizaciones el link se cayó, el nuevo es
Y al momento de cumplir con el reto tuve "modulo docx no encontrado" problema que se solucionó !pip install python-docx
Aquí está mi código:
from langchain_community.document_loaders import UnstructuredWordDocumentLoaderloader = UnstructuredWordDocumentLoader("./word.docx")data = loader.load()len(data)
Yo tengo Python 3.12 (por un proyecto en el que estoy trabajando) y me dio errores al ejecutar el proyecto usando el UnstructuredFileLoader y probé lo que indica Sebastian de la versión indicada y me genera otro error al instalar esa libreria.
Por lo que utilice el PyPDFLoader para este ejemplo del PDF y me funcionó sin problema
Bueno pregunta esto lo veo genial para pruebas, pero a largo plazo no seria mejor una base de datos que soporte busquedas vectoriale?
Alguien sabe si existe algun cobro por el procesamiento de los archivos pdf cargados, es decir, si quiero tener un chatbot de asistencia de preguntas y respuestas entiendo que openAI me cobrara por la cantidad de tokens que se generen en la entrada y la salida, pero tengo la duda si el procesamiento de los archivos pdf que le suminstre tambien los cobrara.?
David, en ese caso creo que te conviene hacer fine tunning de tu documentacion, para acceder a una version de GPT especialista en tu negocio, y te saldria mas barato, porque no le pasas el documento como contexto cada vez. En plazti hay cursos de fine tunning de GPT
Reporto que el link de los recursos sobre Microsoft Word no funciona:
Dice que no lo encuentra.
Me imagino que son rezagos del cambio de plataforma. Lo pueden corregir porfa?
Pudo alguien lograr el reto de cargar el cargar word y dividirlo en páginas?.
El archivo tiene 276 páginas y cada página tiene multiples enlaces, al validar la cantidad de documentos generados, este tenia 4889 en lugar de 279. ¿Saben que parametros puedo pasar para que sea divido por pàginas?.
Reto Cumplido
¡Reto completado!
Como le puedo pasar el codigo de mi proyecto a langchain para que me de sugerencias???? plss help :(((
no me deja ingresar a los recursos del curso, algun problema con la pagina?
Es un problema con la nueva versión de Platzi, se soluciona volviendo a la versión anterior, esto lo puedes hacer con la flecha que aparece en la parte inferior izquierda