Carga y Transformación de Documentos No Estructurados con Landship

Resumen

¿Cómo indexar documentos no estructurados?

Cuando comenzamos a trabajar con documentos no estructurados, debemos cargarlos y transformarlos al formato deseado, con su correspondiente contenido y metadatos. Esta tarea es esencial para poder manipular y acceder a la información de manera eficiente. Afortunadamente, existen distintas integraciones disponibles que facilitan la conversión de textos provenientes de diferentes formatos, como CSV, Excel, HTML, y mucho más, a documentos estructurados.

¿Cómo descargar y cargar un PDF?

Para empezar, el primer paso consiste en descargar el PDF y guardarlo localmente. A continuación, utilizaremos unstructured file loader de la librería Document Loaders en Landship para cargar el archivo.

from document_loaders import UnstructuredFileLoader

# Cargamos la librería de unstructured si aún no lo hemos hecho
!pip install unstructured

# Creamos el loader
loader = UnstructuredFileLoader('ruta_al_archivo.pdf')

# Cargamos los datos
data = loader.load()

Con este enfoque, logramos tener el contenido del PDF en un solo documento cuando se trata, por ejemplo, de 18 páginas. Al utilizar el unstructured file loader, tratamos con documentos no estructurados de manera eficaz.

¿Cómo entender el formato de los datos cargados?

Primero, es fundamental saber que los datos se almacenan como una lista en Python. Al explorar el primer elemento de esta lista, podemos comprobar que es un document que contiene dos atributos clave: metadata y page content.

Metadata: Incluye detalles como source (la ruta del PDF).
Page Content: La parte del contenido del documento.

# Ver la metadata
metadata = data[0].metadata
print(metadata['source'])

# Ver los primeros 300 caracteres del contenido del documento
print(data[0].page_content[:300])

¿Cómo dividir un PDF en documentos por página?

Si necesitamos que cada página del PDF se guarde como un documento independiente, podemos utilizar la clase pypdfloader de la misma librería Document Loaders. Con esta técnica, cada página del PDF se convierte en un documento único, lo cual resulta útil para proyectos que requieren una granularidad más fina de los datos.

from document_loaders import PyPDFLoader

# Instalar la librería pypdf si no ha sido instalada
!pip install pypdf

# Crear el loader para dividir por páginas
loader = PyPDFLoader('ruta_al_archivo.pdf')

# Cargar los datos
data = loader.load()

¿Por qué es importante la metadata al dividir por página?

La metadata nos ofrece información valiosa sobre cada página del documento. Al dividir el PDF en documentos por página, podemos acceder a información como el número de página, lo cual facilita la navegación y organización de los contenidos.

Page: Además del source, ahora tenemos el atributo page, que indica el número de página correspondiente, tal como lo haría un índice en un libro.

# Comprobar metadata y contenido de una página
pagina_17 = data[16]  # Índice 16 para la página 17
print(pagina_17.metadata)
print(pagina_17.page_content)

¿Cómo trabajar con documentos Word?

La metodología para trabajar con documentos Word de manera similar es igualmente práctica. En los recursos adicionales de la clase, encontrarás la documentación necesaria para aplicar estas técnicas a documentos Word, permitiendo dividirlos también en diferentes documentos por página.

Estos pasos y herramientas te permiten manejar un amplio rango de formatos de documento de manera flexible y eficiente. Te animo a seguir explorando y experimentando con otras integraciones, dado que el mundo de los datos no estructurados ofrece un horizonte sin fin de posibilidades para descubrir y aprovechar.

Comentarios

Duilio Sotelo

student•

en mi caso tuve un problema con el uso de unstructured, por lo que tuve que instalarlo usando:

%%capture
!pip install "unstructured[pdf]"
```no tuve que cambiar nada más

además, en mi caso uso jupyter noteboks en local, para evitar problemas de cache reinicie mi entorno de jupypter y con eso me basto

John J. Meza

student•

Actualización a Jan 2024:

Estas son las librerías que deben importar para que esta clase pueda funcionar:

%%capture
!pip install "unstructured[pdf]"
!pip install -U langchain-community

Y este es el enlace para ver como hacer el ejercicio de word:

Ivan Daniel Manrique

student•

Debido a las actualizaciones el link se cayó, el nuevo es

Y al momento de cumplir con el reto tuve "modulo docx no encontrado" problema que se solucionó !pip install python-docx

Aquí está mi código:

from langchain_community.document_loaders import UnstructuredWordDocumentLoader loader = UnstructuredWordDocumentLoader("./word.docx") data = loader.load() len(data)

Willian Diaz Pabón

student•

Yo tengo Python 3.12 (por un proyecto en el que estoy trabajando) y me dio errores al ejecutar el proyecto usando el UnstructuredFileLoader y probé lo que indica Sebastian de la versión indicada y me genera otro error al instalar esa libreria.

Por lo que utilice el PyPDFLoader para este ejemplo del PDF y me funcionó sin problema

Iván Ozono

student•

Daniel Ortiz

student•

Bueno pregunta esto lo veo genial para pruebas, pero a largo plazo no seria mejor una base de datos que soporte busquedas vectoriale?

David Valecillo

student•

Alguien sabe si existe algun cobro por el procesamiento de los archivos pdf cargados, es decir, si quiero tener un chatbot de asistencia de preguntas y respuestas entiendo que openAI me cobrara por la cantidad de tokens que se generen en la entrada y la salida, pero tengo la duda si el procesamiento de los archivos pdf que le suminstre tambien los cobrara.?

Federico Arias

student•

David, en ese caso creo que te conviene hacer fine tunning de tu documentacion, para acceder a una version de GPT especialista en tu negocio, y te saldria mas barato, porque no le pasas el documento como contexto cada vez. En plazti hay cursos de fine tunning de GPT

Willian Diaz Pabón

student•

Reporto que el link de los recursos sobre Microsoft Word no funciona:

Dice que no lo encuentra.

Me imagino que son rezagos del cambio de plataforma. Lo pueden corregir porfa?

Jorge Raba

student•

Pudo alguien lograr el reto de cargar el cargar word y dividirlo en páginas?.

Usé el siguiente código:

# !pip install docx2txt python-docx

from langchain.document_loaders import UnstructuredWordDocumentLoader
loader_word = UnstructuredWordDocumentLoader("./fake.docx", mode="elements")
data_word = loader_word.load()

El archivo tiene 276 páginas y cada página tiene multiples enlaces, al validar la cantidad de documentos generados, este tenia 4889 en lugar de 279. ¿Saben que parametros puedo pasar para que sea divido por pàginas?.

Alvaro Castillo

student•

Reto Cumplido

Michell Osorio Rodriguez

student•

¡Reto completado!

Pablo Domínguez

student•

Como le puedo pasar el codigo de mi proyecto a langchain para que me de sugerencias???? plss help :(((

jonathan marin

student•

no me deja ingresar a los recursos del curso, algun problema con la pagina?

Christian Omar Silva Torres

student•

Es un problema con la nueva versión de Platzi, se soluciona volviendo a la versión anterior, esto lo puedes hacer con la flecha que aparece en la parte inferior izquierda

Carga y Transformación de Documentos No Estructurados con Landship

Introducción a LangChain

Creación de un sistema de preguntas y respuestas con LangChain

Estructura y Uso de Langchain en Python

Carga de Modelos Open Source con Langchain y Hugging Face

Uso de Modelos OpenAI con LangChain: Guía Práctica para Principiantes

Creación de Prompts Dinámicos con LangChain

Uso de Cadenas en Modelos de Lenguaje con Language Chain

Procesamiento de PDFs y creación de resúmenes con LangChain

Creación de Cadenas de Preguntas y Respuestas con Modelos de Lenguaje

Creación de cadenas secuenciales en Python para procesamiento de texto

Casos de uso de LangChain

Aplicaciones y Beneficios de Lancheng en el Manejo de LLMs

Implementación de Lanchain y LLMs: Costos, Privacidad y Buenas Prácticas

Manejo de documentos con índices

Carga de Documentos en Langchain para Creación de Índices

Fundamentos de la Clase Document en Langchain

Carga y Transformación de Documentos No Estructurados con Landship

Lectura de CSV y conversión a DataFrame de Pandas y LangChain

Creación de un Cargador de JSON-Lines Personalizado en Python

Fragmentación de Documentos con TextSplitter en Langsteam

Creación de un Chatbot con Documentación de Hugging Face

Creación de Índice Vectorial con Langchain y Embeddings

Embeddings y bases de datos vectoriales

Creación de Índices con Embeddings y Bases de Datos Vectoriales

Creación y uso de embeddings con OpenAI y Lanchain

Modelos de Embeddings Open Source en Español con Sentence Transformers

Creación y Gestión de Bases de Datos Vectoriales con Chroma

Creación y manejo de bases de datos vectoriales con OpenAI Embeddings

Creación y Uso de un Retriever en Chroma para Consultas Avanzadas

Modelo de Chat para Preguntas y Respuestas con LangChain y Chroma

Creación de un Chatbot para Preguntas con Bases de Datos Vectoriales

Chats y memoria con LangChain

Memoria de Corto Plazo en Chatbots: Implementación y Optimización

Creación y Uso de Modelos de Chat con OpenAI y LangChain

Creación de Plantillas Dinámicas para Prompts de Chat en Langstead

Memoria en chatbots: Implementación con ConversationBufferMemory

Configuración de ConversationBufferWindowMemory en Chatbots

Memoria de Resumen de Conversaciones con Chat GPT-3.5

Gestión de Memoria en Chatbots con ConversationSummaryBufferMemory

Memoria de Entidades en Chatbots para Soporte de Ventas

Implementación de Chatbot con Memoria en Python usando Langchain

Evolución del uso de LLM

Creación de Chatbots con Modelos de Lenguaje y Bases de Datos Vectoriales