Carga de PDF y CSV con LangChain

Curso de Agentes AI

Contenido del curso

Fundamentos de los Agentes Inteligentes y LangChain

Chat Models y Prompt templates

Cadenas en LangChain

Carga de documentos en LangChain

Retrieval-augmented generation (RAG)

Agentes en LangChain

Ecosistema de LangChain

26
Creación y Gestión de Aplicaciones con LangChain, LangSmith y LangGraph
03:56 min

Tomar examen

Carga de PDF y CSV con LangChain

Resumen

Cargar archivos externos a un flujo de IA es uno de los pasos clave para construir aplicaciones útiles. Con los document loaders de LangChain puedes traer información desde PDF, CSV, HTML, JSON o Markdown y dejarla lista para búsquedas semánticas, agentes o bases vectoriales. Aquí te muestro cómo hacerlo paso a paso con PyPDF y CSVLoader, pensado para quienes están empezando a construir pipelines de RAG.

¿Qué son los document loaders de LangChain y para qué sirven?

Los document loaders son utilidades que leen un archivo y lo convierten en un objeto Document con dos partes: el contenido textual y la metadata (página, fila, fuente). Cada formato tiene su loader específico, así que eliges el que coincide con tu archivo.

Entre los formatos disponibles encontrarás:

CSV mediante CSVLoader.
PDF mediante PyPDFLoader y otros integradores.
Carpetas completas con archivos mixtos como HTML, JSON o Markdown.
APIs de terceros integradas en langchain_community.

¿Qué es un document loader? Es una clase de LangChain que lee un archivo y devuelve documentos con texto y metadata listos para consultas o vectorización.

¿Cómo cargar un PDF con PyPDFLoader paso a paso?

El flujo arranca instalando el paquete y apuntando al archivo. Necesitas dos piezas: pypdf para procesar el PDF y langchain_community para acceder a integraciones de terceros.

Los pasos son directos:

Instala las dependencias con pip install pypdf y pip install langchain_community.
Importa PyPDFLoader desde langchain_community.document_loaders.
Pasa la ruta del PDF al loader y ejecuta .load().
Accede al contenido y a la metadata de cada página.

Cuando ejecutas el loader, recibes un objeto que incluye el texto extraído y datos como el número de página. Eso te permite, por ejemplo, pedir solo los primeros 300 caracteres de una página específica o iterar por todas las páginas para procesarlas.

¿Por qué necesitas langchain_community?

Si intentas correr el loader sin instalarlo, verás un error de módulo no encontrado. langchain_community agrupa todas las integraciones con paquetes externos, como PyPDF, FAISS o conectores de bases de datos. Recuerda usar guion bajo en el nombre al instalarlo.

¿Cómo hacer búsqueda semántica sobre un PDF cargado?

Una vez que tienes las páginas cargadas, puedes transformarlas en vectores y consultar por similitud. Aquí entran dos piezas nuevas: los embeddings y un vector store.

El flujo conceptual es este:

Tomas los documentos cargados con PyPDFLoader.
Generas embeddings con OpenAIEmbeddings, que convierten el texto a vectores numéricos.
Almacenas esos vectores en FAISS, una librería open source para búsqueda vectorial.
Lanzas una consulta y pides los vecinos más cercanos al texto buscado.

En el ejemplo de la clase, el PDF contiene texto Lorem Ipsum en una sola página. Al consultar por Lorem Ipsum y pedir los dos vecinos más cercanos, FAISS devuelve los fragmentos del documento más parecidos semánticamente, junto con la metadata de la página cero.

¿Qué hace FAISS en este flujo? Almacena vectores y encuentra los más cercanos a una consulta. Así recuperas pasajes relevantes aunque las palabras exactas no coincidan.

¿Cómo cargar un CSV en LangChain con CSVLoader?

Con CSV el comportamiento cambia un poco: cada fila se convierte en un documento independiente. Eso significa que si tu archivo tiene 1.000 filas, tendrás 1.000 documentos accesibles desde el loader.

El ejemplo usa un extracto de la tabla Online Retail. Al cargarlo:

Cada documento expone el contenido de la página con el formato nombre_columna: valor.
La metadata indica la fuente y el número de fila.
Puedes recorrer los documentos uno a uno para procesarlos o vectorizarlos.

Del mismo modo que con PDF, puedes aplicar embeddings y hacer búsqueda semántica sobre filas específicas. Y aquí aparece algo más potente: los agentes, que permiten convertir una pregunta en lenguaje natural en una consulta sobre el CSV. Ese tema se trabaja más adelante en el curso.

¿Qué metadata puedes extraer de cada documento?

La metadata varía según el loader:

En PDF obtienes la página, por ejemplo page: 0 para la primera página.
En CSV obtienes la fila y el archivo fuente.
En ambos casos puedes combinar metadata con filtros antes o después de una búsqueda vectorial.

Esto es útil para citar fuentes, mostrar referencias al usuario o limitar consultas a secciones concretas de un documento extenso.

Reto práctico para dominar los loaders

Para afianzar lo aprendido, prueba con archivos más complejos:

Carga un PDF de varias páginas y revisa cómo cambia la metadata por página.
Usa un CSV con más columnas y observa cómo se construye el contenido de cada documento.
Compara los resultados de búsqueda semántica al variar la consulta o el número de vecinos.

Entender los loaders es la base para el siguiente paso: trabajar con bases vectoriales completas y montar un sistema RAG sólido. Si te encuentras con algún error al cargar tus archivos, deja tu duda en los comentarios y revisamos juntos el flujo.

Jovanny Delgado

Estudiante

LangChain es una biblioteca de Python que facilita la creación de aplicaciones de IA basadas en lenguaje. Una de sus funcionalidades clave es la capacidad de cargar y procesar diversos tipos de documentos, incluyendo PDF y CSV.

¿Por qué usar LangChain para cargar PDF y CSV?

Unificación de formatos: Permite tratar archivos PDF y CSV de manera similar, facilitando la creación de modelos y aplicaciones que trabajen con múltiples fuentes de datos.
Preprocesamiento: Ofrece herramientas para limpiar y estructurar los datos extraídos de los documentos, preparándolos para su uso en modelos de lenguaje.
Integración con LLMs: Se conecta fácilmente con grandes modelos de lenguaje (LLMs) para permitir la generación de texto, traducción, resumen y mucho más, a partir de los datos cargados.

Carga de archivos CSV

Los archivos CSV (Comma-Separated Values) son fáciles de cargar con LangChain. Cada fila del CSV se convierte en un documento individual.

Python

from langchain.document_loaders import CSVLoader loader = CSVLoader(file_path="my_data.csv") documents = loader.load()

Personalización:

Columnas específicas: Puedes seleccionar solo las columnas que te interesan.
Separadores: Si tu CSV utiliza un separador diferente a la coma, puedes especificarlo.
Tipos de datos: Puedes convertir las columnas a tipos de datos específicos (por ejemplo, fechas, números).

Carga de archivos PDF

Cargar archivos PDF con LangChain es un poco más complejo debido a la estructura variada de estos documentos. LangChain ofrece varias opciones:

PDFMiner: Una biblioteca de Python para extraer texto de archivos PDF.
PyMuPDF: Otra biblioteca popular para trabajar con PDF.
LayoutParser: Una biblioteca más avanzada que puede extraer texto, tablas e imágenes de PDF con mayor precisión.

Python

from langchain.document_loaders import PyPDFLoader loader = PyPDFLoader("my_document.pdf") pages = loader.load()

Consideraciones:

Complejidad del PDF: PDFs con tablas, imágenes o formatos complejos pueden requerir un procesamiento más elaborado.
OCR: Si tu PDF contiene texto escaneado, necesitarás utilizar herramientas de reconocimiento óptico de caracteres (OCR).

Uso posterior de los documentos cargados

Una vez cargados los documentos, puedes utilizarlos para:

Crear un índice: Para realizar búsquedas rápidas dentro de los documentos.
Entrenar un modelo de lenguaje: Para crear un modelo que pueda responder preguntas sobre los datos.
Generar texto: Para crear resúmenes, traducciones o nuevas piezas de contenido basadas en los documentos.

Python

from langchain.vectorstores import FAISS # Crear un índice vectorstore = FAISS.from_documents(documents) # Realizar una búsqueda query = "Cuál es la capital de Francia?" docs = vectorstore.similarity_search(query)

Ejemplos de uso

Chatbots: Crear un chatbot que pueda responder preguntas sobre un conjunto de documentos PDF y CSV.
Sistemas de recomendación: Recomendar productos o servicios basados en las preferencias de un usuario almacenadas en un CSV.
Resumen de documentos: Generar resúmenes concisos de largos documentos PDF.
Análisis de sentimientos: Analizar la opinión de los clientes a partir de comentarios almacenados en CSV.

Conclusión

LangChain simplifica significativamente el proceso de cargar y procesar documentos PDF y CSV. Al combinar la flexibilidad de LangChain con la potencia de los grandes modelos de lenguaje, puedes crear aplicaciones de IA sofisticadas y personalizadas.

wilderman.munoz

Juan David Acosta González

David Giovanni Ovalle Ariza

Ramírez Fuentes Luis David

Braulio Alejandro Lozano Cuevas

Daniel Condía Figueredo

MAX HOUSTON RAMIREZ MARTEL

Guillermo Baldán López

ELIZABETH FRANCO MARTINEZ

Eduin Manrrique

Daniel Mauricio

Hermes José Mujica Cassab

Juan Suarez

Javier Martinez

Alejandro Nieto

Dario Mendoza

Carga de PDF y CSV con LangChain

Fundamentos de los Agentes Inteligentes y LangChain

Conexión a Huggingface GPT-2 en Google Collaboratory

Desarrollo de Aplicaciones Conversacionales con LangChain

Qué son los agentes en LangChain

Gemini y OpenAI con API keys en LangChain

Chat Models y Prompt templates

Flujo de conversación con trim_message en LangChain

Conexión y uso de modelos de chat con LangChain y OpenAI

Uso de Modelos de Google AI Gemini en LangChain

Creación de Plantillas de Prompts en LangChain

Técnicas de Few-Shot Prompting en Modelos de Lenguaje

Cadenas en LangChain

Creación de Cadenas en LangChain con String Output Parser

Gestión de Historial de Chat con LangChain

Integración de Herramientas Claves en LangChain: Runnable, OutputParser, Streaming

Creación de Chatbots Inteligentes con Memoria Conversacional

Cadena de Procesos para Memoria Conversacional con GPT-3.5 Turbo

Carga de documentos en LangChain

Carga y procesamiento de archivos HTML con LangChain y Beautiful Soup