Lectura de CSV y conversión a DataFrame de Pandas y LangChain

Curso de LangChain

Contenido del curso

Introducción a LangChain

Casos de uso de LangChain

Manejo de documentos con índices

Embeddings y bases de datos vectoriales

Chats y memoria con LangChain

Evolución del uso de LLM

37
Ecosistema LLM y qué sigue después de LangChain
05:26 min

Tomar examen

Uno de los usos más frecuentes de la biblioteca Pandas es la lectura de datos a partir de archivos CSV o hojas de cálculo (como Excel). Muchas empresas almacenan sus datos en estos formatos. En esta clase aprenderás cómo leer un archivo CSV y convertirlo en un DataFrame de Pandas, para después convertirlo a un Document de LangChain.

Para el seguimiento de la clase utiliza la Notebook 2 del curso en la sección CSV a Pandas DataFrame.

Instalación de Pandas

Primero, necesitaremos instalar la biblioteca de Pandas, si aún no está instalada en tu entorno. Puedes hacer esto descomentando y ejecutando la siguiente celda:

# !pip install pandas

Lectura de archivos CSV

Una vez que tengas instalada la biblioteca Pandas, podemos empezar a leer archivos CSV. Para esto, utilizaremos el método read_csv() proporcionado por Pandas.

Supongamos que tenemos un archivo CSV llamado repos_cairo.csv. Descarga este archivo en este enlace.

Podemos leer el archivo de la siguiente manera:

import pandas as pd

df = pd.read_csv('repos_cairo.csv')

df es ahora un DataFrame de Pandas que contiene los datos de nuestro archivo CSV. Podemos visualizar las primeras líneas de nuestro DataFrame utilizando el método head.

df.head()

Cargando datos de un DataFrame a Langchain

A continuación, vamos a utilizar la clase DataFrameLoader de LangChain para cargar los datos de nuestro DataFrame.

from langchain.document_loaders import DataFrameLoader

loader = DataFrameLoader(df, page_content_column="repo_name")
data = loader.load()

Finalmente, vamos a imprimir el tipo y la longitud de nuestros datos cargados.

print(f"El archivo es de tipo {type(data)} y tiene una longitud de {len(data)} debido a la cantidad de observaciones en el CSV.")

Y vamos a imprimir las primeras 5 líneas de nuestros datos.

from pprint import pprint

pprint(data[:5])

Como ves es bastante similar a cargar un PDF a LangChain. Te recuerdo que en la documentación de Document Loaders de LangChain, puedes ver todas las integraciones para cargar diferentes tipos de archivos.

Lectura de CSV y conversión a DataFrame de Pandas y LangChain

Lectura de CSV y conversión a DataFrame de Pandas y LangChain

Introducción a LangChain

Creación de un sistema de preguntas y respuestas con LangChain

Estructura y Uso de Langchain en Python

Carga de Modelos Open Source con Langchain y Hugging Face

Cómo usar modelos OpenAI con LangChain

Creación de Prompts Dinámicos con LangChain

Tipos de cadenas en LangChain

Resumir PDFs largos con LangChain chains

Creación de Cadenas de Preguntas y Respuestas con Modelos de Lenguaje

Cómo encadenar TransformChain y LLMChain

Casos de uso de LangChain

Qué es Langchain y por qué importa

Implementación de Lanchain y LLMs: Costos, Privacidad y Buenas Prácticas

Manejo de documentos con índices

Cómo los índices dan memoria a los LLMs

Fundamentos de la Clase Document en Langchain

Cómo cargar PDFs en LangChain