Introducción a LangChain

1

Desarrollo de aplicaciones con LLM utilizando LangChain

2

Estructura y módulos de LangChain

3

Uso de modelos Open Source de Hugging Face

4

Uso de modelos de OpenAI API

5

Prompt templates de LangChain

6

Cadenas en LangChain

7

Utility chains

8

RetrievalQA chain

9

Foundational chains

Quiz: Introducción a LangChain

Casos de uso de LangChain

10

Casos de uso de LangChain

11

¿Cómo utilizar LangChain en mi equipo?

Quiz: Casos de uso de LangChain

Manejo de documentos con índices

12

¿Cómo manejar documentos con índices en LangChain?

13

La clase Document

14

Document Loaders: PDF

15

Document Loaders: CSV con Pandas DataFrames

16

Document Loaders: JSONL

17

Document Transformers: TextSplitters

18

Proyecto de Chatbot: configuración de entorno para LangChain y obtención de datos

19

Proyecto de Chatbot: creación de documents de Hugging Face

Quiz: Manejo de documentos con índices

Embeddings y bases de datos vectoriales

20

Uso de embeddings y bases de datos vectoriales con LangChain

21

¿Cómo usar embeddings de OpenAI en LangChain?

22

¿Cómo usar embeddings de Hugging Face en LangChaing?

23

Chroma vector store en LangChain

24

Proyecto de Chatbot: ingesta de documents en Chroma

25

RetrievalQA: cadena para preguntar

26

Proyecto de Chatbot: cadena de conversación

27

Proyecto de Chatbot: RetrievalQA chain

Quiz: Embeddings y bases de datos vectoriales

Chats y memoria con LangChain

28

¿Para qué sirve la memoria en cadenas y chats?

29

Uso de modelos de chat con LangChain

30

Chat prompt templates

31

ConversationBufferMemory

32

ConversationBufferWindowMemory

33

ConversationSummaryMemory

34

ConversationSummaryBufferMemory

35

Entity memory

36

Proyecto de Chatbot: chat history con ConversationalRetrievalChain

Quiz: Chats y memoria con LangChain

Evolución del uso de LLM

37

LangChain y LLM en evolución constante

No tienes acceso a esta clase

¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera

Curso de LangChain

Curso de LangChain

Omar Espejel

Omar Espejel

Document Loaders: JSONL

16/37
Recursos

Aportes 5

Preguntas 0

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad?

Les dejo por aquí una estructura que estoy probando para un archivo de excel en la que previamente depuramos cierta data que queremos que exista en una base vectorial, me encantaría recibir feedback:

from langchain.schema import Document
from typing import List
import pandas as pd

class TransformerExcelLoader:
    
    def __init__(self, file_path: str):
        self.file_path = file_path
    
    def load(self) -> List[Document]:
        data = pd.read_excel(self.file_path)
        documents = []

        # Reemplazar valores NaN con cadenas vacías
        data.fillna("", inplace=True)

        for _, fila in data.iterrows():
            if fila["FUENTE"] == "":
                page_content = "RESPUESTA " + fila["RESPUESTA"]
            else:
                # Usar str.cat() para concatenar cadenas eficientemente
                page_content = "RESPUESTA: " + fila["RESPUESTA"] + " FUENTE: " + fila["FUENTE"]

            metadata = {
                'empresa': fila["EMPRESA"],
                'area': fila["AREA"],
                'topico': fila["TOPICO"],
                'pregunta': fila["PREGUNTA"],
                'contexto': fila["CONTEXTO"]
            }

            documents.append(Document(page_content=page_content, metadata=metadata))
            
        return documents

Posdata: Se que hice algo de hardcoded colocando los nombres de las variables pero es una estrcutra que no esperamos cambiar en el corto plazo…

Hoy en día ya contamos con loaders de JSONL, aquí dejo el link de la doc en langchain: <https://python.langchain.com/docs/modules/data_connection/document_loaders/json#json-lines-file>

Dejo un ejemplo usando el loader de LangChaing y se obtiene un resultado muy similar.

# !pip install jq
from langchain.document_loaders import JSONLoader

# Define the metadata extraction function.
def metadata_func(record: dict, metadata: dict) -> dict:

    metadata["title"] = record.get("title", "")
    metadata["repo_owner"] = record.get("timestamp_ms", "")
    metadata["repo_name"] = record.get("repo_name", "")

    return metadata

loader = JSONLoader(
    file_path='transformers_docs.jsonl',
    jq_schema='.',
    content_key='text',
    json_lines=True,
    metadata_func=metadata_func
    )

data = loader.load()
`from langchain_core.documents import Documentfrom langchain_core.document_loaders import BaseLoader` `class CustomDictLoader(BaseLoader):    def __init__(self, data):        self.data = data    def load(self):        documents = convert_dict_to_documents(self.data)        return [Document(page_content=doc['text'], metadata={"source": doc['metadata']}) for doc in documents]` Yo cree mi propio loader de un diccionario que dentro tiene otros diccionarios, es interesante poder adaptar los loaders a cualquier caso de uso
Es super poderoso esto, ya no podemos tener un block con respecto a la fuente de datos.