Pinecone como vector store con LangChain

Curso de Agentes AI

Contenido del curso

Fundamentos de los Agentes Inteligentes y LangChain

Chat Models y Prompt templates

Cadenas en LangChain

Carga de documentos en LangChain

Retrieval-augmented generation (RAG)

Agentes en LangChain

Ecosistema de LangChain

26
Creación y Gestión de Aplicaciones con LangChain, LangSmith y LangGraph
03:56 min

Tomar examen

Pinecone como vector store con LangChain

Resumen

Elegir una vector database adecuada define el rendimiento de cualquier aplicación de machine learning que use embeddings. Pinecone es una solución gestionada en la nube que destaca por su escalabilidad y facilidad de uso para búsquedas semánticas a gran escala, y aquí vas a ver cómo conectarla con LangChain y OpenAI paso a paso.

¿Qué es Pinecone y por qué usarlo como vector store?

Pinecone es un vector store gestionado que almacena representaciones numéricas de texto (vectores) y permite recuperar fragmentos relevantes mediante búsqueda por similitud. A diferencia de Chroma, que suele correr en local, Pinecone vive en la nube y se enfoca en aplicaciones que necesitan alto rendimiento sobre millones de vectores.

¿Qué es una vector database? Es una base de datos que guarda vectores numéricos generados por un modelo de embeddings y permite buscar los más cercanos a una consulta usando métricas como coseno o distancia euclidiana.

La elección entre Pinecone y Chroma depende del caso de uso, la escalabilidad esperada y los costos. Pinecone es de pago, así que cada vector cargado cuenta.

¿Cómo crear un index en Pinecone con las dimensiones correctas?

Dentro del panel de Pinecone, la sección de index es donde nacen los proyectos y se gestionan las API keys [01:00]. Al crear un nuevo index hay que respetar reglas de nombre (no se permiten mayúsculas) y, sobre todo, definir bien la dimensión.

La dimensión es el número de vectores que produce el modelo de embeddings que vas a usar. Si los números no coinciden, la carga falla.

Modelo elegido: text-embedding-3-large de OpenAI.
Dimensión correspondiente: 3072 vectores [02:10].
Métrica de distancia: coseno o euclidiana, según el caso.
Proveedor cloud: Azure, Google Cloud o AWS, con su región.

Una vez creado el index, los dos datos críticos para el código son el nombre del index y la API key de Pinecone.

¿Qué métrica de distancia conviene elegir?

La diferencia de cosenos es la más común para texto porque mide el ángulo entre vectores y funciona bien con embeddings normalizados. La distancia euclidiana, que viene del álgebra lineal, mide la separación absoluta y se usa más cuando la magnitud importa.

¿Cómo conectar LangChain con Pinecone y OpenAI?

En Colaboratory necesitas tener cargadas la OpenAI API key, la API key de Pinecone y las dependencias langchain-openai, langchain-community y langchain-pinecone [04:30]. Un truco rápido para confirmar la conexión con OpenAI es usar invoke sobre el Large Language Model y revisar que devuelva respuesta.

El flujo de trabajo se resume así:

Cargar el documento fuente (en este caso un TXT corto, un poema sobre el hidrógeno generado con ChatGPT).
Dividirlo en fragmentos con CharacterTextSplitter.
Generar embeddings con OpenAI.
Cargar los vectores al index de Pinecone.

¿Cómo configurar el chunk size y el overlap?

El chunk_size define cuántos caracteres tiene cada fragmento y el chunk_overlap cuántos se repiten entre uno y otro para preservar contexto. En el ejemplo se probó primero con valores muy bajos (15 y 5) y LangChain lanzó una alerta por fragmentos demasiado pequeños [08:20].

Valor inicial probado: chunk size 15, overlap 5.
Valor final recomendado para el texto: chunk size 200, overlap 40.
Regla práctica: el overlap suele ser entre el 10% y el 20% del chunk size.

Después de ajustar estos números, la división se ejecuta sin advertencias.

¿Cómo cargar los embeddings al index y hacer búsquedas semánticas?

El modelo se inicializa con OpenAIEmbeddings(model="text-embedding-3-large") y la carga se hace con PineconeVectorStore.from_documents, pasando los documentos fragmentados, el index_name y el objeto embedding (no como string, sino como variable) [10:45].

python from langchain_pinecone import PineconeVectorStore

vector_store = PineconeVectorStore.from_documents( documents=docs, index_name=index_name, embedding=embedding, )

El tiempo de carga depende del volumen: con un TXT corto tarda segundos, pero con CSV de muchas filas o PDFs largos puede tardar minutos. Siempre conviene verificar en el panel de Pinecone que el index dejó de estar vacío.

¿Cómo sé que los vectores se cargaron en Pinecone? El index deja de mostrarse vacío en el panel y el objeto vector_store permite acceder a los valores numéricos de cada vector y a los metadatos asociados.

¿Cómo hacer una consulta por similitud?

Una buena práctica para validar la carga es generar preguntas a partir del texto original. En el ejemplo, la consulta fue ¿dónde nació el hidrógeno? y se ejecutó con similarity_search sobre el vector_store.

La respuesta devuelve objetos Document ordenados por cercanía al vector de la pregunta, no por coincidencia exacta de palabras. Eso es lo que diferencia una búsqueda semántica de un buscador tradicional.

¿Qué cuidados debes tener al usar herramientas de pago?

Tanto Pinecone como OpenAI cobran por uso, así que monitorear el consumo es parte del trabajo de un ingeniero de natural language processing. En entornos empresariales suelen existir límites de gasto, y aun cuando no los haya, conviene autoimponerlos.

Empieza con archivos pequeños para calibrar costos.
Revisa el dashboard de consumo en cada plataforma.
Ajusta el chunk_size para no inflar el número de vectores innecesariamente.

El siguiente paso natural después de tener la vector store lista es construir una cadena RAG que combine recuperación y generación. Y aquí va una pregunta para ti: además de la búsqueda por similitud, ¿qué otros tipos de búsqueda existen y cuál es la importancia de cada una? Déjala en los comentarios.

Juan Felipe Ángel Martínez Bernal

Estudiante

Se que los notebooks son útiles para la exploración, pero aquí dejo mi versión en .py

"""
Create a vector store using Pinecone
"""

import os
from dotenv import load_dotenv

from langchain_community.document_loaders import TextLoader
from langchain_text_splitters import CharacterTextSplitter
from langchain_openai import OpenAIEmbeddings
from langchain_pinecone import PineconeVectorStore

load_dotenv()

def pinecone_vectorstore():
    """Create a vector store using Pinecone"""

    # Variables globales
    index_name = os.getenv('INDEX_NAME')

    # 1. Cargar texto como Document
    loader = TextLoader('./Data/Final/text_pinecone.txt', encoding='utf-8')
    documents = loader.load()   # lista con 1 Document (todo el texto)

    # 2. Partir en varios Document (uno por chunk)
    text_splitter = CharacterTextSplitter(
        chunk_size=50,    # puedes ajustar según necesidad
        chunk_overlap=5
    )
    docs = text_splitter.split_documents(documents)  # ahora docs es una lista de muchos Document

    print(f"Original: {len(documents)} documento(s)")
    print(f"Después del split: {len(docs)} documentos")

    # 3. Crear embeddings
    embedding = OpenAIEmbeddings(model='text-embedding-3-large')

    # 4. Crear o cargar el índice de Pinecone
    vectorstore = PineconeVectorStore.from_documents(
        documents=docs,
        embedding=embedding,
        index_name=index_name,
    )

    # 5. Buscar documentos similares
    query = "¿Cuáles son los principales desafíos de la inteligencia artificial?"

    response = vectorstore.similarity_search(
        query=query,
        k=1
    )

    for doc in response:
        print("-" * 50)
        print(doc.page_content)
        print("-" * 50)

if __name__ == '__main__':
    pinecone_vectorstore()

Juan Felipe Ángel Martínez Bernal

Estudiante

Este es el texto que use:

La inteligencia artificial está transformando múltiples industrias alrededor del mundo. En la medicina, permite detectar enfermedades con mayor precisión, analizar imágenes médicas en segundos y personalizar tratamientos para los pacientes. En el sector financiero, ayuda a prevenir fraudes, optimizar inversiones y mejorar la atención al cliente mediante asistentes virtuales. La IA también tiene un rol fundamental en la educación, donde puede adaptar los contenidos de aprendizaje a las necesidades de cada estudiante y generar nuevas metodologías pedagógicas.

Sin embargo, junto con las oportunidades aparecen grandes desafíos. Uno de ellos es la privacidad de los datos, ya que muchos de los sistemas de inteligencia artificial requieren cantidades masivas de información sensible para entrenarse. Otro reto es el sesgo algorítmico: si los datos de entrenamiento no son diversos, los resultados de los modelos pueden ser injustos o discriminatorios. A esto se suma la preocupación por la pérdida de empleos debido a la automatización, lo cual genera debates sobre el futuro del trabajo y la necesidad de nuevas habilidades en la fuerza laboral.

Por esta razón, es fundamental que el desarrollo y la implementación de la inteligencia artificial se realicen de manera ética y responsable. Los gobiernos, las empresas y la academia deben trabajar juntos para establecer marcos regulatorios, fomentar la transparencia y garantizar que los beneficios de la tecnología lleguen a toda la sociedad. Solo así se podrá aprovechar el enorme potencial de la inteligencia artificial sin dejar de lado los valores humanos que deben guiar nuestro progreso.

Juan Felipe Ángel Martínez Bernal

Estudiante

Necesitas un archivo .env con estas variables:

# LLMs
OPENAI_API_KEY = ''
# Pinecone
INDEX_NAME = ''
PINECONE_API_KEY = ''

Pinecone como vector store con LangChain

Fundamentos de los Agentes Inteligentes y LangChain

Conexión a Huggingface GPT-2 en Google Collaboratory

Desarrollo de Aplicaciones Conversacionales con LangChain

Qué son los agentes en LangChain

Gemini y OpenAI con API keys en LangChain

Chat Models y Prompt templates

Flujo de conversación con trim_message en LangChain

Conexión y uso de modelos de chat con LangChain y OpenAI

Uso de Modelos de Google AI Gemini en LangChain

Creación de Plantillas de Prompts en LangChain

Técnicas de Few-Shot Prompting en Modelos de Lenguaje

Cadenas en LangChain

Creación de Cadenas en LangChain con String Output Parser

Gestión de Historial de Chat con LangChain

Integración de Herramientas Claves en LangChain: Runnable, OutputParser, Streaming

Creación de Chatbots Inteligentes con Memoria Conversacional

Cadena de Procesos para Memoria Conversacional con GPT-3.5 Turbo

Carga de documentos en LangChain

Carga y procesamiento de archivos HTML con LangChain y Beautiful Soup

Carga de PDF y CSV con LangChain

Cómo dividir textos largos con LangChain

Retrieval-augmented generation (RAG)

Gestión de Vectores de Texto con Chroma y LangChain

Embeddings y su aplicación en modelos de lenguaje y RAG