Pinecone: Implementación de Bases de Datos Vectoriales Escalables

Resumen

En el desarrollo de aplicaciones de inteligencia artificial, especialmente aquellas que dependen de modelos de lenguaje natural y embeddings, el uso de una VectorStore es esencial para realizar búsquedas semánticas eficientes. En esta clase, hemos explorado Pinecone, una solución en la nube diseñada para gestionar bases vectoriales a gran escala. A continuación, reforzaremos algunos conceptos clave sobre VectorStores, embeddings, y cómo integrarlos con herramientas como Pinecone y LangChain.

¿Qué es un VectorStore?

Un VectorStore es una base de datos que almacena representaciones numéricas, o vectores, de fragmentos de texto. Estos vectores se generan a partir de embeddings, que son representaciones matemáticas del significado semántico del texto. Los VectorStores permiten realizar búsquedas por similitud, recuperando los vectores más cercanos en significado a una consulta dada.

Elementos Clave de un VectorStore

Embeddings: Son vectores que representan el significado de un texto. Se generan a partir de modelos de lenguaje como OpenAI o HuggingFace. Fragmentos de texto similares tendrán vectores cercanos en un espacio vectorial.
Almacenamiento: Los vectores generados se almacenan en una base vectorial junto con su metadata (información adicional como el origen del texto o categoría). Este almacenamiento es clave para realizar búsquedas eficaces basadas en similitud semántica.
Consulta y Búsqueda por Similitud: Cuando realizamos una búsqueda, transformamos el texto de la consulta en un vector y lo comparamos con los vectores almacenados en el VectorStore. Los resultados más cercanos en el espacio vectorial son devueltos como respuestas.

¿Qué es Pinecone?

Pinecone es una solución gestionada en la nube que facilita el almacenamiento y la búsqueda de vectores a gran escala. Es ideal para aplicaciones que requieren rendimiento y escalabilidad en la gestión de bases vectoriales. Con Pinecone, los desarrolladores pueden centrarse en el desarrollo de aplicaciones mientras delegan la infraestructura de almacenamiento vectorial a un servicio especializado.

Ventajas de Pinecone

Escalabilidad: Gestiona eficientemente grandes volúmenes de datos.
Fácil integración: Se integra con herramientas populares como LangChain, lo que permite una interacción fluida entre la generación de embeddings y su almacenamiento.
Búsquedas eficientes: Permite búsquedas por similitud y otras métricas, optimizando la recuperación de información relevante.

Creación de un VectorStore en Pinecone

Al crear un index en Pinecone, es importante configurar ciertos parámetros:

Dimensiones: Cada vector generado por un modelo de embeddings tiene un número de dimensiones (o componentes). Por ejemplo, un modelo de OpenAI puede generar vectores de 3072 dimensiones, lo que se debe especificar al configurar el index.
Métricas de distancia: Pinecone permite definir la métrica con la que se calculará la similitud entre vectores, como la distancia euclidiana o la diferencia de cosenos.
Proveedores Cloud: Puedes elegir el proveedor de nube (Azure, Google Cloud o AWS) y la región donde se almacenará el index, optimizando la latencia y el rendimiento de la búsqueda.

Integración de Pinecone con LangChain

LangChain facilita la integración con Pinecone para la gestión de embeddings y bases vectoriales. A través de la clase PineconeVectorStore, es posible crear, cargar y consultar vectores en Pinecone utilizando modelos de embeddings, como OpenAI.

Flujo de Trabajo:

Generación de Embeddings: Los fragmentos de texto se convierten en vectores utilizando un modelo de embeddings, como OpenAI Embeddings.
Creación de la Base Vectorial: Se almacena la información vectorizada en Pinecone. Cada vector está asociado con su metadata, lo que permite realizar búsquedas avanzadas y filtradas.
Consulta de la Base: Se puede hacer una búsqueda por similitud, transformando una nueva consulta en vector y buscando los documentos o fragmentos más cercanos en significado.

Búsquedas en Pinecone

Una de las funcionalidades clave en Pinecone es la búsqueda por similitud, que permite encontrar los documentos que están más relacionados semánticamente con una consulta. Sin embargo, no es la única técnica de búsqueda. Existen otros métodos que son útiles en diferentes contextos:

Tipos de Búsqueda:

Búsqueda por Similitud: Busca los vectores más cercanos en el espacio vectorial. Ideal para encontrar textos con significados similares.
Búsqueda Filtrada: Filtra los resultados basados en metadata. Por ejemplo, puedes buscar solo entre los tweets almacenados o restringir la búsqueda a comentarios de una categoría específica.
Búsqueda de Palabras Clave: Aunque Pinecone se enfoca en la búsqueda semántica, es posible combinar búsquedas tradicionales de palabras clave con búsquedas por embeddings para obtener resultados más precisos.

Retos y Buenas Prácticas

Control de Costos: Pinecone es una herramienta poderosa pero de paga, por lo que es esencial monitorear el uso de recursos y el número de documentos cargados para evitar costos excesivos.
Optimización de Fragmentos: Al dividir documentos en fragmentos utilizando técnicas como Text Splitters, es importante optimizar el tamaño de los fragmentos y su superposición (overlap) para garantizar búsquedas eficientes sin pérdida de contexto.

Ricardo Gomez

student•

Búsqueda Filtrada: Filtra los resultados basados en metadata. Por ejemplo, puedes buscar solo entre los tweets almacenados o restringir la búsqueda a comentarios de una categoría específica.
Búsqueda de Palabras Clave: Aunque Pinecone se enfoca en la búsqueda semántica, es posible combinar búsquedas tradicionales de palabras clave con búsquedas por embeddings para obtener resultados más precisos.

Jovanny Delgado

student•

VectorStore: Pinecone en LangChain

Pinecone es otro popular servicio de almacenamiento y búsqueda de vectores utilizado en LangChain. Al igual que Chroma, ofrece una forma eficiente de almacenar y recuperar vectores numéricos, pero con algunas características distintivas.

Ventajas de Pinecone

Escalabilidad: Pinecone está diseñado para manejar grandes volúmenes de datos y puede escalar automáticamente según las necesidades.
Gestión de Metadatos: Permite almacenar y buscar metadatos junto con los vectores, lo que puede ser útil para filtrar y organizar los resultados.
Integración con Cloud Providers: Pinecone se integra fácilmente con los principales proveedores de cloud como AWS, GCP y Azure.
API Amigable: Ofrece una API sencilla y bien documentada para interactuar con el servicio.

Cómo usar Pinecone en LangChain

Configurar una Cuenta: Crea una cuenta en Pinecone y obtén las credenciales necesarias.
Crear una Colección: Crea una colección en Pinecone para almacenar tus vectores.
Crear un VectorStore: En LangChain, utiliza la clase Pinecone para crear un VectorStore.
Agregar Vectores: Agrega tus vectores a la colección de Pinecone.
Realizar Búsquedas: Utiliza el método similarity_search para buscar vectores similares a una consulta dada.

Ejemplo:

Pythonfrom langchain.vectorstores import Pinecone from langchain.embeddings import OpenAIEmbeddings

# Crear embeddings embeddings = OpenAIEmbeddings()

# Crear un VectorStore vectordb = Pinecone.from_documents( documents, embeddings, index_name="my_index" )

# Realizar una búsqueda docs = vectordb.similarity_search("What is the meaning of life?") Usa el código con precaución.

Casos de Uso

Pinecone puede ser utilizado para una amplia variedad de aplicaciones, incluyendo:

Búsqueda Semántica: Encontrar documentos relevantes basados en su contenido semántico.
Recomendaciones: Sugerir productos, películas o artículos similares a los que el usuario ha visto o comprado.
Análisis de Sentimientos: Clasificar textos según su sentimiento (positivo, negativo, neutro).
Chatbots: Proporcionar respuestas relevantes a las preguntas de los usuarios.

Conclusión

Tanto Chroma como Pinecone son excelentes opciones para crear VectorStores en LangChain. La elección entre ellos dependerá de tus necesidades específicas, como el tamaño de los datos, la escalabilidad requerida y las características adicionales que necesites.

Ricardo Gomez

student•

Actualmente solo deja crear gratis sobre AWS

Juan Andrés Guillamet Chargué

student•

Hola, consulto, hice una pregunta que no tenia ninguna relacion con el documento txt que subi y el print del vectorstore me respondio con informacion del documento. La respuesta no deberia ser vacia? o no que no puede dar esa información por que no la tiene?

Platzi Team

student•

pueden porfavor subir el código de esta clase? el que esat subido es de una anterior

Juan David Acosta González

student•

Me parece que hubiera sido mejor cargar el material y los diferentes notebooks en un repositorio en github, para asi ya clonar el repositorio y ya, en vez de tener que descargar los files por clase

Juan Felipe Ángel Martínez Bernal

student•

Se que los notebooks son útiles para la exploración, pero aquí dejo mi versión en .py

"""
Create a vector store using Pinecone
"""

import os
from dotenv import load_dotenv

from langchain_community.document_loaders import TextLoader
from langchain_text_splitters import CharacterTextSplitter
from langchain_openai import OpenAIEmbeddings
from langchain_pinecone import PineconeVectorStore

load_dotenv()

def pinecone_vectorstore():
    """Create a vector store using Pinecone"""

    # Variables globales
    index_name = os.getenv('INDEX_NAME')

    # 1. Cargar texto como Document
    loader = TextLoader('./Data/Final/text_pinecone.txt', encoding='utf-8')
    documents = loader.load()   # lista con 1 Document (todo el texto)

    # 2. Partir en varios Document (uno por chunk)
    text_splitter = CharacterTextSplitter(
        chunk_size=50,    # puedes ajustar según necesidad
        chunk_overlap=5
    )
    docs = text_splitter.split_documents(documents)  # ahora docs es una lista de muchos Document

    print(f"Original: {len(documents)} documento(s)")
    print(f"Después del split: {len(docs)} documentos")

    # 3. Crear embeddings
    embedding = OpenAIEmbeddings(model='text-embedding-3-large')

    # 4. Crear o cargar el índice de Pinecone
    vectorstore = PineconeVectorStore.from_documents(
        documents=docs,
        embedding=embedding,
        index_name=index_name,
    )

    # 5. Buscar documentos similares
    query = "¿Cuáles son los principales desafíos de la inteligencia artificial?"

    response = vectorstore.similarity_search(
        query=query,
        k=1
    )

    for doc in response:
        print("-" * 50)
        print(doc.page_content)
        print("-" * 50)

if __name__ == '__main__':
    pinecone_vectorstore()

Juan Felipe Ángel Martínez Bernal

student•

Este es el texto que use:

La inteligencia artificial está transformando múltiples industrias alrededor del mundo. En la medicina, permite detectar enfermedades con mayor precisión, analizar imágenes médicas en segundos y personalizar tratamientos para los pacientes. En el sector financiero, ayuda a prevenir fraudes, optimizar inversiones y mejorar la atención al cliente mediante asistentes virtuales. La IA también tiene un rol fundamental en la educación, donde puede adaptar los contenidos de aprendizaje a las necesidades de cada estudiante y generar nuevas metodologías pedagógicas.

Sin embargo, junto con las oportunidades aparecen grandes desafíos. Uno de ellos es la privacidad de los datos, ya que muchos de los sistemas de inteligencia artificial requieren cantidades masivas de información sensible para entrenarse. Otro reto es el sesgo algorítmico: si los datos de entrenamiento no son diversos, los resultados de los modelos pueden ser injustos o discriminatorios. A esto se suma la preocupación por la pérdida de empleos debido a la automatización, lo cual genera debates sobre el futuro del trabajo y la necesidad de nuevas habilidades en la fuerza laboral.

Por esta razón, es fundamental que el desarrollo y la implementación de la inteligencia artificial se realicen de manera ética y responsable. Los gobiernos, las empresas y la academia deben trabajar juntos para establecer marcos regulatorios, fomentar la transparencia y garantizar que los beneficios de la tecnología lleguen a toda la sociedad. Solo así se podrá aprovechar el enorme potencial de la inteligencia artificial sin dejar de lado los valores humanos que deben guiar nuestro progreso.

Juan Felipe Ángel Martínez Bernal

student•

Necesitas un archivo .env con estas variables:

# LLMs
OPENAI_API_KEY = ''
# Pinecone
INDEX_NAME = ''
PINECONE_API_KEY = ''

Prevalentware SAS

student•

el archivo con el codigo esta desactualizado, pusieron el mismo codigo en las ultimas tres clases "18-introduccion-a-embedding"

Alejandro Nieto

student•

Rango, número fijo, aproximación, categoría, conjunto, híbrida, similitud cruzada, y cualquier otra que me falte jaja.

Pinecone: Implementación de Bases de Datos Vectoriales Escalables

Fundamentos de los Agentes Inteligentes y LangChain

Conexión a Huggingface GPT-2 en Google Collaboratory

Desarrollo de Aplicaciones Conversacionales con LangChain

Creación de Agentes Inteligentes con LangChain

Instalación y uso de API Keys para modelos de lenguaje en Google Collab

Chat Models y Prompt templates

Chat Messages con OpenAI

Conexión y uso de modelos de chat con LangChain y OpenAI

Uso de Modelos de Google AI Gemini en LangChain

Creación de Plantillas de Prompts en LangChain

Técnicas de Few-Shot Prompting en Modelos de Lenguaje

Cadenas en LangChain

Creación de Cadenas en LangChain con String Output Parser

Gestión de Historial de Chat con LangChain

Integración de Herramientas Claves en LangChain: Runnable, OutputParser, Streaming

Creación de Chatbots Inteligentes con Memoria Conversacional

Cadena de Procesos para Memoria Conversacional con GPT-3.5 Turbo

Carga de documentos en LangChain

Carga y procesamiento de archivos HTML con LangChain y Beautiful Soup

Carga de PDFs y CSVs en LangChain con PyPDF y CSV Loader

División de Texto en Fragmentos con TextSplitters en LangChain

Retrieval-augmented generation (RAG)

Gestión de Vectores de Texto con Chroma y LangChain

Embeddings y su aplicación en modelos de lenguaje y RAG