Carga de embeddings en Pinecone para búsqueda semántica

Clase 24 de 26 • Curso de Embeddings y Bases de Datos Vectoriales para NLP

Resumen

¿Cómo llevar nuestro proyecto a una base de datos vectorial?

Hoy nos sumergimos en el fascinante mundo de las bases de datos vectoriales, una pieza clave en las búsquedas semánticas modernas. Si bien nuestro proyecto ya cuenta con un dataframe completo, necesitamos almacenarlo adecuadamente para realizar consultas eficientes. El objetivo es trasladar datos a una base de datos vectorial usando Pinecone. Aunque elegimos Pinecone específicamente, métodos similares son aplicables a otras plataformas como Chroma o Deep Lake. ¡Así que comencemos!

¿Cómo configuramos Pinecone?

Lo primero es importar Pinecone en nuestro entorno de trabajo, junto con el módulo GetPass para manejar credenciales de manera segura. Este paso es crucial, ya que necesitamos proteger nuestro API Key de Pinecone:

import pinecone
from getpass import getpass

pinecone_api_key = getpass("Enter Pinecone API Key: ")

Dado que el API Key nos ofrece acceso completo a la base de datos, debemos manejarlo con sumo cuidado, compartiéndolo solo con quienes necesiten manipular la base de datos.

¿Cómo inicializamos la instancia de Pinecone?

Una vez tenemos el API Key, procedemos a inicializar Pinecone. Utilizamos la versión gratuita de Google Cloud Platform (GCP) en el entorno US-West4, que es más que suficiente para el alcance de nuestro proyecto.

pinecone.init(
    api_key=pinecone_api_key,
    environment='us-west4-gcp'
)

Con la instancia lista, podemos crear o acceder a los índices donde almacenaremos nuestros datos.

¿Cómo creamos o accedemos a un índice en Pinecone?

Crear o utilizar un índice existente en Pinecone es sencillo. Primero, determinamos la dimensionalidad de los embeddings que manejaremos para asegurarnos de adaptar nuestro índice a estas dimensiones:

dimension_embeddings = len(df['embeddings'][0])  # Ejemplo: 384 dimensiones
index_name = "movies_embeddings"

¿Cómo podemos crear un índice si no existe?

Verificar si un índice ya está creado evita errores redundantes. Si el índice no existe, lo creamos especificando las dimensiones y la métrica de similitud que emplearemos. Para búsquedas semánticas, el coseno es una opción común:

if index_name not in pinecone.list_indexes():
    pinecone.create_index(
        index_name=index_name,
        dimension=dimension_embeddings,
        metric='cosine'
    )

Si el índice ya existe, simplemente accedemos a él:

index = pinecone.Index(index_name)

¿Cómo ingestar datos en Pinecone?

Llegamos al punto crucial: ingresar los datos al índice. Utilizaremos el paquete tqdm para mostrar una barra de progreso, mientras transferimos los datos en lotes de 64 registros:

from tqdm import tqdm

def ingest_data(df, index):
    for i in tqdm(range(0, len(df), 64)):
        batch = df.iloc[i:i + 64]
        
        # Extraemos IDs, embeddings y metadata
        ids = batch['ids'].tolist()
        embeddings = batch['embeddings'].tolist()
        metadata = batch[['metadata_col']].to_dict('records')

        # Ingestamos los datos en el índice
        index.upsert(vectors=list(zip(ids, embeddings, metadata)))

ingest_data(df, index)

Al culminar la ingesta, verificamos que los datos estén correctamente cargados mediante el método describe_index_stats():

stats = index.describe_index_stats()
print(stats)

Esta función nos muestra el conteo de registros y asegura que todo funciona perfectamente.

¿Cómo optimizamos nuestro flujo de trabajo?

En la próxima etapa, exploraremos cómo realizar consultas y presentarlas de manera gráfica. Este enfoque es clave para evitar la repetición de consultas similares y facilitar la escalabilidad del proyecto.

El mundo de las bases de datos vectoriales ofrece oportunidades únicas para la búsqueda semántica. Al integrar estos conocimientos, abrimos un abanico de posibilidades para proyectos futuros. No pierdas la oportunidad de seguir perfeccionando tus habilidades y explorando nuevas tecnologías; el aprendizaje constante es clave para el éxito.

Luis Boivar

student•

Depurar data
Crear los embeddings
1. metadata
2. indices
Crear la db pinecone
ingesta en batch de los embeddings

Diego Bustos Kehdy

student•

Les recomiendo usar pgvector que es un plugin de PostgreSQL y de puede tener gratis y si quieren se puede alojar en AWS

Duilio Sotelo

student•

a mi el código para verificar si ya existia ese index no me funciono, aquí dejo el mío

dimension_embeddings = len(df['embeddings'][0])
index_name = 'movies-embeddings'
all_index = pinecone.list_indexes()

index_exists = any(index_info['name'] == index_name for index_info in all_index.indexes)
        
if index_exists:
    index = pinecone.Index(index_name)
else:
    pinecone.create_index(
        name=index_name,
        dimension=dimension_embeddings, 
        metric='cosine',
        spec=PodSpec(environment='gcp-starter')
    )
    index = pinecone.Index(index_name)
```dimension\_embeddings = len(df\['embeddings']\[0])

index\_name = 'movies-embeddings'

all\_index = pinecone.list\_indexes()



index\_exists = any(index\_info\['name'] == index\_name for index\_info in all\_index.indexes)

&#x20;      &#x20;

if index\_exists:

&#x20;   index = pinecone.Index(index\_name)

else:

&#x20;   pinecone.create\_index(

&#x20;       name=index\_name,

&#x20;       dimension=dimension\_embeddings,&#x20;

&#x20;       metric='cosine',

&#x20;       spec=PodSpec(environment='gcp-starter')

&#x20;   )

&#x20;   index = pinecone.Index(index\_name)

Alejandro Giraldo Londoño

student•

Resumen: ■■■■■

En esencia en esta clase se repitieron los procesos de:

Instanciar base de datos vectorial y/o conexiones
Ingestar por lotes los datos para embeberlos/vectorizarlos.
Subirlos a la base de datos Este patrón puede volverse componentes en función de nuestras necesidades.

Carga de embeddings en Pinecone para búsqueda semántica

¿Cómo funcionan los embeddings?

Cómo Entender y Aplicar Embeddings en IA: De Teoría a Práctica

Introducción a One-Hot Encoding y TF-IDF en IA

Representación Vectorial de Palabras

Evaluación de Similitudes Semánticas: Métodos y Aplicaciones

Creación de embeddings

Creación y entrenamiento de modelos Word2Vec con Gensim

Procesamiento y Limpieza de Datos para IA con Word2Vec y Gensim

Entrenamiento de Modelos Word2Vec con GenSim y Análisis de Similitud

Word2Vec: Entrenando IA para Comprender el Lenguaje

Usando embeddings preentrenados

Uso práctico de Sentence Transformers en procesamiento de textos

Análisis Semántico: Buscar Textos con Sentence Transformers

Manejo de Embeddings con OpenAI: API, Instalación y Datasets

Manejo y Visualización de Embeddings con OpenAI: Guía Práctica

Creación de un Motor de Búsqueda Semántico con Python

Transformación de Texto a Embeddings con Sentence Transformer

Bases de datos vectoriales

Qué es y cómo usar una base de datos vectorial

Gestión de Bases de Datos Vectoriales con ChromaDB: Instalación y Uso

Generación y manejo de embeddings en Chroma con Sentence Transformer

Consultas avanzadas y filtrado en bases de datos con Chroma

Cargar colección de Chroma previamente creada

Configuración y Uso de Pinecone: Desde la Instalación hasta la Inserción de Datos

Optimización de Ingesta de Datos en Pinecone: Procesos y Estrategias

Consultas Avanzadas en Pinecone: De Texto a Vector y Filtros

Carga de índices en Pinecone: Gestión eficiente en la nube