Vectores y embeddings: bases de datos en Pinecone para IA
Clase 11 de 16 • Curso de N8N
Resumen
Las bases de datos vectoriales son fundamentales para aplicaciones de inteligencia artificial, ya que permiten almacenar representaciones numéricas llamadas embeddings, las cuales facilitan búsquedas semánticas eficientes. Usaremos Pinecone, un sistema especializado en almacenar datos vectoriales.
¿Qué es exactamente una base de datos vectorial?
Una base de datos vectorial guarda información transformada en vectores, que son representaciones numéricas de datos en múltiples dimensiones. Las coordenadas en un vector corresponden a una posición específica en un espacio dimensional. Al utilizar embeddings, convertimos información desde espacios con pocas dimensiones a espacios multidimensionales de acuerdo con los requerimientos del modelo.
¿Qué son los embeddings?
Los embeddings son representaciones vectoriales que facilitan incrustar información en espacios de alta dimensionalidad. Por ejemplo, bases de datos de grandes modelos de lenguaje manejan embeddings en espacios con miles de dimensiones, garantizando precisión en las búsquedas semánticas y otros procesos de inteligencia artificial.
¿Cómo configurar una base de datos vectorial con Pinecone?
Para comenzar con Pinecone sigue estos pasos sencillos:
- Ingresa en Pinecone.io y crea una cuenta seleccionando la opción Sign up.
- Utiliza tu cuenta de Google para agilizar el proceso seleccionando Continue with Google.
- Una vez ingresado, genera un índice otorgándole un nombre distintivo.
Elige un modelo de embeddings, preferiblemente Text Embedding Free Small con 1.536 dimensiones. Mantén configuraciones gratuitas seleccionando "Serverless" y "AWS" en Virginia.
Generar y administrar una API Key
La API Key habilita la conexión entre Pinecone y otras aplicaciones como N8N:
- Ve a la sección "API Keys".
- Crea una nueva clave API.
- Guarda en un lugar seguro esta clave, pues será requerida para posteriores configuraciones.
Uso de N8N para almacenar documentos en Pinecone
En N8n, realiza la configuración en estos pasos esenciales:
- Agrega un nuevo nodo seleccionando "Add Documents to Vector Storage".
- Configura tus credenciales introduciendo la API Key obtenida de Pinecone.
- En "Operation Mode" confirma "Insert Documents".
- Escoge el índice previamente creado llamado "Rack Platzi".
- Coloca el tamaño del batch en 200 para un manejo eficiente.
Integración con OpenAI Embeddings
Conecta tu flujo de trabajo con el modelo de OpenAI Embeddings:
- Añade el nodo "Embeddings OpenAI" con tus credenciales ya conectadas.
- Define el modelo "TextEmbeddingFreeSmall", congruente con Pinecone.
- Selecciona el "Default Data Loader", fijando ajustes recomendados como "Binary" y detección automática de datos.
Fragmentación de la información para búsquedas efectivas
La herramienta "TextSplitter" te permitirá segmentar adecuadamente la información:
- Usa "Recursive Charter Text Splitter".
- Configura un tamaño de fragmento de 1000 caracteres, con una superposición de fragmentos de 200 caracteres para mejorar resultados en búsquedas semánticas.
Almacenamiento y consulta eficiente
Este procedimiento inicial facilita almacenar conjuntos de documentos almacenados en Google Drive dentro de tu base de datos Pinecone, convirtiéndolos en objetos vectoriales que posteriormente permitirán búsquedas inteligentes desde aplicaciones conectadas mediante N8N.
Explicados los conceptos básicos, procede al siguiente paso para consultar de manera efectiva tu información almacenada.