Pesquisa vetorial com embeddings e ADA

Curso de Desarrollo de Chatbots con AzureOpenAI

Contenido del curso

Introducción a Azure Open AI

Open AI Studio

Prompt Enginereering

Uso de los datos (Chat with your Data)

Monitoreo

Mejores prácticas

Conclusiones

21
Desarrollo de Asistentes Virtuales Empresariales con IA Responsable
02:32 min

Tomar examen

Pesquisa vetorial com embeddings e ADA

Resumen

A pesquisa vetorial resolve um problema concreto: encontrar informação semelhante nos teus próprios dados sem depender de coincidências exactas de palavras. Vais aprender a usar o modelo ADA do Azure OpenAI Service para gerar embeddings e construir consultas por semelhança semântica sobre um conjunto de receitas culinárias.

O que é a pesquisa vetorial e porque é útil?

Quando tentas consultar os teus próprios dados, raramente sabes qual é o melhor mecanismo. A pesquisa tradicional falha quando o utilizador escreve algo parecido, mas não idêntico, ao texto guardado.

A pesquisa vetorial transforma cada texto numa representação numérica e compara essas representações para encontrar semelhanças. Assim, podes perguntar em linguagem natural e recuperar conteúdo relevante mesmo que as palavras não coincidam.

¿Qué es un embedding? Es una representación vectorial de un texto compuesta por valores de punto flotante. Permite medir qué tan parecidos son dos textos comparando sus vectores en lugar de sus palabras.

Como gerar embeddings com o modelo ADA no Azure OpenAI?

O modelo ADA converte texto em vectores extensos de números decimais. Antes de o usar, vale a pena saber que o modelo ADA não está disponível em todas as regiões do Azure, por isso o exemplo da aula foi implantado na região East US.

O fluxo geral é simples e segue esta ordem:

Configurar os pacotes e ler as credenciais do Azure OpenAI a partir das variáveis de ambiente.
Carregar o dataset num dataframe (neste caso, um CSV de receitas com descrição e processo de preparação).
Tokenizar cada texto com tiktoken para garantir que o conteúdo cabe no modelo.
Enviar cada linha ao modelo ADA e guardar o vector resultante.

Porque é necessário tokenizar com tiktoken antes do embedding?

O processo de tokenização parte o texto em unidades que o modelo entende. Sem este passo, não consegues processar de forma fiável todo o texto imerso no dataset, sobretudo quando há descrições longas como as instruções de uma receita.

Depois de tokenizar, esses tokens alimentam a função que gera o embedding e devolve o vector que vais comparar mais tarde.

Como fica o dataframe depois do processo de embedding?

Depois de aplicar o embedding linha a linha, o dataframe fica com três blocos de informação úteis:

Os dados originais carregados do ficheiro CSV.
A contagem de tokens por receita.
A representação vetorial atribuída a cada receita.

Este resultado é guardado novamente num CSV separado, o que te permite ter a base de conhecimento pronta para qualquer aplicação que precise de pesquisa vetorial sem ter de recalcular tudo.

Como funciona a função de pesquisa por semelhança?

A ideia é ter uma função única que receba um texto, gere o seu vector com ADA e o compare com todos os vectores guardados. O resultado é a linha (ou linhas) cuja receita é mais parecida com a pergunta.

Na aula testou-se primeiro um vector simples a partir do texto «O meu nome é Maritza Mera». Ao verificar o comprimento do vector vê-se que é bastante extenso e que cada posição é um valor de ponto flutuante, o que confirma que o modelo está a devolver uma representação numérica densa.

¿Cómo se compara un texto nuevo con el dataset? Se genera el vector del texto de entrada con el mismo modelo ADA y se mide su similitud contra cada vector ya almacenado en el dataframe. Las filas más cercanas son las más parecidas semánticamente.

Que tipo de perguntas devolvem bons resultados?

Na demonstração foram usadas entradas curtas em linguagem natural. Por exemplo, ao enviar Chocolate and berries através da função ask_question, o sistema avalia todas as receitas vetorizadas e devolve aquelas cujo conteúdo é semanticamente mais próximo dessa ideia, mesmo que as receitas não usem exactamente essas palavras.

Podes pedir um único resultado ou vários, dependendo de quantos elementos a função deve retornar. Isto é útil quando queres mostrar uma lista de sugestões, não apenas a melhor correspondência.

¿Para qué sirve la función ask_question? Recibe una frase del usuario, genera su embedding con ADA y devuelve las recetas del dataset cuyo vector tiene mayor similitud, ordenadas por relevancia.

Que podes construir a partir desta base?

Com o CSV de vectores guardado e a função de pesquisa pronta, tens os dois ingredientes principais de qualquer aplicação de retrieval sobre dados próprios: uma base de conhecimento vetorizada e uma forma de consultar essa base com texto livre.

A partir daqui, podes ligar este mecanismo a interfaces de chat, sistemas de recomendação ou motores internos de busca. A chave é que a comparação deixa de depender das palavras exactas e passa a depender do significado.

Experimenta agora com os teus próprios dados: escolhe um dataset que conheças bem, gera os embeddings com ADA e faz perguntas em linguagem natural. Conta nos comentários que tipo de dados vais vetorizar e que perguntas te interessa responder.

Mateo Montoya Henao

Estudiante

Utilización de Embeddings para Búsquedas Vectoriales

Los embeddings son representaciones numéricas de datos que capturan la semántica o el significado del texto, imágenes u otros tipos de datos. Estos embeddings pueden ser utilizados para realizar búsquedas vectoriales, que son búsquedas basadas en la similitud semántica en lugar de coincidencias exactas de palabras clave. Aquí te explico cómo se utilizan los embeddings para búsquedas vectoriales y algunas aplicaciones prácticas.

Proceso de Búsqueda Vectorial

Vectorización de Datos:
- Los datos (texto, imágenes, etc.) son convertidos en vectores numéricos utilizando modelos de embeddings. Por ejemplo, puedes usar el modelo text-embedding-ada-002 de Azure OpenAI para convertir texto en vectores.
Creación de un Índice de Búsqueda:
- Los vectores generados se almacenan en un índice de búsqueda vectorial. Este índice permite realizar búsquedas eficientes basadas en la similitud de vectores. Puedes usar técnicas como HNSW (Hierarchical Navigable Small World) para indexar los embeddings y facilitar la búsqueda de vecinos más cercanos.
Consulta y Recuperación:
- Cuando se realiza una consulta, el texto de la consulta también se convierte en un vector utilizando el mismo modelo de embeddings. Luego, se busca en el índice para encontrar los vectores más similares al vector de la consulta. La similitud se puede medir utilizando métricas como la similitud coseno o la distancia Euclidiana.

Aplicaciones de Búsquedas Vectoriales

Búsqueda Semántica:
- Permite buscar documentos que son semánticamente similares a una consulta, incluso si no contienen las mismas palabras clave exactas. Esto es especialmente útil en sistemas de búsqueda avanzados como Google.
Recomendaciones de Productos:
- Los sistemas de recomendación pueden utilizar embeddings para analizar las preferencias de los usuarios y sugerir productos similares. Por ejemplo, Amazon utiliza embeddings para recomendar productos basados en compras y comportamientos de navegación previos.
Análisis de Sentimientos:
- Los embeddings pueden ayudar a codificar el tono emocional del texto, lo que permite a los modelos determinar si el contenido es positivo, negativo o neutral. Esto es útil para analizar opiniones en redes sociales.
Clasificación de Texto:
- Los embeddings convierten el texto en vectores numéricos, lo que permite una clasificación eficiente en categorías predefinidas. Por ejemplo, Gmail utiliza clasificación de texto para ordenar correos electrónicos en categorías como primario, social y promociones.
Búsqueda Multimodal:
- Puedes combinar embeddings de texto e imágenes para realizar búsquedas en un espacio de embeddings que incluye ambos tipos de contenido. Esto es útil para aplicaciones que requieren búsqueda de contenido visual y textual.

Ejemplo Práctico

Aquí tienes un ejemplo de cómo usar embeddings de Azure OpenAI con una biblioteca de búsqueda vectorial en .NET:

using OpenAI;
using Build5Nines.SharpVector.OpenAI;

// Configura la conexión con Azure OpenAI
var openAIKey = "xxxxxxxxxx";
var modelName = "text-embedding-ada-002";
var openAIClient = new OpenAIClient(openAIKey);
var embeddingClient = openAIClient.GetEmbeddingClient(modelName);

// Inicializa la base de datos vectorial en memoria con el cliente de embeddings
var vectorDatabase = new BasicOpenAIMemoryVectorDatabase(embeddingClient);

// Agrega datos al índice
vectorDatabase.Add("This is an example sentence.");
vectorDatabase.Add("Sentence embeddings help in capturing the meaning of sentences.");

// Realiza una consulta de búsqueda
var query = "What are sentence embeddings?";
var results = vectorDatabase.Search(query, topK: 2);

foreach (var result in results)
{
    Console.WriteLine(result.Text);
}
````using OpenAI;`
`using Build5Nines.SharpVector.OpenAI;`

`// Configura la conexión con Azure OpenAI`
`var openAIKey = "xxxxxxxxxx";`
`var modelName = "text-embedding-ada-002";`
`var openAIClient = new OpenAIClient(openAIKey);`
`var embeddingClient = openAIClient.GetEmbeddingClient(modelName);`

`// Inicializa la base de datos vectorial en memoria con el cliente de embeddings`
`var vectorDatabase = new BasicOpenAIMemoryVectorDatabase(embeddingClient);`

`// Agrega datos al índice`
`vectorDatabase.Add("This is an example sentence.");`
`vectorDatabase.Add("Sentence embeddings help in capturing the meaning of sentences.");`

`// Realiza una consulta de búsqueda`
`var query = "What are sentence embeddings?";`
`var results = vectorDatabase.Search(query, topK: 2);`

`foreach (var result in results)`
`{`
`    Console.WriteLine(result.Text);`
`}`

Este ejemplo utiliza el modelo `text-embedding-ada-002` de Azure OpenAI para generar embeddings de texto y luego realiza una búsqueda en una base de datos vectorial en memoria.

### Conclusión

Los embeddings son una herramienta poderosa para realizar búsquedas vectoriales, permitiendo la recuperación de datos basada en similitud semántica. Esta capacidad es esencial para aplicaciones que requieren una comprensión profunda del contexto y el significado, como búsqueda semántica, recomendaciones y análisis de sentimientos.

Pesquisa vetorial com embeddings e ADA

Introducción a Azure Open AI

Desarrollo de Chatbots Empresariales con Azure OpenAI

Solicitud de Acceso a OpenAI Service en Microsoft Azure

Desarrollo de Asistentes Virtuales con Azure OpenAI

Despliegue de Azure OpenAI Service en Azure Portal

Open AI Studio

Gestión de modelos en Azure OpenAI Studio y uso de speech to text

Uso de Azure OpenAI Service con API REST y SDK Python/C#

Cómo guiar a GPT con pasos definidos

Gestión de Azure OpenAI Studio y Modelos Generativos

Inteligencia Artificial Generativa Responsable: Principios y Prácticas

Prompt Enginereering

Capacidades del modelo GPT-4 Vision: uso en OpenAI Studio y API REST

Ajuste de modelos GPT 3.5 Turbo con OpenAI Studio en Azure