Qué son las bases de datos vectoriales y sus aplicaciones
Clase 7 de 22 • Curso de RAG con Microsoft Azure
Contenido del curso
- 5

Embeddings y bases de datos vectoriales para documentos digitales
03:35 - 6

Configuración de Azure para RAG: preparativos y gestión de costos
03:51 - 7

Qué son las bases de datos vectoriales y sus aplicaciones
04:50 - 8

Despliegue de recursos de IA en Azure con scripts de Bash
05:15 - 9

Despliegue de modelos GPT-4 y embeddings en Azure OpenAI
03:01 - 10

Configuración de Jupyter Notebook y ambientes virtuales en Python
03:37 quiz de Etapas de RAG
- 11

Vectorización de documentos con Azure Search y OpenAI
06:15 - 12

Configuración de Azure OpenAI y AI Search en Jupyter Notebook
06:56 - 13

Integración de LLM para optimizar respuestas en Jupyter Notebook
03:09 - 14

Actualización manual de índices con nuevos documentos PDF
03:17 - 15

Búsqueda tradicional, vectorial e híbrida en Azure AI Search
06:05 quiz de Tecnicas de RAG
- 16

Creación de múltiples índices en Azure AI Search con Jupyter
09:40 - 17

Generación de información ficticia con archivos Parquet
03:14 - 18

Subida automática de documentos fragmentados a Azure AI Search
02:53 - 19

Comparación de índices en Azure para optimizar almacenamiento
03:59 - 20

Creación de aplicación demo con Azure Search Service
03:39 quiz de RAG avanzado
Las bases de datos vectoriales representan una evolución significativa frente a las tradicionales relacionales y no relacionales. Su funcionamiento se basa en organizar información en espacios tridimensionales según su similitud semántica, facilitando así búsquedas rápidas y eficientes. Grandes compañías como Netflix y Spotify ya emplean este tipo de bases para mejorar considerablemente sus recomendaciones.
¿Qué distingue a las bases de datos vectoriales de otras bases tradicionales?
La principal diferenciación reside en cómo almacenan la información:
- Bases relacionales: utilizan tablas y estructuras definidas, como sucede con SQL, MySQL y Oracle.
- Bases no relacionales: almacenan documentos de información permitiendo consultas rápidas y flexibles.
- Bases gráficas: permiten saltar entre diferentes nodos para encontrar información rápidamente.
- Bases vectoriales: guardan pequeños segmentos de datos organizados en tres dimensiones, acomodados por similitud.
¿Cómo funcionan las bases de datos vectoriales?
Estas bases operan mediante la organización semántica tridimensional. Consideran que cada dato es una pieza independiente, indexada y ubicada en un núcleo tridimensional. Por ejemplo:
- Información relacionada con computadoras queda ubicada en una zona específica del vector.
- Documentos que combinan temas como computadoras y reciclaje electrónico estarán alineados entre diferentes áreas vectoriales según su pertinencia.
Esto permite búsquedas rápidas por similitud semántica en lugar de lineal, agilizando el acceso a la información más adecuada para cada consulta.
¿Cuáles son los casos prácticos y aplicaciones actuales?
Compañías de entretenimiento como Netflix y Spotify han adoptado estas bases para proporcionar recomendaciones inmediatas y precisas a sus usuarios. Al terminar una canción o película, estas plataformas encuentran rápidamente contenidos similares, aprovechando los vectores semánticos.
El mercado de bases vectoriales está creciendo notablemente, destacando nuevos jugadores especializados como:
- Lance DB
- Mirbus
- Brandt
- Vespa
- Chroma
- Marco
Aunque PostgreSQL o Cassandra también admiten búsquedas vectoriales, no cuentan con el mismo desempeño para casos avanzados o especializados.
¿Cómo implementar eficazmente bases de datos vectoriales?
La recomendación inicial es complementar bases vectoriales con bases de datos tradicionales (lineales), obteniendo lo mejor de cada opción:
- Bases de datos vectoriales: para búsquedas semánticas rápidas y efectivas.
- Bases lineales o estructuradas: para almacenar información de forma estructurada claramente definida.
Esta combinación permite una gestión completa y especializada de los datos, optimizando la arquitectura del software y facilitando su mantenimiento y crecimiento. Compartir tus experiencias o dudas sobre estas bases puede enriquecer considerablemente tu proceso de aprendizaje.