1. ¿Qué es una base de datos vectorial?
- ¿Qué es una base de datos vectorial?
Imagina una biblioteca donde, en lugar de guardar libros completos, se guardan resúmenes matemáticos (vectores) que representan el contenido del libro.
Estos vectores no se ven como texto, sino como listas de números que resumen el significado de ese texto.
Una base de datos vectorial guarda millones de estos vectores y permite hacer búsquedas por significado. Por ejemplo:
En lugar de buscar exactamente "gato", podrías buscar "animal que maúlla" y también encontrar "gato", porque los vectores que representan ambos conceptos están cerca en el espacio.
- ¿Qué son lo embeddings?
Los embeddings son las versiones "numéricas" de los datos, como si le dieras a una IA una frase y te devolviera algo como:
plaintextCopiarEditar[0.12, -0.34, 0.89, ..., 0.56] // hasta llegar a 1,536 números (dimensiones)
Cada número representa una característica detectada del texto. Entre más dimensiones (como 1.536), mejor se puede capturar el significado del contenido.
No entendía el contexto de la configuración de Chunk Overlap = 200, pero les dejo mi explicación luego de investigar.
Cuando dividimos un texto largo en fragmentos más pequeños (por ejemplo, de 1000 caracteres cada uno), puede pasar que una idea importante quede partida entre dos fragmentos.
La superposición evita eso: consiste en repetir los últimos 200 caracteres del fragmento anterior al inicio del siguiente.
¿Por qué se hace?
Porque así no se pierde el contexto entre fragmentos. Por ejemplo:
- El final de un fragmento puede decir:
"...el contrato fue firmado por el ministro de..."
- Y el siguiente empezar con:
"...salud el 20 de abril del 2023."
Sin superposición, eso se separaría y perdería el sentido.
Con superposición, el modelo tiene más chance de entender el texto como una unidad coherente.