Cargar colección de Chroma previamente creada

Clase 19 de 26 • Curso de Embeddings y Bases de Datos Vectoriales para NLP

Contenido del curso

¿Cómo funcionan los embeddings?

Creación de embeddings

Usando embeddings preentrenados

Bases de datos vectoriales

Conclusiones

26
Potenciando los LLMs: Integración de Embeddings y Datos Vectoriales
03:16 min

Tomar examen

Cargar colección de Chroma previamente creada

Imagina que ya tienes una colección o de Chroma que creaste con anterioridad y quieres cargarla nuevamente dentro del computador o servidor que estás utilizando. Para ello necesitarás dos cosas:

El path o dirección en disco donde almacenaste tu colección de Chroma.
El nombre de dicha colección.

En el caso de la notebook que hemos seguido en el curso, tenemos path="/content/data_embeddings"como dirección y 'movies_db_no_embeddings' como el nombre de la colección.

Para cargarla ejecutarás:

client_persistent_2 = chromadb.PersistentClient(path="/content/data_embeddings")

Esto inicializará otro PersistentClient en el mismo path, y después de ello cargarás la colección con el método get_collection() de la siguiente manera:

db_2 = client_persistent_2.get_collection('movies_db_no_embeddings')

Este método obtiene y carga la colección creada desde el archivo indicado.

Para probar tu nuevo índice con la colección de Chroma, ejecuta un peek:

db_2.peek(1)

Adicional a esto, ya puedes ejecutar cualquier otra de las características de las bases de datos Chroma sobre este nuevo índice. ⚙️

Luis Boivar

student•

Se requiere:

el path de la db-vectorial
el nombre de la colección.

Rommer Batista

Para reutilizar una colección de Chroma, primero inicializa un PersistentClient indicando el path donde está guardada. Luego, carga la colección con el método get\_collection() y su nombre.

Este mecanismo de persistencia es crucial, ya que te permite acceder y consultar tu base de datos vectorial en cualquier momento sin tener que reconstruirla, optimizando así tus flujos de trabajo y permitiendo que tus aplicaciones sean más eficientes y escalables.

Cargar colección de Chroma previamente creada

¿Cómo funcionan los embeddings?

Cómo Entender y Aplicar Embeddings en IA: De Teoría a Práctica

Introducción a One-Hot Encoding y TF-IDF en IA

Representación Vectorial de Palabras

Evaluación de Similitudes Semánticas: Métodos y Aplicaciones

Creación de embeddings

Creación y entrenamiento de modelos Word2Vec con Gensim

Procesamiento y Limpieza de Datos para IA con Word2Vec y Gensim

Entrenamiento de Modelos Word2Vec con GenSim y Análisis de Similitud

Word2Vec: Entrenando IA para Comprender el Lenguaje

Usando embeddings preentrenados

Uso práctico de Sentence Transformers en procesamiento de textos

Análisis Semántico: Buscar Textos con Sentence Transformers

Manejo de Embeddings con OpenAI: API, Instalación y Datasets

Manejo y Visualización de Embeddings con OpenAI: Guía Práctica

Creación de un Motor de Búsqueda Semántico con Python

Transformación de Texto a Embeddings con Sentence Transformer

Bases de datos vectoriales

Qué es y cómo usar una base de datos vectorial

Gestión de Bases de Datos Vectoriales con ChromaDB: Instalación y Uso

Generación y manejo de embeddings en Chroma con Sentence Transformer

Consultas avanzadas y filtrado en bases de datos con Chroma

Cargar colección de Chroma previamente creada

Configuración y Uso de Pinecone: Desde la Instalación hasta la Inserción de Datos

Optimización de Ingesta de Datos en Pinecone: Procesos y Estrategias

Consultas Avanzadas en Pinecone: De Texto a Vector y Filtros

Carga de índices en Pinecone: Gestión eficiente en la nube

Carga de embeddings en Pinecone para búsqueda semántica

Creación de buscador semántico con Gradio y Sentence Transformer

Conclusiones

Potenciando los LLMs: Integración de Embeddings y Datos Vectoriales