Creación de un Motor de Búsqueda Semántico con Python

Clase 13 de 26 • Curso de Embeddings y Bases de Datos Vectoriales para NLP

Resumen

¿Qué es un motor de búsqueda semántica?

La búsqueda semántica es un enfoque que utiliza espacios vectoriales para comprender y buscar información en función de su significado, en lugar de simplemente buscar coincidencias exactas de palabras clave. Esto proporciona resultados más precisos y relevantes, especialmente al buscar información específica pero no saber el nombre exacto del contenido buscado, como una película. Utilizar esta técnica nos permite crear, por ejemplo, un motor de búsqueda de películas, capaz de encontrar resultados basados en descripciones semánticas.

¿Cómo se construye un motor de búsqueda de películas?

Para construir un motor de búsqueda de películas basado en embeddings, seguimos un proceso estructurado que incluye la preparación de datos, el preprocesamiento necesario y la implementación de un modelo de aprendizaje profundo. Aquí te explicamos los pasos básicos:

Dataset: Comenzamos utilizando un conjunto de datos de 25,000 películas mejor clasificadas en IMDB, ya cargado en un formato CSV.
Carga y Exploración de Datos: Usamos pandas para cargar este dataset en un DataFrame y exploramos campos como títulos, descripciones, géneros, calificaciones, palabras clave, actores, escritores y años de publicación.
Instalación de Dependencias: Utilizamos Sentence Transformers para convertir texto en embeddings, PyCon Client para gestionar la base de datos vectorial y Gradle para crear una interfaz gráfica de usuario.
Transformación de Datos: Convertimos cadenas en listas y corregimos tipos de datos como el año y las calificaciones, preparándolos para el procesamiento vectorial.
Preprocesamiento: Creamos funciones como concatenarLista para unir palabras clave y actores en listas y stringToList para transformar estos en listas cuando sea necesario.

Ejemplo de Preprocesamiento con Código

# Eliminando valores nulos y reemplazándolos con espacios
df.fillna("")

# Funciones para transformar texto
def concatenarLista(lista):
    return " ".join(literal_eval(lista))

def stringToList(cadena):
    return literal_eval(cadena)

# Aplicación de funciones de preprocesamiento
df['Keywords'] = df['PlotKeywords'].apply(concatenarLista)
df['Stars'] = df['Top5Cast'].apply(concatenarLista)
df['Géneros'] = df['Genres'].apply(stringToList)

# Conversión de columnas numéricas
df['Rating'] = pd.to_numeric(df['Rating'], errors='coerce').fillna(0).astype(float)

¿Qué se hace después del preprocesamiento?

Una vez preprocesados los datos, el siguiente paso es eliminar las columnas redundantes y crear una columna de texto combinada que incluya descripciones, palabras clave y actores principales. Esta columna será utilizada para generar embeddings, cruciales para el espacio vectorial que facilita la búsqueda semántica. Además, utilizamos un modelo preentrenado para convertir estos textos en un formato que el sistema pueda interpretar y comparar semánticamente.

Ejemplo de Creación de la Columna de Texto

# Crear una columna unificada de texto
df['text'] = df.apply(lambda x: f"{x['Overview']} {x['Keywords']} {x['Stars']}", axis=1)

¿Cómo contribuyen los embeddings al motor de búsqueda?

Los embeddings transforman el texto descriptivo de las películas en representaciones numéricas que capturan el significado semántico, permitiendo al sistema entender y comparar las películas de una manera que simula la comprensión humana. Estos son esenciales para la búsqueda semántica, ayudando a encontrar resultados que no solo coincidan superficialmente, sino que realmente reflejen el contenido deseado.

Refuerzo Positivo para el Aprendizaje

Es fantástico ver cómo podemos usar la tecnología para mejorar la manera en que encontramos información. Continuar aprendiendo y perfeccionando estas técnicas te permitirá crear soluciones innovadoras en cualquier proyecto al que te enfrentes. ¡Sigue explorando!

Comentarios

Jason Sepulveda

student•

hice el curso en 2025 y el codigo actualizado pueden encontrarlo aqui

JULIAN ESTEBAN RUIZ GONZALEZ

student•

¿Hay forma de darle más relevancia a un campo que a otro? Digamos que quiero darle más peso al campo de género que al campo de director

Pablo Agustin Melnechuk

student•

Podrias generar una comparacion o un filtro que primero considere la columna o el feature de tu interes y compare la cercania y luego usar la busqueda semántica sobre esos datos

Pablo Javier Noguerol Santalices

student•

Buenas. No se si te han hecho ya la pregunta pero que forma de calcular embedding es mejor para el español de España? Suelo usar el de OPENIA que explicas en el curso pero no lo veo del todo fino. Hay alguno mejor o se puede mejorar de alguna forma?

Alejandro Carrasco Rodríguez

student•

Eso depende del modelo (llm) que haga el embedding. Hay unos entrenados para español y otros que no. Es cuestión de ver las especificaciones y saber elegir.

Camilo Cabrales Arango

student•

Como ven el panorama de las aplicaciones personalizadas una vez Microsoft saque copilot en todos sus productos

Pablo Javier Noguerol Santalices

student•

Aplicaciones personalizadas, de que manera?

Luis Boivar

student•

Super importante tener buenos procesos de limpieza de datos.

Creación de un Motor de Búsqueda Semántico con Python

¿Cómo funcionan los embeddings?

Cómo Entender y Aplicar Embeddings en IA: De Teoría a Práctica

Introducción a One-Hot Encoding y TF-IDF en IA

Representación Vectorial de Palabras

Evaluación de Similitudes Semánticas: Métodos y Aplicaciones

Creación de embeddings

Creación y entrenamiento de modelos Word2Vec con Gensim

Procesamiento y Limpieza de Datos para IA con Word2Vec y Gensim

Entrenamiento de Modelos Word2Vec con GenSim y Análisis de Similitud

Word2Vec: Entrenando IA para Comprender el Lenguaje

Usando embeddings preentrenados

Uso práctico de Sentence Transformers en procesamiento de textos

Análisis Semántico: Buscar Textos con Sentence Transformers

Manejo de Embeddings con OpenAI: API, Instalación y Datasets

Manejo y Visualización de Embeddings con OpenAI: Guía Práctica

Creación de un Motor de Búsqueda Semántico con Python

Transformación de Texto a Embeddings con Sentence Transformer

Bases de datos vectoriales

Qué es y cómo usar una base de datos vectorial

Gestión de Bases de Datos Vectoriales con ChromaDB: Instalación y Uso

Generación y manejo de embeddings en Chroma con Sentence Transformer

Consultas avanzadas y filtrado en bases de datos con Chroma

Cargar colección de Chroma previamente creada

Configuración y Uso de Pinecone: Desde la Instalación hasta la Inserción de Datos

Optimización de Ingesta de Datos en Pinecone: Procesos y Estrategias

Consultas Avanzadas en Pinecone: De Texto a Vector y Filtros

Carga de índices en Pinecone: Gestión eficiente en la nube

Carga de embeddings en Pinecone para búsqueda semántica

Creación de buscador semántico con Gradio y Sentence Transformer

Conclusiones

Potenciando los LLMs: Integración de Embeddings y Datos Vectoriales