Procesamiento y Limpieza de Datos para IA con Word2Vec y Gensim

Clase 6 de 26 • Curso de Embeddings y Bases de Datos Vectoriales para NLP

Resumen

¿Cómo se realiza la limpieza y preprocesamiento de un corpus?

La limpieza de un corpus es un paso crucial al trabajar con modelos de inteligencia artificial basados en el procesamiento del lenguaje natural (NLP). Los corpora que utilizamos para reentrenar nuestros modelos no siempre están listos para ser procesados directamente. Por lo tanto, es esencial llevar a cabo unas cuantas etapas de preprocesamiento para mejorar la calidad de nuestros datos y, en última instancia, el rendimiento del modelo.

¿Qué incluye la función cleanText?

Para limpiar y preprocesar el corpus, se utiliza la función cleanText, que opera sobre baches de datos, denominados sentenceBatch. A continuación, se describen los pasos llevados a cabo por la función:

Convertir a minúsculas: Se inicia convirtiendo todo el texto a minúsculas para estandarizar el conjunto de datos.
Eliminar URLs: Utilizando expresiones regulares, se eliminan las URLs, ya que estas no contribuyen al entendimiento del lenguaje y varían constantemente.

import re

# Quitando URLs del texto
texto = re.sub(r'http\S+|www\S+|https\S+', '', texto)

Quitar menciones y hashtags: De igual forma que con las URLs, se eliminan las menciones de redes sociales y hashtags.

# Quitando menciones (@usuario) y hashtags (#etiqueta)
texto = re.sub(r'@\w+|#\w+', '', texto)

Eliminar signos de puntuación: Se utilizan herramientas de la librería Hensing como StripPunctation.
Eliminar números y palabras cortas: Se utilizan herramientas como StripNumeric y StripShort para eliminar todos los números y las palabras demasiado cortas, que suelen ser poco significativas.

¿Cómo se manejan las stopwords y tokens?

El manejo de stopwords y la tokenización son pasos críticos en el preprocesamiento:

Eliminar stopwords: Estos son términos que, al ser demasiado comunes, pueden degradar el rendimiento del modelo.

from nltk.corpus import stopwords

# Definiendo las stopwords en español
stopwords_esp = set(stopwords.words('spanish'))

# Filtrando stopwords
filtratext = [word for word in tokens if word not in stopwords_esp]

Tokenizar el texto: Permite descomponer una oración completa en una lista de palabras individuales.

from nltk.tokenize import word_tokenize

# Tokenizar el texto
tokens = word_tokenize(texto)

¿Cómo se aplica el preprocesamiento al dataset?

Finalmente, la función cleanText se aplica al dataset completo:

Mapeo sobre el dataset: Utilizando la propiedad map de un dataset tipo JoggingFace, se aplica la función sobre el corpus en proceso batch, que optimiza el tiempo de ejecución.

# Aplicando cleanText al dataset
subset = subset.map(cleanText, batched=True)

El resultado es un corpus limpio, listo para ser utilizado en modelos de entrenamiento de Word Embeddings. Las oraciones ahora están tokenizadas por palabras, y se han eliminado elementos innecesarios como números, hipervínculos y stopwords.

¿Por qué es importante un preprocesamiento de calidad en NLP?

El preprocesamiento de calidad es un requisito esencial para el éxito en tareas de NLP con inteligencia artificial. Un corpus bien preparado asegura que el modelo pueda interpretar y aprender el lenguaje de manera eficaz y precisa. Aunque hemos trabajado con un millón de oraciones, los modelos más avanzados requieren de millones o incluso billones de oraciones para su entrenamiento. Hacerlo eficiente y eficaz es uno de los grandes retos en el campo del NLP.

Comentarios

Hector Salvador Fisharp

student•

Podemos mejorar considerablemente (por mucho, en algunos casos) el tiempo total de ejecución de esta rutina de preprocesamiento, si extraemos de la función de clean_text las tareas o acciones que no necesitan ser ejecutadas una y otra vez en cada batch. Un ejemplo claro es la creación del set de stopwords, que no necesitamos estar invocando en cada batch (1000 veces, en este ejemplo) sino sólo una vez, al inicio (aún antes de declarar nuestra función clean_text) como si fuera una constante:

STOP_WORDS = set(stopwords.words('spanish'))

def clean_text(sentence_batch):
    # ... luego, dentro del for
        filtered_text = [word for word in word_tokens if word not in STOP_WORDS]
    #...

Sólo con ese cambio (y pre-compilar las regular-expressions que luego reusaremos tantas veces) podemos ver mejoras notables (al menos la mitad del tiempo o menos, en este caso particular). Obviamente con un subconjunto más grande (o con este corpus completo u otro con billones de registros), ese tipo de mejoras bien valen la pena.

Les comparto este colab con las 2 versiones para comprobar la diferencia.

Hector Fabian Rodriguez Acosta

student•

Excelente solucion Hector, En un proyecto corporativo me ahorraste sin duda unos cuantos recursos

victor garcia silva

student•

Seria bueno un curso sobre Qlora, ya que en vez de usar millones de frases en un corpus, basta cientos de lineas para reentrenar un modelo LLP como chatgpt, Alpaca o Llama.

Santiago Ruberto

student•

Les dejo la regex: text = re.sub(r'http\S+|www\S+|https\S+', '', text, flags=re.MULTILINE)

Jason Sepulveda

student•

estoy haciendo este curso en 2025, si tienen muchas fallas con el codigo pueden encontrar el repositorio aqui

Gastón Garcia Juri

student•

Gracias amigo!

Victor Nuñez

student•

Esto esta desactualizado hay muchos errores de compatibilidad entre paquetes, no se ejecuta absolutamente nada, es medio dificil seguir la enseñanza si no funciona el codigo.

Jason Sepulveda

student•

estoy haciendo este curso en 2025, si tienen muchas fallas con el codigo pueden encontrar el repositorio aqui <>

Santiago Ruberto

student•

La otra: text = re.sub(r'\@\w+|\#\w+', '', text)

Oscar Javier Perez

student•

No entendí cuando comenta que este procesamiento lo realizamos porque trabajamos con un dataset de Huggin Face y que para hacer el procesamiento en Bash se requiere de dicha estructura. En caso contrario, es posible utilizar el procesamiento para dataframe de Pandas o del objeto que se esté trabajando. ¿Se refiere solo a la estructura del return que viene como diccionario o a todo el preprocesamiento que realizamos anteriormente?

Federico Arias

student•

Hola Oscar, de Hugging Face se descargan los datos de oraciones (millones), el video es un ejemplo para mostrarnos como procesar datos de oraciones hasta obtener palabas "limpias" y procesables.

Podrias procesarlo con pandas, pero seria mas complejo por como pandas es como objeto.

Por eso el video respeta el objeto database que nos entrega huggin face

Raul Perez-Alejo Neyra

student•

Mi duda esta relacionada con la eliminación de las palabras cortas. al hacer el preprocesamiento el resultado final es un array de palabras. Esto no tiene ningún significado semántico.

Entiendo lo que quitar URls, CAracteres raros, #, @, pero dejarlo en un array de palabras es eliminar completamente la semántica de la oración, o no?

Ignacio Saccomano

student•

No te contesto con seguridad porque tampoco sé, pero intuyo que la idea es que al tener tantos datos la eliminación de palabras cortas no influyen al "entendimiento" de los datos. Al ser muy cortas se sobreentiende que son conectores o articulos, por lo que no aportan significado. Si tenés suficientes datos podes hacer un embedding que encapsule correctamente el significado de una oración. De nuevo, es solo lo que entendí. Además no sé cómo trata con oraciones con palabras muy cortas (por ejemplo: "El le habla mucho a ella" -> "habla mucho ella" [es una oracion valida totalmente diferente que pierde el contexto de la original]). Lo que sí es raro es que no se haga ningún análisis sobre qué tan largas sean las palabras que tengas que eliminar. Creería que lo óptimo es explorar algunos parámetros y hacer pruebas para ver qué tan cortas tienen que ser las palabras a eliminar. No me parece correcto elegir el número 2 de manera arbitraria.

Cristian Pisco Intriago

student•

Si ejecutan esta línea en el colab: sentences\_corpus = subset.map(clean\_text, batched=True)

Aparece este error: Resource punkt\_tab not found. Este breaking change se debe a esta vulnerabilidad => [

Solución: ```

import nltknltk.download('stopwords')nltk.download('punkt_tab') from nltk.tokenize import word_tokenize

```

Joel Alejandro Tovar Ramos

student•

No me quedo claro de donde viene las funciones strip_short() y strip_numeric? el profesor lo usa sin hacer instancia de una clase ni nada. Me funciona en le codigo pero no veo de donde vienen

Raul Perez-Alejo Neyra

student•

en la segunda celda del Colab hay esta entrada:

from gensim.parsing.preprocessing import strip\_punctuation, strip\_numeric, strip\_short, stem\_text

viene de ahí

Procesamiento y Limpieza de Datos para IA con Word2Vec y Gensim

¿Cómo funcionan los embeddings?

Cómo Entender y Aplicar Embeddings en IA: De Teoría a Práctica

Introducción a One-Hot Encoding y TF-IDF en IA

Representación Vectorial de Palabras

Evaluación de Similitudes Semánticas: Métodos y Aplicaciones

Creación de embeddings

Creación y entrenamiento de modelos Word2Vec con Gensim

Procesamiento y Limpieza de Datos para IA con Word2Vec y Gensim

Entrenamiento de Modelos Word2Vec con GenSim y Análisis de Similitud

Word2Vec: Entrenando IA para Comprender el Lenguaje

Usando embeddings preentrenados

Uso práctico de Sentence Transformers en procesamiento de textos

Análisis Semántico: Buscar Textos con Sentence Transformers

Manejo de Embeddings con OpenAI: API, Instalación y Datasets

Manejo y Visualización de Embeddings con OpenAI: Guía Práctica

Creación de un Motor de Búsqueda Semántico con Python

Transformación de Texto a Embeddings con Sentence Transformer

Bases de datos vectoriales

Qué es y cómo usar una base de datos vectorial

Gestión de Bases de Datos Vectoriales con ChromaDB: Instalación y Uso

Generación y manejo de embeddings en Chroma con Sentence Transformer

Consultas avanzadas y filtrado en bases de datos con Chroma

Cargar colección de Chroma previamente creada

Configuración y Uso de Pinecone: Desde la Instalación hasta la Inserción de Datos

Optimización de Ingesta de Datos en Pinecone: Procesos y Estrategias

Consultas Avanzadas en Pinecone: De Texto a Vector y Filtros

Carga de índices en Pinecone: Gestión eficiente en la nube

Carga de embeddings en Pinecone para búsqueda semántica

Creación de buscador semántico con Gradio y Sentence Transformer

Conclusiones

Potenciando los LLMs: Integración de Embeddings y Datos Vectoriales