Creación y entrenamiento de modelos Word2Vec con Gensim

Clase 5 de 26 • Curso de Embeddings y Bases de Datos Vectoriales para NLP

Resumen

¿Cómo crear un modelo de embebidos desde cero utilizando Python?

Bienvenido al fascinante mundo del procesamiento de lenguaje natural con Python. En este módulo aprenderemos a crear modelos de embebidos desde cero, utilizando Python y algunas librerías especializadas en procesamiento de lenguaje natural. Veremos cómo transformar un corpus crudo en un modelo de inteligencia artificial capaz de entender y procesar el lenguaje humano, centrándonos en la utilización de la biblioteca Word2Vec para obtener representaciones vectoriales de palabras.

¿Cuáles son las herramientas y bibliotecas clave?

Para llevar a cabo esta tarea, necesitamos integrar varias herramientas y bibliotecas que nos permitirán procesar adecuadamente el lenguaje:

Datasets: Esta librería nos permitirá descargar y gestionar nuestro corpus. Un corpus es un extenso documento que contiene múltiples instrucciones en lenguaje humano.
Gensim: Es la biblioteca principal que usaremos para entrenar nuestro modelo mediante Word2Vec, una técnica que convierte palabras en vectores numéricos.
NLTK: Esta biblioteca nos ayudará a procesar y limpiar el texto, eliminando puntuaciones y palabras irrelevantes (stopwords).

¿Cómo iniciamos el proceso de creación de envains?

Paso 1: Instalación de las bibliotecas necesarias

Comenzamos instalando las bibliotecas indispensables para el proyecto:

pip install datasets gensim nltk

Paso 2: Descarga del corpus

Usamos la librería Datasets para descargar el Lerch Spanish Corpus de Hugging Face. Específicamente, seleccionaremos el corpus llamado 'para-crown'. Este dataset contiene 5.6 GB de datos, así que será necesario esperar a que se descargue completamente.

Paso 3: Selección y preparación del corpus

Una vez descargado, procedemos a realizar un 'train split' para separar los datos de entrenamiento dentro del objeto dataset_corpus:

dataset_corpus = datasets.load_dataset('lerch_spanish_corpus', 'para-crown')
subset = dataset_corpus['train'].select(range(1000000))

Este subset contiene un millón de registros que utilizaremos para entrenar nuestro modelo. Cada registro representa una pequeña descripción o encabezado de noticia.

¿Cómo procesamos y limpiamos el texto?

Uso de NLTK para limpieza

Para asegurar que nuestro corpus esté libre de ruido, empleamos NLTK para eliminar stopwords y tokenizar el texto. Comenzamos descargando los conjuntos de datos necesarios:

import nltk
nltk.download('stopwords')
nltk.download('punkt')

Ahora estamos preparados para procesar nuestro corpus y asegurarnos de eliminar elementos innecesarios que puedan interferir con el entrenamiento del modelo.

Consideraciones finales

Con estos pasos iniciales, ya hemos preparado nuestro ambiente para comenzar a entrenar un modelo de embebidos. Al integrar librerías poderosas como Gensim y NLTK, podremos transformar nuestro corpus en un instrumento óptimo para el aprendizaje de máquinas. Esto apenas es el comienzo de un emocionante viaje hacia una comprensión más profunda del lenguaje natural y su aplicación en modelos de inteligencia artificial. ¡Continúa explorando y aprendiendo, el fascinante mundo del NLP te espera!

Luis Boivar

student•

Librerías cool que aparecieron este video:

datasets, son datasets listo para el uso, es de Hugging-face.
Gensim, nos permite la interacción con modelos y embeddings.
pandas, para el procesamiento de datos, el curso de esta herramienta es excelente.
re: para expresiones regulares
nltk: Herramientas para mejorar los procesos de nlp process.

Camilo Arguello

student•

Gracias por el aporte

Arno Sonck

student•

Hay un problema con "lasrge_spanish_corpus"

Dejo lo que me explico ChatGPT:

A partir de datasets v 4.0.0 Hugging Face desactivó por completo la ejecución de dataset scripts por motivos de seguridad. Cuando intentas cargar large_spanish_corpus la librería detecta el archivo large_spanish_corpus.py y lanza la excepción:

yaml

RuntimeError: Dataset scripts are no longer supported, but found large_spanish_corpus.py

Este mismo cambio está documentado en los issues/discusiones recientes de la librería.GitHubHugging Face Forums

Además, si visitas la página del corpus verás el aviso “The viewer is disabled because this dataset repo requires arbitrary Python code execution”, señal de que aún depende de un script.

Germán de Jesús Hernández García

student•

Hola, no veo los recursos. o ¿cómo llego a ellos?

Esteban Vega

student•

en la parte inferior izquierda tienes que poner volver a la version anterior

Germán de Jesús Hernández García

student•

Gracias @Esteban Vega.

Edmundo Figueroa

student•

se puede usar gemini 3? alguien intento ?

Rommer Batista

student•

Para pruebas rápidas entrenar con un millón de tokens puede ser costoso, usa un subset de 100 k frases y configura vector_size=100 window=5 min_count=2, luego consulta similitud con model.wv.most_similar('ciencia') y guarda solo los vectores en KeyedVectors

Brandon F Vargas Garcia

student•

Si les sucede el siguiente error:

NotImplementedError                       Traceback (most recent call last)

/tmp/ipython-input-13-2889441435.py in <cell line: 0>()
      1 from datasets import load_dataset
----> 2 all_wiki = load_dataset('large_spanish_corpus', name='ParaCrawl')

1 frames

/usr/local/lib/python3.11/dist-packages/datasets/builder.py in as_dataset(self, split, run_post_process, verification_mode, ignore_verifications, in_memory)
   1171         is_local = not is_remote_filesystem(self._fs)
   1172         if not is_local:
-> 1173             raise NotImplementedError(f"Loading a dataset cached in a {type(self._fs).__name__} is not supported.")
   1174         if not os.path.exists(self._output_dir):
   1175             raise FileNotFoundError(

NotImplementedError: Loading a dataset cached in a LocalFileSystem is not supported.
```Lo pueden resolver usando las siguientes opciones:

```python
# Opción 1:
from datasets import load_dataset

all_wiki = load_dataset('large_spanish_corpus', name='ParaCrawl', cache_dir='/content/dataset_cache')

# Opción 2:
from datasets import load_dataset

all_wiki = load_dataset('large_spanish_corpus', name='ParaCrawl', streaming=True)
for example in all_wiki['train']:
    print(example)  # Process data incrementally
```En lo personal es mucho mas recomendable usar la opción 2 para que no llenen todo el almacenamiento de su drive

juan.carlos.gonzalez

student•

me sale este error cuando intenta descargar las librerias de Word2Vec, alguien le ha pasado?

Hector Diaz

student•

Me pasa algo similar, desde el primer paso de instalación del datasets:

Installing collected packages: xxhash, fsspec, dill, multiprocess, datasets Attempting uninstall: fsspec Found existing installation: fsspec 2025.3.2 Uninstalling fsspec-2025.3.2: Successfully uninstalled fsspec-2025.3.2 ERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.

Probé varias sugerencias, desde ignorarla hasta crear un entorno virtual, ninguna funcionó.

Si la ignoraba, luego en la siguiente linea me da un error:

ModuleNotFoundError: No module named 'gensim'

Si instalaba gensim me da problemas con la versión de numpy debido a thinc 8.3.6.

Hector Diaz

student•

Después de un buen rato logré resolver los problemas de dependencias:

Fuente:

Veremos si puedo llegar al final

Creación y entrenamiento de modelos Word2Vec con Gensim

¿Cómo funcionan los embeddings?

Cómo Entender y Aplicar Embeddings en IA: De Teoría a Práctica

Introducción a One-Hot Encoding y TF-IDF en IA

Representación Vectorial de Palabras

Evaluación de Similitudes Semánticas: Métodos y Aplicaciones

Creación de embeddings