Word2Vec: Entrenando IA para Comprender el Lenguaje

Clase 8 de 26 • Curso de Embeddings y Bases de Datos Vectoriales para NLP

Resumen

¿Qué es Word2Vec y cómo funciona?

Word2Vec es una técnica poderosa en el ámbito del procesamiento del lenguaje natural (PLN) que convierte palabras en vectores, permitiendo a las máquinas entender la semántica y el contexto del lenguaje. Este método se apoya en un corpus del lenguaje, un conjunto extenso de texto que sirve como base para el entrenamiento del modelo. Los modelos como GPT-3 o Lambda se sustentan en estas técnicas de vectorización de palabras, como veremos a continuación.

Existen dos sabores de Word2Vec: CBOE y Skitgram. CBOE intenta predecir qué palabra debería rellenar un hueco en una oración basada en las palabras circundantes, mientras que Skitgram se enfoca en deducir las palabras que rodean usando solo una palabra de referencia. Nos centraremos en Skitgram para este análisis.

¿Cómo se aplica el modelo Skitgram?

El funcionamiento de Skitgram se basa en la idea de una “ventana” que se desplaza por un texto para analizar el contexto. Por ejemplo, al usar una oración como "Preferiría compartir una vida contigo", con una ventana de longitud tres, el modelo tomará las tres primeras palabras como entrada e intentará predecir la siguiente palabra en la posición central de la ventana.

Primera ventana: "Preferiría compartir una". Se intenta predecir "vida".
Ventana desplazada: Las palabras continúan desplazándose hacia la derecha, analizando las combinaciones "compartir una vida", "una vida contigo", y así sucesivamente.

Este método permite a Skitgram captar el contexto al moverse por el texto, asegurando que el modelo entienda las palabras circundantes relevantes para cada predicción.

¿Cuál es el papel de los ejemplos negativos?

El entrenamiento de un modelo Skitgram no estaría completo sin integrar ejemplos negativos. Estos ejemplos son cruciales para mejorar el contexto de las palabras y evitar fenómenos de overfitting, el cual ocurre cuando el modelo memoriza más que aprender patrones generales.

Selección de ejemplos negativos: Mientras el corpus se entrena con ejemplos positivos (palabras que realmente están en contexto), también se incluyen palabras al azar del corpus con valor objetivo (target) en 0, como "robot" o "asdf".
Propósito: Esto garantiza que el modelo pueda discernir palabras contextuales relevantes y evita que se sobreajuste a un subconjunto limitado del texto.

¿Cómo se mide y ajusta el error en el modelo?

La medida del error en un modelo Skitgram es crucial para su mejora continua, utilizando conceptos matemáticos para refinar las predicciones.

Cálculo del error: Cada palabra predicha se convierte a un espacio sigmoidal que varía entre 0 y 1. El error se calcula restando el valor del target (0 o 1) del valor predicho.
Backpropagation: El error se propaga a través del modelo, ajustando los pesos de conexión para fortalecer las relaciones semánticas correctas entre palabras cercanas.

¿Cuáles son los parámetros clave y cómo influencian el modelo?

Al entrenar un modelo Skitgram, el tamaño de la ventana de palabras y el número de ejemplos negativos son los dos parámetros esenciales a ajustar:

Tamaño de la ventana: Un tamaño de ventana muy amplio podría incluir palabras no relacionadas en el contexto, mientras que uno demasiado reducido podría dejar de captar el contexto completo de una palabra.
Muestras negativas: Un número excesivo de ejemplos negativos podría degradar el rendimiento del modelo, mientras que muy pocos podrían llevar al modelo a un sobreajuste.

Con estos parámetros ajustados correctamente, el modelo puede entrenarse eficientemente en grandes corpus de texto, capacitando a los sistemas para que comprendan e interpreten las complejidades del lenguaje humano.

¿Por qué Vectorizar no es un proceso mágico?

Aunque la vectorización y el uso de Word2Vec pueden parecer mágicos, son procesos basados en la lógica y las matemáticas. Estos métodos han sentado las bases de modelos modernos de IA que utilizan transformadores, como GPT-4 o BERT.

La comprensión profunda de cómo funcionan estos procesos te permitirá sacar el máximo provecho de los modelos preentrenados disponibles, como los de Hugging Face o OpenAI, sin necesidad de entrenar desde cero.

La clave para dominar esta tecnología es la comprensión del contexto del lenguaje y la adaptación de modelos preexistentes para necesidades específicas, aprovechando modelos gratuitos y accesibles que han sido entrenados con grandes cantidades de datos en múltiples idiomas.

Eber Laurente Lliuyacc

student•

Esta es la clase que más me costó entender por completo, así que busqué más recursos. Comparto mi resumen de pasos:

Construcción del vocabulario:
1. Se construye un vocabulario que incluya todas las palabras únicas presentes en el corpus de texto, donde cada palabra se asociará a un índice único.
Definición del contexto
1. Se define la ventana de contexto, que determina el número de palabras a la izquierda y derecha de una palabra objetivo serán considerados como parte de su contexto.
Creación de pares de palabras
1. Se recorre todo el vocabulario para identificando una palabra y las palabras de su contexto, según la ventaja de contexto definido.
2. Se crea pares de palabra objetivo y palabra de contexto, pares (i = palabra objetivo, j = palabra de contexto).
Co-ocurrencia y matriz de co-ocurrencia
1. Se crea una matriz donde las filas y las columnas representan las palabras del vocabulario construido. Si nuestro vocabulario es de 10000, la matriz será de 10000 x 10000.
2. Cada celda de la matriz almacena la frecuencia con la que 2 palabras aparecen juntas en un mismo contexto (por ejemplo, en la misma oración o párrafo) a lo largo de todo el corpus. Para cada par de palabras (i, j), la celda (i, j) de la matriz contiene un número que indica cuántas veces aparecen las palabras i y j juntas.
3. Estas matrices suelen ser grandes y dispersas (muchos ceros)
Generación del vector de palabra (enbedding)
1. Se crea un vector One-Hot para cada una de las palabras del vocabulario. Cada uno de estos vectores solo tiene un valor 1 en la posición de la palabra que representa, el resto de elementos es 0. Si nuestro vocabulario es de 1000 palabras el vector tendrá 999 ceros y 1 en la posición de la palabra que representa.
2. Se crea la matriz de vectores de palabra (o matriz de proyección) en base al vocabulario y número de dimensiones que se ha definido. Esta matriz tiene una fila para cada palabra en el vocabulario y una columna para cada dimensión en el espacio vectorial deseado. En el entrenamiento se inicializa esta matriz con valores aleatorios pequeños, pero que luego serán ajustados continuamente por medio de técnicas de optimización.
3. Para obtener la representación vectorial de una palabra objetivo en el espacio vectorial, se multiplica su vector one-hot por la matriz de proyección. Con lo cual ha generado el vector de palabra
Función de pérdida
1. Esta función cuantifica cuán diferentes son las predicciones del modelo de las palabras reales del contexto. Para eso en la variantes skip-gram de word2vec se utiliza el método “Muestreo negativo” con una función llamada “Binary Cross-Emtropy Loss”, el cual compara las probabilidades predichas por el modelo con las probabilidades reales.
2. Se selecciona ejemplos positivos y negativo. Para cada palabra objetivo en el corpus seleccionamos algunas palabras de su contexto como ejemplos positivos y algunas palabras que no están es su contexto como ejemplos negativo.
3. Se predicen las probabilidades. El modelo, por medio del cálculo de las distancias los vectores de palabras genera las probabilidades de que una palabra este en su contexto.
  1. Para los ejemplos positivos, el modelo calcula la probabilidad de que cada palabra real del contexto esté cerca de la palabra objetivo.
  2. Para los ejemplos negativos, el modelo también calcula la probabilidad de que las palabras que no están en el contexto estén cerca de la palabra objetivo.
  3. Finalmente, las probabilidades de ejemplos positivos y negativos se combinan para obtener la predicción total para la palabra objetivo. Esto se hace restando la probabilidad de los ejemplos negativos de la probabilidad de los ejemplos positivos. La idea es que la probabilidad total sea alta para las palabras del contexto real y baja para las palabras que no están en el contexto.
4. Se calcula la pérdida. Para ello se compara las probabilidades predichas con las probabilidades reales
Optimización
1. En este paso se quiere ajustar la matriz de vectores de palabras (o matriz de proyección) para minimizar la función de pérdida.
2. Se calcula el gradiente de la función de pérdida con respecto a los vectores de palabras. Estos gradientes indican el ajuste que deben hacerse a los vectores de palabra para reducir la pérdida.
3. Se actualiza los vectores de palabras. Para ello se multiplica los vectores de palabra por una tasa de aprendizaje Nuevo Vector = Vector Actual - Tasa de Aprendizaje * Gradiente
Iteración y convergencia
1. Se repite el proceso de cálculo de gradiente y actualización de vectores en múltiples épocas de entrenamiento
2. El entrenamiento continua hasta que la función de pérdida converge, es decir, deja de disminuir significativamente. Lo que indica que los vectores de palabra han aprendido efectivamente las relaciones semánticas del corpus

Patricio Sánchez Fernández

student•

Felicitaciones, Eber. Por buscar más información, eso demuestra interés en profundizar en el tema.

juan.carlos.gonzalez

student•

Muy buena Eber, esto me ayuda a entender mas en profundidad como se hacen los entenamientos

María Gracia Manrique Bárcena

student•

En el modelo Skip-Gram de Word2Vec, se busca predecir palabras de contexto dadas una palabra en el centro. Aquí te explico cómo se calcula el target y la predicción:

Target: Para cada palabra objetivo, se asigna un valor de 1 si está dentro de la ventana de contexto (palabras cercanas) y 0 si no lo está. Esto crea un vector de target donde cada posición representa la presencia o ausencia de una palabra específica en relación a la palabra central.
Predicción: Se utiliza una red neuronal que toma el vector de la palabra central como entrada. La salida es un vector que contiene las probabilidades de cada palabra en el vocabulario, calculadas mediante la función sigmoide. La red ajusta sus pesos mediante backpropagation, minimizando la diferencia entre el vector de predicción y el vector de target.

Este proceso iterativo permite que el modelo aprenda a identificar palabras semánticamente relacionadas.

Rommer Batista

student•

Al entrenar Skip Gram con gensim conviene usar varias épocas, activar hierarchical softmax si el vocabulario es muy amplio, pues disminuye el costo de los ejemplos negativos y mejora la representación de palabras raras

Mateo Montoya Henao

student•

Funcionamiento de Word2Vec

¿Qué es Word2Vec?

Word2Vec es un algoritmo de aprendizaje profundo utilizado para generar representaciones vectoriales de palabras, conocidas como word embeddings. Estas representaciones capturan las relaciones semánticas entre palabras, lo que permite a los modelos de procesamiento del lenguaje natural (NLP) comprender y procesar el texto de manera más efectiva.

Cómo Funciona Word2Vec

Word2Vec opera mediante dos arquitecturas principales: Continuous Bag of Words (CBOW) y Skip-Gram.

Continuous Bag of Words (CBOW):
- Definición: CBOW predice una palabra objetivo basada en las palabras de contexto que la rodean. Por ejemplo, si tienes la frase "El gato está en el jardín", CBOW intentará predecir la palabra "está" dado el contexto "El gato __ en el jardín".
- Funcionamiento: Se entrena para maximizar la probabilidad de la palabra objetivo dadas las palabras de contexto. Esto se logra mediante una red neuronal que aprende a mapear palabras a vectores de alta dimensión.
Skip-Gram:
- Definición: Skip-Gram es el inverso de CBOW. Predice las palabras de contexto dada una palabra objetivo. Por ejemplo, dado "está", el modelo intentará predecir "El gato __ en el jardín".
- Funcionamiento: Es especialmente efectivo para capturar relaciones semánticas finas y funciona bien con palabras raras en el conjunto de datos.

Proceso de Entrenamiento

Creación de Voculario: Se crea un diccionario de palabras y sus representaciones vectoriales iniciales.
Entrenamiento del Modelo: Se actualizan los vectores de palabras iterativamente para mejorar la capacidad del modelo de predecir palabras basadas en su contexto. Esto se logra mediante técnicas de aprendizaje automático como el descenso de gradiente.
Optimización de Hiperparámetros: Se ajustan parámetros como el tamaño de la ventana de contexto, el tamaño del vector y el número de épocas de entrenamiento para obtener la mejor performance.

Aplicaciones de Word2Vec

Sistemas de Recomendación: Utilizado en plataformas como Netflix y Amazon para sugerir contenido similar basado en preferencias del usuario.
Análisis de Sentimiento: Ayuda a identificar el tono emocional detrás de un texto, lo que es útil para análisis de opiniones en redes sociales.
Traducción Automática: Facilita la conversión de texto de un idioma a otro al capturar relaciones semánticas entre palabras.

Ventajas de Word2Vec

Eficiencia: Es altamente eficiente al tratar con grandes conjuntos de datos y puede capturar relaciones complejas entre palabras.
Analogías Semánticas: Puede entender analogías como "rey - hombre + mujer = reina", lo que lo hace poderoso para tareas que requieren comprensión de relaciones entre palabras.

Limitaciones

Palabras Raras: Puede tener problemas con palabras que aparecen pocas veces en el conjunto de datos.
Contexto Global: No captura el contexto global del texto, solo se centra en el contexto local alrededor de una palabra.

Conclusión

Word2Vec es una herramienta fundamental en NLP que permite convertir palabras en vectores que capturan su significado semántico. A través de sus dos arquitecturas principales, CBOW y Skip-Gram, puede predecir palabras basadas en su contexto y viceversa. Esto lo hace ideal para una amplia gama de aplicaciones, desde sistemas de recomendación hasta análisis de sentimiento y traducción automática.

Diego Parra

student•

Un muy buen articulo para entender word2vec: https://gist.github.com/aparrish/2f562e3737544cf29aaf1af30362f469