Medición de Similitud Semántica con WordNet en Python

Clase 20 de 24 • Curso de Fundamentos de Procesamiento de Lenguaje Natural con Python y NLTK

Contenido del curso

Introducción al Procesamiento de Lenguaje Natural

Fundamentos con NLTK

Perspectivas de lo que viene

24
Fundamentos del Procesamiento del Lenguaje Natural con NLTK
03:16 min

Resumen

Medir qué tan cercanas son dos palabras en significado es una tarea fundamental en el procesamiento de lenguaje natural. WordNet ofrece funciones integradas que permiten calcular esa cercanía a partir de la estructura de grafos que conecta sus synsets, los conjuntos de sinónimos asociados a cada palabra. A continuación se explica paso a paso cómo construir una función en Python para obtener synsets y cómo usar la métrica path similarity para cuantificar la distancia semántica entre palabras.

¿Cómo construir una función para obtener los synsets de cualquier palabra?

El punto de partida es definir una función reutilizable que, dada una palabra en español, devuelva todos los synsets relacionados y los muestre de forma legible [0:30].

python def showsynths(word): ss = wn.synsets(word, lang='spa') for sin in ss: print(sin.name(), sin.definition()) for nombre in sin.lemma_names(): print(f' * {nombre}') return ss

wn.synsets(word, lang='spa') genera la lista completa de synsets vinculados a la palabra en español.
El primer for recorre cada synset e imprime su nombre y definición.
El for interno itera sobre los lemma names, es decir, las palabras que pertenecen a ese conjunto de sinónimos.
Aunque la entrada sea en español, los resultados aparecen en inglés porque WordNet mapea todo hacia su estructura original en ese idioma [1:42].

¿Qué resultados se obtienen con palabras concretas?

Al ejecutar showsynths('perro') se obtienen dos synsets: dog y rotter [2:00]. Con showsynths('gato') aparecen tres: cat, tom y dodger, que no todos se refieren al animal [2:20]. Y showsynths('animal') devuelve varias acepciones como animal, beast y dunce, esta última haciendo referencia al uso coloquial de llamar "animal" a alguien que hace algo tonto [2:50].

Este detalle es clave: una misma palabra puede tener múltiples synsets con significados muy distintos.

¿Por qué es necesario especificar el synset correcto?

Cuando se quiere medir similitud semántica, es imprescindible indicar en qué sentido se usa cada palabra [3:30]. Por ejemplo:

Para "perro" se selecciona el synset correspondiente a la mascota (dog).
Para "gato" se elige igualmente el synset de mascota (cat).
Para "animal" se toma la acepción de organismo vivo con movimiento voluntario.

Esta selección del contexto correcto es lo que permite obtener una similitud semántica precisa, ya que la función de distancia opera entre synsets específicos, no entre palabras ambiguas.

¿Cómo funciona la métrica path similarity?

La función path_similarity calcula la distancia entre dos synsets contando el número de vértices que los separan dentro del grafo jerárquico de WordNet [4:10].

python animal.path_similarity(perro) # 0.333 animal.path_similarity(gato) # 0.125 perro.path_similarity(perro) # 1.0

Un valor de 1.0 indica que los synsets son idénticos, es decir, la palabra comparada consigo misma.
Valores cercanos a 0 indican palabras semánticamente muy distantes.
En el ejemplo, "animal" obtiene 0.333 de similitud con "perro" y solo 0.125 con "gato", lo que refleja que en la estructura léxica del español (y del inglés), la palabra animal está semánticamente más cercana a perro que a gato [5:30].

¿Qué errores comunes pueden surgir al asignar variables?

Durante el ejercicio se presentó un error frecuente: asignar la variable gato al primer elemento de la lista ss en lugar de ss2 [5:00]. Al reutilizar la misma lista, ambas variables apuntaban al mismo synset y el resultado era idéntico. Corregir la referencia a la lista correcta produjo valores distintos y coherentes. Este tipo de descuido al manejar variables es habitual y conviene verificar siempre que cada synset provenga de la lista adecuada.

¿Qué aplicaciones tiene esta medida de similitud?

Con la similitud basada en caminos (path similarity) se obtiene una métrica normalizada entre 0 y 1 que permite comparar pares de palabras de forma cuantitativa. Esto resulta útil en tareas como clasificación de textos, desambiguación de sentido y sistemas de recomendación basados en contenido.

Si has probado WordNet con otras palabras y obtuviste resultados inesperados, comparte tu experiencia: ¿qué pares de palabras te sorprendieron por su cercanía o lejanía semántica?

Comentarios

Lenik Rafael Vazquez

student•

def show_syns(word):
  ss = wn.synsets(word, lang='spa')
  for syn in ss:
    print(syn.name(),' : ',syn.definition())
    for name in syn.lemma_names():
      print('*', name)
  return(ss)

ss = show_syns('perro')
ss2 = show_syns('gato')
ss3 = show_syns('animal')

perro = ss[0]
gato = ss2[0]
animal = ss3[0]

animal.path_similarity(perro)

animal.path_similarity(gato)

Marcelo Sánchez

student•

Muy buena aplicación para las WordNet, según tengo entendido ahora se usan conceptos del álgebra lineal para determinar la relación entre las palabras, no sabría decir si el concepto se aplicaría aquí, ya que con wordnet estamos analizando la relación de la palabra con su respectivo idioma.

El ejemplo de la palabra perro, en el español, tiene más peso que la palabra gato a la hora de compararlo con la palabra animal.

Jhon Freddy Tavera Blandon

student•

La Similitud Semántica en WordNet permite medir qué tan cercanos están dos conceptos dentro de la red semántica. Usando métricas como Path Similarity, Wu-Palmer y Leacock-Chodorow, puedes obtener diferentes perspectivas sobre la relación entre conceptos.

- -

student•

Cual es la razón por la cual "animal" es 0.333 cercana a "perro" pero solo 0.125 cercana a "gato" siendo estos basicamente la misma cosa (i.e.: animales, las dos principales mascotas domesticas, etc). No deberían arrojar valores mucho mas similares?

Juan Sebastian Olarte Uribe

student•

Es debido a la estructura hiperónimos e hipónimos de Wornet, yo tenía la misma duda y use la herramienta de graficación vista en la anterior clase, donde queda más clara la diferencia ya que se puede ver como perro tiene a domestic_animal como hiperónimo extra, mientras gato solo tiene a feline.

Perro:

Gato:

Yeltsin Castro Loaiza

student•

ponle ss en lugar de ss2 y ya :) jaja

Jhon Freddy Tavera Blandon

student•

La Similitud Semántica es una métrica que determina qué tan similares son dos conceptos (synsets) dentro de una red semántica como WordNet. En WordNet, esta similitud se puede medir usando varias métricas basadas en las relaciones jerárquicas (hipónimos e hiperónimos) entre los synsets.

Principales Métodos para Calcular la Similitud en WordNet

Path Similarity: Mide la similitud en función de la longitud del camino más corto que conecta dos synsets en la jerarquía de WordNet.
Wu-Palmer Similarity: Mide la similitud en función de la profundidad de los synsets más comunes y su posición en la jerarquía.
Leacock-Chodorow Similarity: Calcula la similitud en función de la longitud más corta entre dos synsets y la profundidad de la jerarquía.

Ejemplo de Cálculo de Similitud Semántica en WordNet

Vamos a ver cómo calcular la similitud semántica entre dos palabras, por ejemplo: "car" y "bus".

1. Instalación y Preparación

Asegúrate de tener descargados los recursos de WordNet.

pythonCopiar códigoimport nltk nltk.download('wordnet') nltk.download('omw-1.4')

2. Cálculo de Similitud con WordNet

A continuación, te muestro cómo calcular la similitud usando diferentes métricas.

pythonCopiar códigofrom nltk.corpus import wordnet as wn

# Obtener los synsets de las palabras car = wn.synset('car.n.01') # synset de 'car' (coche) bus = wn.synset('bus.n.01') # synset de 'bus' (autobús)

# 1. Path Similarity path_similarity = car.path_similarity(bus) print(f"Path Similarity entre 'car' y 'bus': {path_similarity}")

# 2. Wu-Palmer Similarity wup_similarity = car.wup_similarity(bus) print(f"Wu-Palmer Similarity entre 'car' y 'bus': {wup_similarity}")

# 3. Leacock-Chodorow Similarity lch_similarity = car.lch_similarity(bus) print(f"Leacock-Chodorow Similarity entre 'car' y 'bus': {lch_similarity}")

Explicación de los Métodos:

Path Similarity: Devuelve un valor entre 0 y 1, donde 1 significa que los conceptos son idénticos en la jerarquía de WordNet.
- Ejemplo: car.path_similarity(bus) podría devolver 0.2, lo que significa que los conceptos están relacionados pero no son extremadamente cercanos.
Wu-Palmer Similarity: Calcula la similitud basado en la profundidad de los conceptos y su ancestro común más cercano. También devuelve un valor entre 0 y 1.
- Ejemplo: car.wup_similarity(bus) podría devolver 0.9 si los conceptos son bastante cercanos.
Leacock-Chodorow Similarity: Calcula la similitud como un logaritmo de la longitud del camino más corto entre los dos synsets dividido por el número máximo de nodos en la jerarquía.
- Ejemplo: car.lch_similarity(bus) podría devolver un valor de 2.251.

Ejemplo Comparando "car" y "bicycle"

Puedes comparar otros objetos para ver cómo cambia la similitud:

pythonCopiar códigobicycle = wn.synset('bicycle.n.01')

# Comparar car con bicycle path_similarity_cb = car.path_similarity(bicycle) print(f"Path Similarity entre 'car' y 'bicycle': {path_similarity_cb}")

wup_similarity_cb = car.wup_similarity(bicycle) print(f"Wu-Palmer Similarity entre 'car' y 'bicycle': {wup_similarity_cb}")

Visualización de Similitud con Gráficos

Si quieres visualizar los resultados de las similitudes, podrías utilizar Matplotlib o Plotly. Por ejemplo, con Plotly:

pythonCopiar códigoimport plotly.graph_objs as go

# Datos para visualización labels = ['Car vs Bus', 'Car vs Bicycle'] similarities = [path_similarity, path_similarity_cb]

# Crear gráfico de barras con Plotly fig = go.Figure([go.Bar(x=labels, y=similarities)])

# Títulos fig.update_layout(title="Comparación de Similitud de Camino", xaxis_title="Comparación", yaxis_title="Similitud", template='plotly_white')

fig.show()

Conclusión

¿Te gustaría que trabajáramos con algún otro ejemplo o concepto?

Juan Ventrone

student•

Que brutal este curso!

Gabriel Obregón

student•

🧠 SIMILITUD SEMÁNTICA con WordNet

🎯 Objetivo

Medir cuán parecidos son los significados de animal, gato y perro usando WordNet (synsets) y path_similarity.

🔎 Idea Clave

🧩 Synsets = conjuntos de sinónimos que representan un concepto. 🌳 WordNet organiza conceptos en una jerarquía → podemos medir distancias entre ellos. 📏 Similitud ∈ [0, 1]:

1.0 → mismo concepto
cerca de 0 → muy distintos

🧰 Herramienta rápida

import nltk

from nltk.corpus import wordnet as wn

# nltk.download('wordnet'); nltk.download('omw-1.4')

def show_synset(word, language='spa'):

ss = wn.synsets(word, lang=language)

for syn in ss:

print(f'{syn.name()} - {syn.definition()}')

for lemma in syn.lemma_names(lang=language):

print(f'* {lemma}')

return ss

💡 Tip visual: Piensa en show_synset() como una lupa que te deja ver “todos los sentidos” de una palabra para elegir el que mejor encaja en tu contexto.

🐾 Explora y elige el sentido correcto

sinsets_perro = show_synset("perro") # ↩️ inspecciona y elige

sinsets_gato = show_synset("gato") # ↩️ inspecciona y elige

sinsets_animal = show_synset("animal") # ↩️ inspecciona y elige

🎛️ Selección consciente (no automática):

“perro” → synset relacionado con dog
“gato” → synset relacionado con cat
“animal” → synset de organismo vivo / ser vivo

⚠️ Tomar el primer synset es un atajo para demos; para calidad, elige explícitamente.

⚙️ Calcula la similitud

perro = sinsets_perro[0]

gato = sinsets_gato[0]

animal = sinsets_animal[0]

sim_animal_perro = animal.path_similarity(perro)

sim_animal_gato = animal.path_similarity(gato)

print("animal ~ perro:", sim_animal_perro)

print("animal ~ gato :", sim_animal_gato)

📈 Lee el número como…

Alto (≈1) → muy cercanos en la jerarquía
Medio → relacionados, pero no iguales
Bajo (≈0) → casi sin relación

🧭 Mapa mental express

Explorar → Elegir → Medir → Interpretar → Aplicar

🔍 Explora synsets (show_synset)
✅ Elige el sentido que representa tu contexto
🧮 Mide con path_similarity
🧠 Interpreta (0 a 1, depende del sentido)
🚀 Aplica donde aporte valor

David Pinchao

student•

Que libreria exacta remplaza a wordnet en la actualidad?

Ariel Sharpe

student•

Hola David, el profesor comento que en la actualidad wordnet fue remansada por redes neuronales.

Fredy Alberto Orozco Loaiza

student•

Hoy se habla más que todo de espacios vectoriales de palabras. Existen muchos métodos, pero el que es más común es usar la salida de una red neuronal ya pre-entrenada y la similitud entre palabras se mide con la distancia coseno. El más conocido es word2vec. (https://www.youtube.com/watch?v=RkYuH_K7Fx4) como tal una forma de verlos es aplicar a la salida un PCA para reducir a 3 dimensiones y poder tener una idea de como distribuye las palabras. La razón por la que su usan las rede neuronales es porque se puede capturar ya es el significado de una frase más no una palabra individual

Nydia Mejía Zavala

student•

¿Puede haber sesgo de género en WordNet? Este recurso léxico, como muchos otros, puede reflejar y perpetuar estereotipos de género presentes en la sociedad. Por ejemplo, ciertas palabras pueden asociarse más comúnmente con un género específico, lo que puede influir en el procesamiento del lenguaje natural y en la interpretación de las relaciones semánticas. Es importante ser consciente de estos sesgos al trabajar con modelos de lenguaje y en aplicaciones de procesamiento de lenguaje natural, ya que pueden afectar la equidad y la representación en los resultados. Identificar el sesgo de género en WordNet implica analizar las definiciones y sinónimos asociados a palabras específicas.

Javier Guevara

student•

A mi me dió diferente el resultado cuando calculé:

animal.path_similarity(perro)

Me dió 0.09090909

Yeison Tapasco

student•

Hola Javier, revisa por favor la definición de los ss

def show_syns(word):
  ss = wn.synsets(word, lang='spa')
  for syn in ss:
    print(syn.name(),' : ',syn.definition())
    for name in syn.lemma_names():
      print('*', name)
  return(ss)

ss = show_syns('perro')
ss2 = show_syns('gato')
ss3 = show_syns('animal')

perro = ss[0]
gato = ss2[0]
animal = ss3[0]

animal.path_similarity(perro)

animal.path_similarity(gato)

Medición de Similitud Semántica con WordNet en Python

Introducción al Procesamiento de Lenguaje Natural

Fundamentos del Procesamiento de Lenguaje Natural con Python y NLTK

Evolución y Técnicas del Procesamiento del Lenguaje Natural

Procesamiento del Lenguaje Natural con Python y NLTK

Fundamentos con NLTK

Procesamiento de Lenguaje Natural con Python en Google Colab

Expresiones Regulares en Python: Patrones de Búsqueda Avanzados

Tokenización de Texto con Expresiones Regulares en Python

Estadística para Procesamiento del Lenguaje: Riqueza Léxica y Métricas

Cálculo de frecuencias con NLTK y diccionarios en Python

Filtrado y Visualización de Frecuencias de Palabras con NLTK y NumPy

Estadísticas de Ennegramas y Colocaciones en Textos

Extracción de Ngramas y Bigramas con NLTK en Python

Análisis de Colocaciones con NLTK y Pandas en Python

Visualización de Colocaciones en Textos con Pandas y Plotly

Identificación de Colocaciones en Textos con NLTK y PMI

Recursos Léxicos: Uso y Aplicación en Procesamiento del Lenguaje

Recursos Léxicos en Python: Vocabularios, Frecuencias y Stopwords

Traducción de palabras con Swadesh en procesamiento de lenguaje natural

Uso de WarNet para Procesamiento del Lenguaje Natural

Análisis de Sinsets e Hipónimos con NLTK y WordNet en Google Colab

Medición de Similitud Semántica con WordNet en Python

Extracción y Procesamiento de Texto desde Páginas Web con NLTK

Organización de Código en Google Colab con Funciones y Módulos

Funciones y Buenas Prácticas en Google Colab y Python

Perspectivas de lo que viene

Fundamentos del Procesamiento del Lenguaje Natural con NLTK