Análisis de Colocaciones con NLTK y Pandas en Python

Clase 12 de 24 • Curso de Fundamentos de Procesamiento de Lenguaje Natural con Python y NLTK

Contenido del curso

Introducción al Procesamiento de Lenguaje Natural

Fundamentos con NLTK

Perspectivas de lo que viene

24
Fundamentos del Procesamiento del Lenguaje Natural con NLTK
03:16 min

Resumen

Detectar combinaciones de palabras que aparecen juntas con una frecuencia inusualmente alta es una de las tareas más reveladoras del procesamiento de lenguaje natural. Utilizando bigramas extraídos del texto de Moby Dick, es posible construir una métrica estadística que señale con precisión cuáles de esas combinaciones son verdaderas colocaciones del idioma. A continuación se explica paso a paso cómo lograrlo con NLTK, Pandas y NumPy.

¿Qué son las colocaciones y por qué importan los bigramas filtrados?

Las colocaciones son secuencias de palabras que aparecen en textos y conversaciones con una frecuencia inusualmente alta, y existe evidencia estadística que lo respalda [0:42]. Esto quiere decir que no basta con contar cuántas veces aparece un par de palabras: se necesita una métrica que compare esa frecuencia con lo que se esperaría si las palabras fueran independientes.

El punto de partida es la lista de bigramas calculada previamente con NLTK sobre el texto de Moby Dick. Para trabajar solo con palabras significativas, se aplica un umbral de longitud (threshold) igual a dos caracteres [1:28]. De este modo se descartan artículos, preposiciones de una letra y otros elementos que aportan poco a la identificación de colocaciones.

Se construye una lista llamada filtered_bigrams donde cada palabra del bigrama tiene al menos dos caracteres.
Sobre esa lista se genera una distribución de frecuencias con FreqDist, almacenada en filtered_bigram_dist [2:08].

¿Cómo organizar los datos en un dataframe de Pandas?

Para calcular la métrica de forma ordenada se utiliza un dataframe de la librería Pandas, que funciona como una hoja de cálculo gestionada con código Python [2:30]. Se crea un dataframe vacío y se le añade una columna bigrams con los bigramas únicos, obtenidos mediante set() para eliminar repeticiones.

¿Cómo separar las palabras de cada bigrama?

Con la función apply y una función lambda se extraen la primera y la segunda palabra de cada tupla [3:50]:

df['word_0'] almacena el elemento cero de la tupla.
df['word_1'] almacena el elemento uno.

Esto genera un dataframe con tres columnas: el bigrama completo y sus dos palabras por separado.

¿Qué columnas de frecuencia se necesitan para el cálculo?

Además de la distribución de bigramas, se requiere una distribución de palabras filtradas (filtered_word_dist) construida con el mismo umbral de longitud [6:00]. Con ella se agregan tres columnas de frecuencia al dataframe:

bigram_freq: frecuencia de aparición del bigrama, obtenida con filtered_bigram_dist.
word_0_freq: frecuencia de la primera palabra, obtenida con filtered_word_dist.
word_1_freq: frecuencia de la segunda palabra [7:05].

Cada columna se calcula aplicando apply con una lambda que consulta la distribución correspondiente.

¿Cómo se calcula la métrica PMI para detectar colocaciones?

La PMI (pointwise mutual information o información mutua punto a punto) cuantifica cuánta información contiene un bigrama respecto a la aparición independiente de sus palabras [5:10]. Su fórmula divide la probabilidad conjunta del bigrama entre el producto de las probabilidades individuales de cada palabra, y al resultado se le aplica un logaritmo en base dos [9:20].

En Pandas se implementa seleccionando las tres columnas de frecuencia con doble corchete y aplicando una lambda que opera sobre x.values [8:40]:

python df['PMI'] = df[['bigram_freq','word_0_freq','word_1_freq']].apply( lambda x: np.log2(x.values[0] / (x.values[1] * x.values[2])), axis=1 )

El parámetro axis=1 indica que la operación se realiza fila por fila, no columna por columna; sin él, los valores resultan no numéricos (NaN) [10:15].

¿Qué significan los valores negativos del PMI?

Al ordenar el dataframe con sort_values en orden descendente sobre la columna PMI [10:50], se observa que la mayoría de valores son negativos. Esto ocurre porque la división dentro del logaritmo suele dar números menores a uno, y el logaritmo de un número menor a uno es negativo [11:25].

Los bigramas con PMI cercano a cero (los menos negativos) tienen mayor probabilidad de ser colocaciones.
Los bigramas con valores muy negativos corresponden a combinaciones poco informativas.

Ordenar y visualizar estos resultados permite identificar de forma sistemática las colocaciones reales del texto, apoyándose en evidencia estadística y no solo en la intuición.

Si has trabajado con otras métricas para identificar colocaciones o tienes dudas sobre la implementación, comparte tu experiencia en los comentarios.

Comentarios

Miguel Angel Velazquez Romero

student•

Por si quieren escribir la formula en Latex en su Notebook para que se vea bien bonita:

Aquí les dejo el código en Latex:

$P M I = log (\frac{P(w_1, w_2)}{P(w_1)P(w_2)})$

Saúl Mendoza

student•

Genial, gran aporte!

Christian Mahonry Colorado Bulbarela

student•

Me causa un poco de duda al sacar P(w_1,w_2) no tendríamos que dividir la columna entre el total de bigramas?

Geovany Uribe Aguirre

student•

Es lo mismo: Para que lo veas, lo que hice fue replicar el ejercicio del profesor, calculando las columnas tal como él lo hizo:

Pero también calculé 3 columnas adicionales, donde dividí por el total de bigramas, y de palabras en la lista (como tú dices) y les llamé "ARREGLO":

Calculé los PMI, el del profesor y el "ARREGLO", que es calculado con las columnas adicionales que calculé:

Luego hice una resta entre el PMI del profesor y el PMI_ARREGLO, y si observas, da una constante, por lo que el calcular como tú dices, lo único que cambia es la escala:

Francisco Camacho

teacher•

Efectivamente, considera lo siguiente:

P(w1) = frec(w1)/Total_tokens

P(w2) = frec(w2)/Total_tokens

P(w1, w2) = frec(w1, w2)/Total_bigramas

entonces:

PMI = P(w1, w2) / [P(w1) P(w2)]

PMI = (Total_tokens**2/Total_bigramas) * frec(w1, w2) / [frec(w1)frec(w2)]

PMI = constante * frec(w1, w2) / [frec(w1)frec(w2)]

Esto quiere decir que calcular esta metrica por probabilidades o por conteos es equivalente salvo un factor constante que es el mismo para todos los bigramas dentro del mismo corpus. Como son equivalentes, decido usar la metrica calculada por conteos porque es mas sencillo 😃

Angelica Landazabal

student•

Colocaciones: Son secuencias de palabras que ocurren en textos y conversaciones con una frecuencia inusualmente alta. Existe evidencia estadística de que estas palabras ocurren con esa frecuencia inusualmente alta, y esto nos da la idea de que podemos construir algunos números, algunas métricas que nos permiten identificar de manera sistemática estas colocaciones.

Carlos Chavez

student•

No me queda claro el porque la frecuencia de una palabra sea igual a la probabilidad de que este contenida en el texto.El PMI lo dan en función de probabilidades, pero en el ejercicio se usan frecuencias. Lo otro, es porque se utiliza log en base 2 y no en base 10

Francisco Camacho

teacher•

Carlos, considera lo siguiente:

P(w1) = frec(w1)/Total_tokens P(w2) = frec(w2)/Total_tokens P(w1, w2) = frec(w1, w2)/Total_bigramas

entonces:

PMI = P(w1, w2) / [P(w1) P(w2)] PMI = (Total_tokens**2/Total_bigramas) * frec(w1, w2) / [frec(w1)frec(w2)]

PMI = constante * frec(w1, w2) / [frec(w1)frec(w2)]

En cuanto a tu segunda pregunta, es común ver en algunos libros que decidan usar el blog en base 2, pero no hay problema si quieres usar otra base para el logaritmo, es un tema de convención, lo importante es que siempre uses la misma base de los para comparar diferentes cadenas de texto.

Juan Ventrone

student•

Francisco Camacho mis respeto, tremendo profesor

david ricardo munevar cancelado

student•

En la formula de PMI, lo que denotan como probabilidades no es congruente con el uso que se le dio. Deberían cambiarlo con conteo o frecuencia de los N-gramas y las palabras. Ya que se reemplazaron por estos y no por una probabilidad.

Jaime Andres Valencia Gaviria

student•

ten en cuenta que esa frecuencia hace referencia a una probabilidad puesto que se esta haciendo sobre una distribución estándar

Max Baldiviezo

student•

¿ Por que se soluciono el problema colocando axis = 1?

Jorge Francesco Ferdinand Meza Mallma

student•

Tengo la misma duda

Juan Antonio Aramburo Pasapera

student•

Evita usar apply en tu código

-- La razón: Tiende a ser lento.

Apply sirve para ejecutar cualquier cosa sobre el dataframe, lo malo de esto es que como es demasiado general es difícil de optimizar por lo que es muuy lento en comparación de otras funciones especializadas que pandas tiene.

Aquí una pregunta de stack overflow dondese discute.

https://stackoverflow.com/questions/54432583/when-should-i-not-want-to-use-pandas-apply-in-my-code

jimmy ibañez

student•

Que son?
- Son secuencias de palabras que suelen ocurrir ven textos o conversiones con una Frecuencia inusualmente alta
- Las colocaciones de una palabra son declaraciones formales de donde suele ubicarse típicamente esa palabra

Coding

reconstruimos la lista

md_bigrams = list(bigrams(text1))

threshold = 2

Ahora filtramos

filtered_bigrams = [bigram for bigram in md_bigrams if len(bigram[0])>threshold and len(bigram[1])>threshold]
filtered_bigram_dist = FreqDist(filtered_bigrams)

Ahora se introducen los Dataframes, el objeto dataframe gestiona columna y filas

df = pd.DataFrame()

df['bi_grams']=list(set(filtered_bigrams))

Separamos por palabras por cada bigrama

df['word_0']=df['bi_grams'].apply(lambda x: x[0])
df['word_1']=df['bi_grams'].apply(lambda x: x[1])

Para crear distribuciones de palabras filtrado

filtered_words = [word for word in text1 if len(word)>threshold]
filtered_words_dist = FreqDist(filtered_words)

y para agregarlo en el Datframe

df['bi_gram_freq'] = df['bi_grams'].apply (lambda x:filtered_bigram_dist[x])
df['word_0_freq']= df['word_0'].apply (lambda x:filtered_words_dist[x])
df['word_1_freq']=df['word_1'].apply (lambda x:filtered_words_dist[x])

PMI

df['PMI']= df[['bi_gram_freq', 'word_0_freq','word_1_freq']].apply(lambda x: np.log2(x.values[0]/(x.values[1]*x.values[2])), axis =1)

df.sort_values(by = 'PMI', ascending= False)

Jose de Jesus Herrera Ledon

student•

A lo mejor tuvieron el mismo problema que yo, word_0_freq y word_1_freq se obtienen de filtered_word_dist

df['bi_gram_freq'] = df['bi_grams'].apply(lambda x: filtered_bigram_dist[x]) 
df['word_0_freq'] = df['word_0'].apply(lambda x: filtered_word_dist[x])
df['word_1_freq'] = df['word_1'].apply(lambda x: filtered_word_dist[x])

Pero siguen siendo frecuencias, asi que la probabilidad, en terminos frecuentistas tal vez se deba cambiar a len(filtered_bigrams) /filtered_word_dist[x]

Guillermo Casanova

student•

De qué depende la base del logaritmo que escojamos? siempre va a ser 2?

Rodrigo Ramos Xochiteotzin

student•

Tengo una duda: ¿Se puede sacar la PMI de cualquier ngrama? De tres o más... ¿En cada caso tendría que sacarse el logaritmo de la probabilidad de x palabra dada la probabilidad de N palabras sobre la multiplicación de las probabilidades de cada palabra del ngrama?

Jorge Francesco Ferdinand Meza Mallma

student•

Creo que si se podría, hice una búsqueda rápida y no encontré nada en internet. Pero también sería menos probable encontrar conjuntos de palabras de 3 que den información relevantes.

Javier Romero

student•

Creo que hay un error en la explicación, en estadística el coeficiente de correlación entre dos o más variables es el que mide cuanta relación hay entre ellas, ahora el profesor dice que los valores tienden a cero (yo con los mismos datos y con otros he tenido diferentes resultados y no todos son menores que cero, por eso me puse a buscar mis apuntes de estadística xD).

Al grano, este coeficiente va desde -1 a 1 y determina que hay relación (positiva o negativa) siempre y cuando no sean cero, cuando el valor es cero significa que no hay relación, es decir que esas variables son independientes mientras que cuando vale 1, por ejemplo, significa que están completamente relacionados.

¿Esto que tiene que ver? Pues bien, tiene que ver en el hecho de que cuando estamos comparando estas listas de n-gramas lo que intentamos hacer es ver cuán relacionadas están entre ellas, por ejemplo, si estuviéramos hablando de España en un documento oficial seguramente habría "Reino de España" como una frase bastante común, con lo cual "reino" y "españa" tendrían que tener un PMI alto (en este caso por ejemplo 0.95) mientras que "silla" y "españa" probablemente tengan un PMI de 0.

Para terminar, creo que los valores no siempre son cero o negativos y de hecho no deberían serlo, si alguien comprende la razón del porqué indica el profe que mayormente salen valores negativos que lo indique por favor.

Jorge Francesco Ferdinand Meza Mallma

student•

tendrías que probar con simulaciones y ver sí eso es cierto o no

Rodrigo Ramos Xochiteotzin

student•

Si te quedaste con dudas de la función apply, no te preocupes, aquí te dejó la documentación de Pandas para que le eches un ojo.

Gabriel Missael Barco

student•

Ojo que en el cálculo no estamos normalizando las probabilidades, pero todos los PMI son proporcionales a sus valores reales por una constante, y podemos dejarlo así siempre y cuando únicamente nos importe el orden de PMI entre bigramas y no el valor exácto del PMI, en cuyo caso sería necesario normalizar :thinking:

German Homero Moran Figueroa

student•

¿Qué son las colocaciones ?

Jorge Francesco Ferdinand Meza Mallma

student•

Son secuencias de palabras que ocurren en textos y conversaciones con una frecuencia inusualmente alta. Existe evidencia estadística de que estas palabras ocurren con esa frecuencia inusualmente alta, y esto nos da la idea de que podemos construir algunos números, algunas métricas que nos permiten iden

Ignacio Eiguren

student•

Recomiendo este video para comprender mejor la idea de COLOCACION: https://www.youtube.com/watch?v=kH4r2rtRLZ8

Edward Toledo López

student•

¿Alguien sabe cómo escribir ecuaciones en una Notebook? Ya sea Jupyter o Colab

dalai aguirre jimenez

student•

puedes leer la documentacion de jupyter para escribir los simbolos que necesites https://jupyter-notebook.readthedocs.io/en/stable/examples/Notebook/Typesetting%20Equations.html

Edward Toledo López

student•

Esta buenísimo! Muchas gracias!

- -

student•

Por si no quedo muy claro el concepto de PMI este articulo lo explica bastante bien. Understanding Pointwise Mutual Information in NLP

Gabriel Obregón

student•

🎯Identificación de Colocaciones con PMI

🧠 ¿Qué es una colocación?

✨ Son grupos de palabras que tienden a aparecer juntas con más frecuencia de la esperada al azar. 👉 Ejemplo:

“tomar decisiones”
“fuerte evidencia”
“lluvia torrencial”

💬 Indican una relación semántica o lingüística entre las palabras.

🎯 Objetivo

Analizar un texto para descubrir qué combinaciones de palabras son colocaciones reales, usando herramientas de procesamiento de lenguaje natural (NLP) y métricas estadísticas como el PMI.

🧩 Etapas del proceso

1️⃣ Extraer bigramas → pares consecutivos de palabras.

2️⃣ Filtrar según un umbral (por ejemplo, longitud mínima).

3️⃣ Organizar los datos en un DataFrame para analizarlos fácilmente.

4️⃣ Calcular frecuencias de aparición (palabras y bigramas).

5️⃣ Aplicar PMI para medir la fuerza de la relación.

6️⃣ Interpretar resultados → identificar colocaciones significativas.

🔎 Interpretación de los resultados

📈 PMI alto → Las palabras aparecen juntas con frecuencia mucho mayor de la esperada. ➡️ Son colocaciones fuertes.

⚖️ PMI cercano a 0 → Correlación moderada o débil.

📉 PMI negativo → Las palabras casi nunca aparecen juntas.

💡 Conclusión: Los bigramas con PMI más alto representan las colocaciones más significativas en el texto.

🚀 Aplicaciones y utilidad

✔️ Analizar relaciones semánticas entre palabras.

✔️ Mejorar modelos de lenguaje y traducción automática.

✔️ Detectar patrones naturales del habla y escritura.

✔️ Optimizar motores de búsqueda y sistemas de recomendación.

Análisis de Colocaciones con NLTK y Pandas en Python

Introducción al Procesamiento de Lenguaje Natural

Fundamentos del Procesamiento de Lenguaje Natural con Python y NLTK

Evolución y Técnicas del Procesamiento del Lenguaje Natural

Procesamiento del Lenguaje Natural con Python y NLTK

Fundamentos con NLTK

Procesamiento de Lenguaje Natural con Python en Google Colab

Expresiones Regulares en Python: Patrones de Búsqueda Avanzados

Tokenización de Texto con Expresiones Regulares en Python

Estadística para Procesamiento del Lenguaje: Riqueza Léxica y Métricas

Cálculo de frecuencias con NLTK y diccionarios en Python

Filtrado y Visualización de Frecuencias de Palabras con NLTK y NumPy

Estadísticas de Ennegramas y Colocaciones en Textos

Extracción de Ngramas y Bigramas con NLTK en Python

Análisis de Colocaciones con NLTK y Pandas en Python

Visualización de Colocaciones en Textos con Pandas y Plotly

Identificación de Colocaciones en Textos con NLTK y PMI

Recursos Léxicos: Uso y Aplicación en Procesamiento del Lenguaje

Recursos Léxicos en Python: Vocabularios, Frecuencias y Stopwords

Traducción de palabras con Swadesh en procesamiento de lenguaje natural

Uso de WarNet para Procesamiento del Lenguaje Natural

Análisis de Sinsets e Hipónimos con NLTK y WordNet en Google Colab

Medición de Similitud Semántica con WordNet en Python

Extracción y Procesamiento de Texto desde Páginas Web con NLTK

Organización de Código en Google Colab con Funciones y Módulos

Funciones y Buenas Prácticas en Google Colab y Python

Perspectivas de lo que viene

Fundamentos del Procesamiento del Lenguaje Natural con NLTK