Análisis de Colocaciones con NLTK y Pandas en Python

Clase 12 de 24 • Curso de Fundamentos de Procesamiento de Lenguaje Natural con Python y NLTK

Resumen

¿Cómo identificar colocaciones en un texto?

Trabajar con procesamiento de lenguaje natural (NLP) nos introduce a conceptos ricos y útiles para analizar textos de manera automatizada. Uno de estos conceptos clave son las colocaciones, las cuales son secuencias de palabras que ocurren juntas de manera inusualmente frecuente dentro de un texto. En esta clase, vamos a explorar cómo identificar estas colocaciones utilizando herramientas estadísticas y métricas especiales, concretamente el PMI (Pointwise Mutual Information).

¿Qué son las colocaciones y cómo identificarlas?

Las colocaciones son secuencias de palabras que aparecen juntas con una frecuencia significativamente alta, evidenciando una relación entre ellas más allá de lo aleatorio. Para identificarlas, podemos usar métodos estadísticos como el cálculo de bigramas y filtrar aquellos con frecuencia notable mediante un umbral establecido.

Ejemplo de bigramas y su filtrado

Para definir una lista de bigramas, utilizamos el siguiente código en Python:

import nltk
from nltk import bigrams

# Suponiendo que 'text' es una lista de palabras en nuestro texto
bigram_list = list(bigrams(text))

Una vez definida la lista inicial, se filtran los bigramas usando un umbral basado en la longitud de palabras:

threshold = 2
filtered_bigrams = [bigram for bigram in bigram_list if len(bigram[0]) >= threshold and len(bigram[1]) >= threshold]

Con esto, obtenemos una lista más precisa que podemos analizar más a fondo.

¿Cómo utilizar los data frames en el análisis de bigramas?

En el análisis de NLP, los data frames de la librería Pandas son útiles para estructurar y manipular datos de bigramas de manera eficiente, similar a una hoja de cálculo en Excel.

Creación y manipulación de un Data Frame

Para crear un data frame:

import pandas as pd

df = pd.DataFrame()
df['bigrams'] = list(set(filtered_bigrams))  # Creación del data frame sin repeticiones.

Podemos extender esta estructura añadiendo columnas adicionales que separen las palabras de los bigramas:

df['word_0'] = df['bigrams'].apply(lambda x: x[0])
df['word_1'] = df['bigrams'].apply(lambda x: x[1])

Estas columnas nos permiten un mejor análisis y manipulación de cada componente del bigrama.

¿Qué es el PMI y cómo se aplica en la identificación de colocaciones?

El PMI nos ofrece una forma de cuantificar cuán dependientes o asociadas están dos palabras en un bigrama. Su fórmula matemática se basa en las probabilidades de aparición tanto conjunta como individual de las palabras.

Cálculo de probabilidades y PMI

Primero se calculan las frecuencias necesarias:

import nltk

# Distribuciones de frecuencia
bigrams_freq = nltk.FreqDist(filtered_bigrams)
word_0_freq = nltk.FreqDist([word for (word, _) in filtered_bigrams])
word_1_freq = nltk.FreqDist([word for (_, word) in filtered_bigrams])

df['bigram_freq'] = df['bigrams'].apply(lambda x: bigrams_freq[x])
df['word_0_freq'] = df['word_0'].apply(lambda x: word_0_freq[x])
df['word_1_freq'] = df['word_1'].apply(lambda x: word_1_freq[x])

Posteriormente, implementamos el cálculo del PMI:

import numpy as np

df['PMI'] = df.apply(lambda x: np.log2(
    x['bigram_freq'] / (x['word_0_freq'] * x['word_1_freq'])
), axis=1)

Interpretación de resultados de PMI

Un valor alto de PMI sugiere que el bigrama representa una colocación significativa, ya que las palabras aparecen juntas seis veces más de lo esperado si fueran independientes. La clave está en identificar aquellos bigramas con valores de PMI cercanos a cero, indicando mayor correlación positiva.

A través de este análisis, hemos desarrollado una manera sistemática de identificar colocaciones utilizando estadísticas y técnicas de programación. Esto no solo nos enriquece en términos de procesamiento del lenguaje, sino que también nos ayuda a crear aplicaciones más precisas y entendimientos más profundos del texto. Sigue explorando y aplicando estos métodos para mejorar tus habilidades en analítica de texto. ¡El potencial es vasto!

Miguel Angel Velazquez Romero

student•

Por si quieren escribir la formula en Latex en su Notebook para que se vea bien bonita:

Aquí les dejo el código en Latex:

$P M I = log (\frac{P(w_1, w_2)}{P(w_1)P(w_2)})$

Saúl Mendoza

student•

Genial, gran aporte!

Christian Mahonry Colorado Bulbarela

student•

Me causa un poco de duda al sacar P(w_1,w_2) no tendríamos que dividir la columna entre el total de bigramas?

Geovany Uribe Aguirre

student•

Es lo mismo: Para que lo veas, lo que hice fue replicar el ejercicio del profesor, calculando las columnas tal como él lo hizo:

Pero también calculé 3 columnas adicionales, donde dividí por el total de bigramas, y de palabras en la lista (como tú dices) y les llamé "ARREGLO":

Calculé los PMI, el del profesor y el "ARREGLO", que es calculado con las columnas adicionales que calculé:

Luego hice una resta entre el PMI del profesor y el PMI_ARREGLO, y si observas, da una constante, por lo que el calcular como tú dices, lo único que cambia es la escala:

Francisco Camacho

teacher•

Efectivamente, considera lo siguiente:

P(w1) = frec(w1)/Total_tokens

P(w2) = frec(w2)/Total_tokens

P(w1, w2) = frec(w1, w2)/Total_bigramas

entonces:

PMI = P(w1, w2) / [P(w1) P(w2)]

PMI = (Total_tokens**2/Total_bigramas) * frec(w1, w2) / [frec(w1)frec(w2)]

PMI = constante * frec(w1, w2) / [frec(w1)frec(w2)]

Esto quiere decir que calcular esta metrica por probabilidades o por conteos es equivalente salvo un factor constante que es el mismo para todos los bigramas dentro del mismo corpus. Como son equivalentes, decido usar la metrica calculada por conteos porque es mas sencillo 😃

Angelica Landazabal

student•

Colocaciones: Son secuencias de palabras que ocurren en textos y conversaciones con una frecuencia inusualmente alta. Existe evidencia estadística de que estas palabras ocurren con esa frecuencia inusualmente alta, y esto nos da la idea de que podemos construir algunos números, algunas métricas que nos permiten identificar de manera sistemática estas colocaciones.

Carlos Chavez

student•

No me queda claro el porque la frecuencia de una palabra sea igual a la probabilidad de que este contenida en el texto.El PMI lo dan en función de probabilidades, pero en el ejercicio se usan frecuencias. Lo otro, es porque se utiliza log en base 2 y no en base 10

Francisco Camacho

teacher•

Carlos, considera lo siguiente:

P(w1) = frec(w1)/Total_tokens P(w2) = frec(w2)/Total_tokens P(w1, w2) = frec(w1, w2)/Total_bigramas

entonces:

PMI = P(w1, w2) / [P(w1) P(w2)] PMI = (Total_tokens**2/Total_bigramas) * frec(w1, w2) / [frec(w1)frec(w2)]

PMI = constante * frec(w1, w2) / [frec(w1)frec(w2)]

En cuanto a tu segunda pregunta, es común ver en algunos libros que decidan usar el blog en base 2, pero no hay problema si quieres usar otra base para el logaritmo, es un tema de convención, lo importante es que siempre uses la misma base de los para comparar diferentes cadenas de texto.

Juan Ventrone

student•

Francisco Camacho mis respeto, tremendo profesor

david ricardo munevar cancelado

student•

En la formula de PMI, lo que denotan como probabilidades no es congruente con el uso que se le dio. Deberían cambiarlo con conteo o frecuencia de los N-gramas y las palabras. Ya que se reemplazaron por estos y no por una probabilidad.

Jaime Andres Valencia Gaviria

student•

ten en cuenta que esa frecuencia hace referencia a una probabilidad puesto que se esta haciendo sobre una distribución estándar

Max Baldiviezo

student•

¿ Por que se soluciono el problema colocando axis = 1?

Jorge Francesco Ferdinand Meza Mallma

student•

Tengo la misma duda

Juan Antonio Aramburo Pasapera

student•

Evita usar apply en tu código

-- La razón: Tiende a ser lento.

Apply sirve para ejecutar cualquier cosa sobre el dataframe, lo malo de esto es que como es demasiado general es difícil de optimizar por lo que es muuy lento en comparación de otras funciones especializadas que pandas tiene.

Aquí una pregunta de stack overflow dondese discute.

https://stackoverflow.com/questions/54432583/when-should-i-not-want-to-use-pandas-apply-in-my-code

jimmy ibañez

student•

Que son?
- Son secuencias de palabras que suelen ocurrir ven textos o conversiones con una Frecuencia inusualmente alta
- Las colocaciones de una palabra son declaraciones formales de donde suele ubicarse típicamente esa palabra

Coding

reconstruimos la lista

md_bigrams = list(bigrams(text1))

threshold = 2

Ahora filtramos

filtered_bigrams = [bigram for bigram in md_bigrams if len(bigram[0])>threshold and len(bigram[1])>threshold]
filtered_bigram_dist = FreqDist(filtered_bigrams)

Ahora se introducen los Dataframes, el objeto dataframe gestiona columna y filas

df = pd.DataFrame()

df['bi_grams']=list(set(filtered_bigrams))

Separamos por palabras por cada bigrama

df['word_0']=df['bi_grams'].apply(lambda x: x[0])
df['word_1']=df['bi_grams'].apply(lambda x: x[1])

Para crear distribuciones de palabras filtrado

filtered_words = [word for word in text1 if len(word)>threshold]
filtered_words_dist = FreqDist(filtered_words)

y para agregarlo en el Datframe

df['bi_gram_freq'] = df['bi_grams'].apply (lambda x:filtered_bigram_dist[x])
df['word_0_freq']= df['word_0'].apply (lambda x:filtered_words_dist[x])
df['word_1_freq']=df['word_1'].apply (lambda x:filtered_words_dist[x])

PMI

df['PMI']= df[['bi_gram_freq', 'word_0_freq','word_1_freq']].apply(lambda x: np.log2(x.values[0]/(x.values[1]*x.values[2])), axis =1)

df.sort_values(by = 'PMI', ascending= False)

Jose de Jesus Herrera Ledon

student•

A lo mejor tuvieron el mismo problema que yo, word_0_freq y word_1_freq se obtienen de filtered_word_dist

df['bi_gram_freq'] = df['bi_grams'].apply(lambda x: filtered_bigram_dist[x]) 
df['word_0_freq'] = df['word_0'].apply(lambda x: filtered_word_dist[x])
df['word_1_freq'] = df['word_1'].apply(lambda x: filtered_word_dist[x])

Pero siguen siendo frecuencias, asi que la probabilidad, en terminos frecuentistas tal vez se deba cambiar a len(filtered_bigrams) /filtered_word_dist[x]

Guillermo Casanova

student•

De qué depende la base del logaritmo que escojamos? siempre va a ser 2?

Rodrigo Ramos Xochiteotzin

student•

Tengo una duda: ¿Se puede sacar la PMI de cualquier ngrama? De tres o más... ¿En cada caso tendría que sacarse el logaritmo de la probabilidad de x palabra dada la probabilidad de N palabras sobre la multiplicación de las probabilidades de cada palabra del ngrama?

Jorge Francesco Ferdinand Meza Mallma

student•

Creo que si se podría, hice una búsqueda rápida y no encontré nada en internet. Pero también sería menos probable encontrar conjuntos de palabras de 3 que den información relevantes.

Javier Romero

student•

Creo que hay un error en la explicación, en estadística el coeficiente de correlación entre dos o más variables es el que mide cuanta relación hay entre ellas, ahora el profesor dice que los valores tienden a cero (yo con los mismos datos y con otros he tenido diferentes resultados y no todos son menores que cero, por eso me puse a buscar mis apuntes de estadística xD).

Al grano, este coeficiente va desde -1 a 1 y determina que hay relación (positiva o negativa) siempre y cuando no sean cero, cuando el valor es cero significa que no hay relación, es decir que esas variables son independientes mientras que cuando vale 1, por ejemplo, significa que están completamente relacionados.

¿Esto que tiene que ver? Pues bien, tiene que ver en el hecho de que cuando estamos comparando estas listas de n-gramas lo que intentamos hacer es ver cuán relacionadas están entre ellas, por ejemplo, si estuviéramos hablando de España en un documento oficial seguramente habría "Reino de España" como una frase bastante común, con lo cual "reino" y "españa" tendrían que tener un PMI alto (en este caso por ejemplo 0.95) mientras que "silla" y "españa" probablemente tengan un PMI de 0.

Para terminar, creo que los valores no siempre son cero o negativos y de hecho no deberían serlo, si alguien comprende la razón del porqué indica el profe que mayormente salen valores negativos que lo indique por favor.

Jorge Francesco Ferdinand Meza Mallma

student•

tendrías que probar con simulaciones y ver sí eso es cierto o no

Rodrigo Ramos Xochiteotzin

student•

Si te quedaste con dudas de la función apply, no te preocupes, aquí te dejó la documentación de Pandas para que le eches un ojo.

Gabriel Missael Barco

student•

Ojo que en el cálculo no estamos normalizando las probabilidades, pero todos los PMI son proporcionales a sus valores reales por una constante, y podemos dejarlo así siempre y cuando únicamente nos importe el orden de PMI entre bigramas y no el valor exácto del PMI, en cuyo caso sería necesario normalizar :thinking:

German Homero Moran Figueroa

student•

¿Qué son las colocaciones ?

Jorge Francesco Ferdinand Meza Mallma

student•

Son secuencias de palabras que ocurren en textos y conversaciones con una frecuencia inusualmente alta. Existe evidencia estadística de que estas palabras ocurren con esa frecuencia inusualmente alta, y esto nos da la idea de que podemos construir algunos números, algunas métricas que nos permiten iden

Ignacio Eiguren

student•

Recomiendo este video para comprender mejor la idea de COLOCACION: https://www.youtube.com/watch?v=kH4r2rtRLZ8

Edward Toledo López

student•

¿Alguien sabe cómo escribir ecuaciones en una Notebook? Ya sea Jupyter o Colab

dalai aguirre jimenez

student•

puedes leer la documentacion de jupyter para escribir los simbolos que necesites https://jupyter-notebook.readthedocs.io/en/stable/examples/Notebook/Typesetting%20Equations.html

Edward Toledo López

student•

Esta buenísimo! Muchas gracias!

- -

student•

Por si no quedo muy claro el concepto de PMI este articulo lo explica bastante bien. Understanding Pointwise Mutual Information in NLP

Gabriel Obregón

student•

🎯Identificación de Colocaciones con PMI

🧠 ¿Qué es una colocación?

✨ Son grupos de palabras que tienden a aparecer juntas con más frecuencia de la esperada al azar. 👉 Ejemplo:

“tomar decisiones”
“fuerte evidencia”
“lluvia torrencial”

💬 Indican una relación semántica o lingüística entre las palabras.

🎯 Objetivo

Analizar un texto para descubrir qué combinaciones de palabras son colocaciones reales, usando herramientas de procesamiento de lenguaje natural (NLP) y métricas estadísticas como el PMI.

🧩 Etapas del proceso

1️⃣ Extraer bigramas → pares consecutivos de palabras.

2️⃣ Filtrar según un umbral (por ejemplo, longitud mínima).

3️⃣ Organizar los datos en un DataFrame para analizarlos fácilmente.

4️⃣ Calcular frecuencias de aparición (palabras y bigramas).

5️⃣ Aplicar PMI para medir la fuerza de la relación.

6️⃣ Interpretar resultados → identificar colocaciones significativas.

🔎 Interpretación de los resultados

📈 PMI alto → Las palabras aparecen juntas con frecuencia mucho mayor de la esperada. ➡️ Son colocaciones fuertes.

⚖️ PMI cercano a 0 → Correlación moderada o débil.

📉 PMI negativo → Las palabras casi nunca aparecen juntas.

💡 Conclusión: Los bigramas con PMI más alto representan las colocaciones más significativas en el texto.

🚀 Aplicaciones y utilidad

✔️ Analizar relaciones semánticas entre palabras.

✔️ Mejorar modelos de lenguaje y traducción automática.

✔️ Detectar patrones naturales del habla y escritura.

✔️ Optimizar motores de búsqueda y sistemas de recomendación.

df['bi_gram_freq'] = df['bi_grams'].apply (lambda x:filtered_bigram_dist[x])
df['word_0_freq']= df['word_0'].apply (lambda x:filtered_words_dist[x])
df['word_1_freq']=df['word_1'].apply (lambda x:filtered_words_dist[x])

df['bi_gram_freq'] = df['bi_grams'].apply(lambda x: filtered_bigram_dist[x]) 
df['word_0_freq'] = df['word_0'].apply(lambda x: filtered_word_dist[x])
df['word_1_freq'] = df['word_1'].apply(lambda x: filtered_word_dist[x])

Análisis de Colocaciones con NLTK y Pandas en Python

Introducción al Procesamiento de Lenguaje Natural

Fundamentos del Procesamiento de Lenguaje Natural con Python y NLTK

Evolución y Técnicas del Procesamiento del Lenguaje Natural

Procesamiento del Lenguaje Natural con Python y NLTK

Fundamentos con NLTK

Procesamiento de Lenguaje Natural con Python en Google Colab

Expresiones Regulares en Python: Patrones de Búsqueda Avanzados

Tokenización de Texto con Expresiones Regulares en Python

Estadística para Procesamiento del Lenguaje: Riqueza Léxica y Métricas

Cálculo de frecuencias con NLTK y diccionarios en Python

Filtrado y Visualización de Frecuencias de Palabras con NLTK y NumPy

Estadísticas de Ennegramas y Colocaciones en Textos

Extracción de Ngramas y Bigramas con NLTK en Python

Análisis de Colocaciones con NLTK y Pandas en Python

Visualización de Colocaciones en Textos con Pandas y Plotly

Identificación de Colocaciones en Textos con NLTK y PMI

Recursos Léxicos: Uso y Aplicación en Procesamiento del Lenguaje

Recursos Léxicos en Python: Vocabularios, Frecuencias y Stopwords

Traducción de palabras con Swadesh en procesamiento de lenguaje natural

Uso de WarNet para Procesamiento del Lenguaje Natural

Análisis de Sinsets e Hipónimos con NLTK y WordNet en Google Colab

Medición de Similitud Semántica con WordNet en Python

Extracción y Procesamiento de Texto desde Páginas Web con NLTK

Organización de Código en Google Colab con Funciones y Módulos

Funciones y Buenas Prácticas en Google Colab y Python

Perspectivas de lo que viene

Fundamentos del Procesamiento del Lenguaje Natural con NLTK