Identificación de Colocaciones en Textos con NLTK y PMI

Clase 14 de 24 • Curso de Fundamentos de Procesamiento de Lenguaje Natural con Python y NLTK

Contenido del curso

Introducción al Procesamiento de Lenguaje Natural

Fundamentos con NLTK

Perspectivas de lo que viene

24
Fundamentos del Procesamiento del Lenguaje Natural con NLTK
03:16 min

Tomar examen

Resumen

¿Cómo identificar colocaciones en textos usando NLTK?

La identificación de colocaciones es esencial para comprender el uso del lenguaje en contextos específicos y resalta la importancia de ciertas palabras en conjunto. En este artículo, exploraremos cómo utilizar la biblioteca NLTK para encontrar colocaciones en textos, tanto en inglés como en español, de manera rápida y efectiva. Además, veremos cómo aplicar esta técnica en un corpus de titulares de noticias en español.

¿Qué es una colocación y por qué son útiles?

Las colocaciones son combinaciones de palabras que ocurren juntas con más frecuencia de la que esperaríamos por azar. Pueden incluir nombres propios, términos técnicos o combinaciones de palabras que ofrecen más significado juntas que por separado.

Ejemplos de colocaciones comunes

"Make a decision" (tomar una decisión)
"Strong coffee" (café fuerte)
"Business school" (escuela de negocios)

Estas combinaciones ayudan a comprender mejor el contexto de un texto al destacar las relaciones semánticas esenciales.

¿Qué herramientas ofrece NLTK para trabajar con colocaciones?

NLTK proporciona una variedad de herramientas para analizar colocaciones en textos de forma sistemática. Uno de los métodos más relevantes es el uso del índice de Mutual Information Puntual (PMI) para identificar bigramas significativos.

Implementación de PMI en NLTK

Importación de librerías necesarias:

from nltk.collocations import *
from nltk.metrics import BigramAssocMeasures

Uso de BigramCollocationFinder:

finder = BigramCollocationFinder.from_words(texto)
finder.apply_freq_filter(20)  # Filtra bigramas con frecuencia menor a 20

Cálculo de las mejores colocaciones:

colocaciones = finder.nbest(BigramAssocMeasures.pmi, 10)  # Devuelve las 10 mejores colocaciones

¿Cómo aplicar estas herramientas a textos en español?

Con el enriquecimiento de corpus en español, estas mismas herramientas permiten explorar colocaciones en nuestro idioma.

Trabajando con el corpus CESS Español

Descarga e importación del corpus:

nltk.download('cess_esp')
from nltk.corpus import cess_esp
corpus = cess_esp.sents()

Aplanamiento del corpus para unificar las listas:

flat_corpus = [w for sentence in corpus for w in sentence]

Identificación de colocaciones en español:

finder = BigramCollocationFinder.from_documents(corpus)
finder.apply_freq_filter(10)  # Umbral de frecuencia
colocaciones = finder.nbest(BigramAssocMeasures.pmi, 10)

Resultados y ejemplos en español

Los resultados destacan frases como "señora Aguirre", "campaña electoral" y "primer ministro", mostrando cómo el contexto influye en el significado de las palabras.

¿Cuál es el valor de identificar colocaciones?

Identificar colocaciones no solo ayuda en la comprensión de textos, sino que es crucial en el procesamiento de lenguajes naturales (NLP) al:

Mejorar la precisión en tareas de traducción automática.
Incrementar la eficacia en motores de búsqueda con términos compuestos.
Proporcionar insights en análisis semántico y de sentimientos.

Explorar colocaciones con NLTK ofrece un enfoque robusto y sistemático, permitiéndonos enfocar el análisis lingüístico hacia significados más profundos. Además, motivamos a los estudiantes a aplicar estos conocimientos en diferentes contextos y enriquecer su comprensión del lenguaje mediante ejercicio continuo y curiosidad analítica.

Comentarios

Enrique Ortuno

student•

En el ejemplo me preguntaba para que calculo el objeto flatten_corpus y es que si hacen esto

finder = BigramCollocationFinder.from_words(flatten_corpus)

tambien funciona, no estoy seguro cual es exactamente la diferencia pero me gustaria una explicacion, gracias!

Ever Augusto Torres Silva

student•

Hola Enrique, según entiendo la documentación es la forma como está la definición de from_documents es porque considera a cada document como una lista de tokens. (Lista de lista)

"""Constructs a collocation finder given a collection of documents, each of which is a list (or iterable) of tokens. """

mientras que la definición from_words sería la lista de tokens, aunque tiene otro parámetro de tamaño de ventana que hay que entender.

"""Construct a BigramCollocationFinder for all bigrams in the given sequence....

sería bueno la retroalimentación.

saludos!

Juan Acevedo

student•

El flatten ayuda a realiza procedimientos muchos rápidos y ahorrar recursos, si bien siempre habrán cosas en lo que sea que se pueden de varias formas es recomendable siempre el flatten para operaciones tensoriales

jimmy ibañez

student•

Pasos

Librerias

from nltk.collocations import *

Podemos hacer uso de PMI con una herramienta de NLTK

bigram_measure = nltk.collocations.BigramAssocMeasures()

Nos permite a partir de las palabras del texto usar una clase para encontrar las colocaciones

finder = BigramCollocationFinder.from_words(text1)

preprocesamiento

Un filtro de frecuencia

finder.apply_freq_filter(20)

Coloque los mejores candidatos de colocaciones

finder.nbest(bigram_measure.pmi, 10)

entrega 

[('Moby', 'Dick'),
 ('Sperm', 'Whale'),
 ('White', 'Whale'),
 ('Right', 'Whale'),
 ('Captain', 'Peleg'),
 (',"', 'said'),
 ('never', 'mind'),
 ('!"', 'cried'),
 ('no', 'means'),
 ('each', 'other')]

texto en español

nltk.download('cess_esp')
corpues = nltk.corpus.cess_esp.sents()
flattlen_corpus = [w for l in corpues for w in l]

print(flattlen_corpus[:10])

finder = BigramCollocationFinder.from_documents(corpues)
finder.apply_freq_filter(10)
finder.nbest(bigram_measure.pmi, 10)

entrega

[('señora', 'Aguirre'),
 ('secretario', 'general'),
 ('elecciones', 'generales'),
 ('campaña', 'electoral'),
 ('quiere', 'decir'),
 ('Se', 'trata'),
 ('segunda', 'vuelta'),
 ('director', 'general'),
 ('primer', 'ministro'),
 ('primer', 'lugar')]

Henry Mendiburu Díaz

student•

Cabe resaltar que se tiene una función diferente dependiendo del N-GRAM

bigram_measures = nltk.collocations.BigramAssocMeasures()
trigram_measures = nltk.collocations.TrigramAssocMeasures()
fourgram_measures = nltk.collocations.QuadgramAssocMeasures()

David Pinchao

student•

Seria de gran ayuda que hayan módulos en este curso, es muy bueno y ordenarlo aun mas seria lo mejor.

rusbel bermúdez rivera

student•

Aunque no es lo ideal, lo plantea en las primeras clases

Camilo Andrés Patiño Restrepo

student•

¿Cómo se aplica, por ejemplo, a un listado de celdas en archivo de excel o csv donde cada celda contiene la opinión de personas? ¿El lista de celdas se deben transformar a un texto completo o plano?

Eday Alix González Manjarrés

student•

Puedes leer el archivo con python línea a línea y agregarlo en un diccionario y luego trabajarlo como dice el curso.

Eday Alix González Manjarrés

student•

Esta clase está muy buena, ya vemos resultados cada vez más sorprendentes!

Gabriel Obregón

student•

🧩 Identificación de colocaciones con NLTK

🔍 ¿Qué es una colocación?

Definición: Una colocación es una combinación de palabras que aparecen juntas con más frecuencia de lo esperado por azar.

Por qué importa: ✨ Refleja cómo se usa el idioma naturalmente.

🧠 Aporta precisión y fluidez en la comunicación. 📚 Mejora la comprensión de los textos.

Ejemplos comunes:

➡️ Make a decision → “tomar una decisión”

➡️ Strong coffee → “café fuerte”

➡️ Business school → “escuela de negocios”

🧰 NLTK: la herramienta clave

¿Qué es NLTK? Es una biblioteca de Python especializada en procesamiento del lenguaje natural (NLP).

Lo que nos permite hacer:

🔹 Analizar textos.

🔹 Encontrar combinaciones de palabras frecuentes.

🔹 Evaluar su relevancia estadística.

Métrica principal: 📈 PMI (Información Mutua Puntual) → Mide la fuerza de asociación entre dos palabras.

⚙️ Cómo identificar colocaciones paso a paso

1️⃣ Importar las librerías necesarias

from nltk.collocations import *

from nltk.metrics import BigramAssocMeasures

2️⃣ Crear el buscador de colocaciones

finder = BigramCollocationFinder.from_words(texto)

finder.apply_freq_filter(20)

3️⃣ Obtener las colocaciones más relevantes

colocaciones = finder.nbest(BigramAssocMeasures.pmi, 10)

📊 Resultado: lista con las 10 colocaciones más significativas según el PMI.

🇪🇸 Aplicación práctica en textos en español

📥 Descargar el corpus CESS Español

nltk.download('cess_esp')

from nltk.corpus import cess_esp

🧩 Preparar los datos

corpus = cess_esp.sents()

flat_corpus = [w for sentence in corpus for w in sentence]

🔎 Identificar colocaciones en el corpus

finder = BigramCollocationFinder.from_documents(corpus)

finder.apply_freq_filter(10)

colocaciones = finder.nbest(BigramAssocMeasures.pmi, 10)

💡 Ejemplos de resultados obtenidos

📍 “señora Aguirre”

📍 “campaña electoral”

📍 “primer ministro”

💬 Interpretación: Estas expresiones reflejan cómo el contexto determina las asociaciones entre palabras dentro de un idioma.

🚀 Aplicaciones en el procesamiento del lenguaje natural (NLP)

✅ Traducción automática: mejora la naturalidad del texto traducido.

✅ Motores de búsqueda: detecta términos compuestos más precisos.

✅ Análisis semántico y de sentimientos: capta matices de significado.

Luis Cardona

student•

Sí, puedes calcular la métrica PMI para otros números n de n-gramas, como trigramas. Simplemente, tienes que usar el método correspondiente de NLTK, como TrigramCollocationFinder, para definir un finder que trabaje con trigramas. Esto te permitirá identificar colocaciones que tengan sentido en tu corpus específico. Asegúrate de ajustar los parámetros y filtros de frecuencia según sea necesario para obtener resultados relevantes.

Jhon Freddy Tavera Blandon

student•

Carlos Villalobos

student•

Al comienzo del notebook va:

import nltkfrom nltk.corpus import machado # This matches the book currently usedfrom nltk.corpus import cess_espimport matplotlib.pyplot as pltimport numpy as np

Carlos Andrés Pinilla Castillo

student•

Codigo para implementar El PMI y filtrado de brigramas facilmente

Diego Enrique Molina Sánchez

student•

¿Como definir el umbral de frecuencia ideal si el dataset es más grande?

David fernando Pinzon suarez

student•

Cual seria el preprocesamiento si yo quisiera trabajar por ejemplo con un documento en Latex?

Enrique Ortuno

student•

@pachocamacho, vi que hay otras bigram_measures como chi_sq, phi_sq, raw_freq, etc diferentes a PMI, cuando deberia usar esas otras?

entrega 

[('Moby', 'Dick'),
 ('Sperm', 'Whale'),
 ('White', 'Whale'),
 ('Right', 'Whale'),
 ('Captain', 'Peleg'),
 (',"', 'said'),
 ('never', 'mind'),
 ('!"', 'cried'),
 ('no', 'means'),
 ('each', 'other')]

entrega

[('señora', 'Aguirre'),
 ('secretario', 'general'),
 ('elecciones', 'generales'),
 ('campaña', 'electoral'),
 ('quiere', 'decir'),
 ('Se', 'trata'),
 ('segunda', 'vuelta'),
 ('director', 'general'),
 ('primer', 'ministro'),
 ('primer', 'lugar')]

Identificación de Colocaciones en Textos con NLTK y PMI

Introducción al Procesamiento de Lenguaje Natural

Fundamentos del Procesamiento de Lenguaje Natural con Python y NLTK

Evolución y Técnicas del Procesamiento del Lenguaje Natural

Procesamiento del Lenguaje Natural con Python y NLTK

Fundamentos con NLTK

Procesamiento de Lenguaje Natural con Python en Google Colab

Expresiones Regulares en Python: Patrones de Búsqueda Avanzados

Tokenización de Texto con Expresiones Regulares en Python

Estadística para Procesamiento del Lenguaje: Riqueza Léxica y Métricas

Cálculo de frecuencias con NLTK y diccionarios en Python

Filtrado y Visualización de Frecuencias de Palabras con NLTK y NumPy

Estadísticas de Ennegramas y Colocaciones en Textos

Extracción de Ngramas y Bigramas con NLTK en Python

Análisis de Colocaciones con NLTK y Pandas en Python

Visualización de Colocaciones en Textos con Pandas y Plotly

Identificación de Colocaciones en Textos con NLTK y PMI

Recursos Léxicos: Uso y Aplicación en Procesamiento del Lenguaje

Recursos Léxicos en Python: Vocabularios, Frecuencias y Stopwords

Traducción de palabras con Swadesh en procesamiento de lenguaje natural

Uso de WarNet para Procesamiento del Lenguaje Natural

Análisis de Sinsets e Hipónimos con NLTK y WordNet en Google Colab

Medición de Similitud Semántica con WordNet en Python

Extracción y Procesamiento de Texto desde Páginas Web con NLTK

Organización de Código en Google Colab con Funciones y Módulos

Funciones y Buenas Prácticas en Google Colab y Python

Perspectivas de lo que viene

Fundamentos del Procesamiento del Lenguaje Natural con NLTK