Cálculo de frecuencias con NLTK y diccionarios en Python

Clase 8 de 24 • Curso de Fundamentos de Procesamiento de Lenguaje Natural con Python y NLTK

Contenido del curso

Introducción al Procesamiento de Lenguaje Natural

Fundamentos con NLTK

Perspectivas de lo que viene

24
Fundamentos del Procesamiento del Lenguaje Natural con NLTK
03:16 min

Resumen

Calcular cuántas veces aparece cada palabra en un texto es una de las operaciones fundamentales del procesamiento de lenguaje natural. Este conteo, aplicado sobre todo el vocabulario, permite construir una distribución de probabilidad que revela patrones lingüísticos ocultos en cualquier corpus. A continuación se explica cómo hacerlo en Python, desde el enfoque manual hasta la solución optimizada con NLTK.

¿Cómo construir un diccionario de frecuencias con Python puro?

Una primera aproximación consiste en usar diccionarios de Python [0:30]. Un diccionario es una estructura de datos donde cada elemento tiene una llave y un valor. En este caso, la llave es cada palabra del vocabulario y el valor es el número de veces que esa palabra aparece en el texto.

El proceso manual funciona así:

Se define un diccionario vacío.
Se recorre cada palabra del vocabulario con un ciclo for.
Para cada palabra, se usa el método .count() del texto completo para contar sus apariciones.
El resultado se almacena como un par llave-valor en el diccionario.

Por ejemplo, la palabra monster aparece cuarenta y nueve veces en el texto de Moby Dick, y la palabra boat aparece cincuenta y cuatro veces [0:48].

¿Por qué este método no es eficiente?

Aunque funciona, este enfoque tiene un problema importante de rendimiento computacional [2:15]. El texto de Moby Dick contiene más de doscientos sesenta mil tokens, y para cada palabra del vocabulario se recorre todo el texto buscando coincidencias. Esto hace que el cálculo sea extremadamente lento, incluso para un corpus relativamente pequeño. No es una solución viable cuando se busca construir aplicaciones escalables.

¿Qué es FreqDist en NLTK y cómo se usa?

La alternativa recomendada es utilizar la función FreqDist de NLTK [3:05]. Esta herramienta calcula la distribución de frecuencia de forma optimizada y prácticamente instantánea.

Su uso es muy sencillo:

Se importa FreqDist desde NLTK.
Se pasa el objeto de texto como argumento.
El resultado es un objeto que funciona como un diccionario enriquecido con métodos adicionales.

¿Qué información revela el método most_common?

El objeto fdist incluye el método most_common [3:30], que recibe como argumento el número de tokens más frecuentes que se desean consultar. Al pedir las veinte palabras más repetidas en Moby Dick, los resultados muestran que:

La coma es el token más frecuente con dieciocho mil setecientas trece apariciones.
Le siguen palabras como the, of, and, a, to.
Estas palabras, conocidas como stopwords, no aportan información lingüística significativa por sí solas.

Es importante recordar que la tokenización no solo separa palabras, sino también signos de puntuación y otros símbolos, por lo que estos aparecen en el conteo [3:50].

¿Cómo visualizar distribuciones de frecuencia con plot?

El objeto fdist también ofrece el método plot [4:20], que genera una gráfica donde cada punto representa el número de apariciones de una palabra. Esta visualización está construida sobre matplotlib, por lo que hereda su estilo gráfico.

La curva resultante puede interpretarse como un histograma o diagrama de barras, donde se observa cómo desciende la frecuencia conforme se avanza hacia palabras menos comunes. Este patrón es típico de la ley de Zipf, que describe cómo unas pocas palabras dominan la mayor parte de cualquier texto.

Además, se puede consultar directamente la frecuencia de una palabra específica usando la sintaxis de diccionario sobre fdist [4:55]. Por ejemplo, fdist["monster"] devuelve cuarenta y nueve, confirmando el resultado obtenido previamente con el método manual.

Las palabras más frecuentes no siempre son las más relevantes para el análisis lingüístico. El siguiente paso lógico es aplicar filtrados finos sobre estas distribuciones para obtener histogramas más significativos, eliminando signos de puntuación y palabras vacías que no aportan contenido semántico. ¿Qué criterios usarías tú para filtrar las palabras más interesantes de un texto?

Comentarios

Gabriel Salvador

student•

En realidad, analizando este tipo de datos se encuentran aspectos relacionados con los sistemas complejos. Un ejemplo es que tanto en el libro de Moby Dick como en cualquier obra ( un periódico, la biblia, etc.) la distribución de palabras sigue una ley de potencias (o power law). Una explicación a este fenómeno se da con la criticalidad auto-organizada. Para verificar si se cumple esta ley de potencias se debe verifica una tendencia linear graficando en escala logarítmica ambos ejes (un gráfico log-log). En el caso del libro de Moby Dick tenemos:

Esto se conoce como la ley de Zipf. En el libro “How nature works” de Per Bak muestra este ejemplo:

Una forma de tener el gráfico log-log de la distribución de palabras en el libro "Moby Dick" es (cuando ya tenemos el fdist) usando:

a=list(fdist.values())
a=np.array(a)
a=np.sort(a)
a=a[::-1]
plt.yscale('log')
plt.xscale('log')
plt.plot(a)

Francisco Camacho

teacher•

Asi es Gabriel, este es un ejercicio maravilloso y muy interesante, que bueno que nos lo hayas compartido. :)

Este tipo de leyes , en efecto, reflejan que existe un carácter de universalidad en nuestro lenguaje y aunque hoy en dia esto no se usa en muchas aplicaciones del NLP , en términos de lingüística computacional esto es critico para entender aspectos fundamentales sobre la manera como estructuramos nuestro lenguaje. Y es interesante ver tambien que esta ley se satisface en otros contextos afuera del procesamiento de lenguaje natural y la lingüística en general.

José Acién Gutiérrez

student•

Corregidme si me equivoco, pero ¿lo que al final hay detrás de esto no es una regla de Pareto? También se observa el mismo patrón que comentas (una recta decreciente de 45º en escala log log) al analizar grafos de amistades en redes sociales, de mails enviados entre distintas personas en empresas, etc etc.

Patricio Zavala

student•

Les dejo una versión alternativa para que no creen el objeto "fdist", ya que es un atributo del texto en si

text1.vocab().most_common(20)
text1.vocab().plot(20)

y se obtiene el mismo resultado (ya que text1.vocab() es un objeto fdist)

Eday Alix González Manjarrés

student•

Súper!!

Alan Vazquez

student•

Estaba haciendo usando la clase Counter de la libreria collections (Integrada en python) es mucho mas rapida (3-5 veces mas rapida) que la funcion de nltk, la diferencia es que no va ha tener la funciones integradas de FreqDist como la de plot. Pero eso ya seria un factor a conciderar para volumenes mucho mayores si vale la pena ese rendimiento extra requerido

Como nota, si previamente ordenamos las listas de tokens se obtiene un mejor rendimiento, en caso de usar Counter es mucho mayor

Ricardo Moreno

student•

Pregunta seria

Se podría crear un analizador de textos que devuelva un resumen corto de un libro en este caso solo con las palabras mas comunes?

Mi duda surgió porque en el libro de Moby Dick de las palabras mas comunes que resaltan a la vista son 'whale', 'ship', 'old', 'man', 'sea' con esas palabras se hace una idea de que va el libro, no?

Investigaré mas al respecto....

Miguel Rodríguez

student•

Claro, de echo te paso el link de una clase, donde al final se expone un analizador justo como el que mencionas.

https://ocw.mit.edu/courses/electrical-engineering-and-computer-science/6-034-artificial-intelligence-fall-2010/lecture-videos/lecture-3-reasoning-goal-trees-and-rule-based-expert-systems/

Ricardo Moreno

student•

Wow Alex gracias por la recomendacion!!!!

Que iluso fuí al pensar que no habría ya algo así, pero me gusto como para proyecto personal

Saludos!!!

Valentina Arenas Lozano

student•

text1.count('monster') # cuenta las vecesque aparece la palabra en el texto
fdist = FreqDist(text1) # agrega a un diccionario las veces que aparece cada palabra del texto
fdist.mot_common(20) # muestra las palabras que más se repiten
fdist.plot(20) # muestra un gráfico ára las palabras que más se repiten
fdist['moster'] # consultar diccionario

Marcelo Sánchez

student•

Es interesante ver la diferencia en velocidad entre los métodos. Adjunto la gráfica correspondiente al texto "Personals Corpus"

Se observa la tendencia del autor a usar ciertas palabras más que otras.

- -

student•

Minuto 5:08 cuando dice que es un diagrama de barras o histograma, es claramente incorrecto, es un lineplot.

Andrés Molina

student•

Diría que es muy pesado para la computadora correr ese ciclo for ya que estaríamos hablando de un Big On**2, osea tiene crecimiento polinominial, estos son algoritmos que deben usarse cuando el input o la entrada de datos es pequeña

Gabriel Obregón

student•

🧠Frecuencia de Palabras en un Texto

📘 ¿Qué es y para qué sirve?

👉 Objetivo: conocer cuántas veces aparece cada palabra en un texto.

👉 Utilidad: entender su estructura, identificar términos clave y analizar estilo o temas dominantes.

👉 Herramientas: diccionarios de Python y la biblioteca NLTK.

🧩 1️⃣ Crear un diccionario para contar palabras

📚 Diccionario = clave → valor

Clave: palabra
Valor: número de apariciones

🔧 Ejemplo de código:

diccionario_frecuencias = {}

for palabra in texto_vocabulario:

diccionario_frecuencias[palabra] = texto.count(palabra)

💬 Qué hace: Recorre cada palabra del texto y cuenta cuántas veces aparece.

⚠️ Problema:

Lento en textos grandes (ej. 260,000 palabras).
Poca eficiencia y difícil de escalar.
Consumo alto de recursos.

💡 Conclusión: Útil para ejemplos pequeños, pero poco práctico para análisis reales.

⚙️ 2️⃣ Solución: usar NLTK (Natural Language Toolkit)

🔍 NLTK ofrece la función FreqDist, que automatiza y acelera el conteo de palabras.

🚀 Pasos principales:

1️⃣ Importar y crear distribución de frecuencias

from nltk import FreqDist

distribucion_frecuencia = FreqDist(texto_tokens)

2️⃣ Obtener las palabras más comunes

top_palabras = distribucion_frecuencia.most_common(20)

3️⃣ Visualizar los resultados

distribucion_frecuencia.plot(20)

📊 Resultado: Gráfico de barras con las 20 palabras más frecuentes.

💪 3️⃣ Ventajas de usar FreqDist

✨ Rendimiento: procesa grandes volúmenes de texto sin esfuerzo.

🎨 Visualización clara: genera gráficos interpretables de inmediato.

🔍 Consulta flexible: permite buscar la frecuencia de una palabra concreta.

⚡ Menos código, más resultados: se automatizan las tareas repetitivas.

Marianela Arcila Sanchez

student•

el en el video esta trabajando con text1 esas serian ya las palabras tokenizadas si?

David Romero

student•

Correcto

Juan Antonio Aramburo Pasapera

student•

De hecho la clase Text (que es lo que es text1) ya tiene el método vocab que nos devuelve la distribución de frecuencias de las palabras.

fdist = text1.vocab()

Juan Antonio Aramburo Pasapera

student•

Creo que encontré un bug en nltk==3.8.1

No creo que "monster" se use más seguido que "the". Si acaso al revés.

text1.count('monster') # cuenta las vecesque aparece la palabra en el texto
fdist = FreqDist(text1) # agrega a un diccionario las veces que aparece cada palabra del texto
fdist.mot_common(20) # muestra las palabras que más se repiten
fdist.plot(20) # muestra un gráfico ára las palabras que más se repiten
fdist['moster'] # consultar diccionario 

Cálculo de frecuencias con NLTK y diccionarios en Python

Introducción al Procesamiento de Lenguaje Natural

Fundamentos del Procesamiento de Lenguaje Natural con Python y NLTK

Evolución y Técnicas del Procesamiento del Lenguaje Natural

Procesamiento del Lenguaje Natural con Python y NLTK

Fundamentos con NLTK

Procesamiento de Lenguaje Natural con Python en Google Colab

Expresiones Regulares en Python: Patrones de Búsqueda Avanzados

Tokenización de Texto con Expresiones Regulares en Python

Estadística para Procesamiento del Lenguaje: Riqueza Léxica y Métricas

Cálculo de frecuencias con NLTK y diccionarios en Python

Filtrado y Visualización de Frecuencias de Palabras con NLTK y NumPy

Estadísticas de Ennegramas y Colocaciones en Textos

Extracción de Ngramas y Bigramas con NLTK en Python

Análisis de Colocaciones con NLTK y Pandas en Python

Visualización de Colocaciones en Textos con Pandas y Plotly

Identificación de Colocaciones en Textos con NLTK y PMI

Recursos Léxicos: Uso y Aplicación en Procesamiento del Lenguaje

Recursos Léxicos en Python: Vocabularios, Frecuencias y Stopwords

Traducción de palabras con Swadesh en procesamiento de lenguaje natural

Uso de WarNet para Procesamiento del Lenguaje Natural

Análisis de Sinsets e Hipónimos con NLTK y WordNet en Google Colab

Medición de Similitud Semántica con WordNet en Python

Extracción y Procesamiento de Texto desde Páginas Web con NLTK

Organización de Código en Google Colab con Funciones y Módulos

Funciones y Buenas Prácticas en Google Colab y Python

Perspectivas de lo que viene

Fundamentos del Procesamiento del Lenguaje Natural con NLTK