Estadística para Procesamiento del Lenguaje: Riqueza Léxica y Métricas

Clase 7 de 24 • Curso de Fundamentos de Procesamiento de Lenguaje Natural con Python y NLTK

Contenido del curso

Introducción al Procesamiento de Lenguaje Natural

Fundamentos con NLTK

Perspectivas de lo que viene

24
Fundamentos del Procesamiento del Lenguaje Natural con NLTK
03:16 min

Resumen

Comprender cómo se comportan las palabras dentro de un texto es fundamental para cualquier proyecto de procesamiento de lenguaje natural. Medir la riqueza léxica, contar la frecuencia de aparición de términos y construir funciones reutilizables en Python son habilidades que permiten extraer información valiosa de cualquier corpus. A continuación se explican estas técnicas paso a paso, usando el libro Moby Dick como caso práctico.

¿Cómo preparar el entorno y cargar un corpus en NLTK?

El punto de partida es importar las librerías necesarias. Además del clásico nltk, se descarga un dataset llamado book mediante nltk.download('book') [0:40]. Este dataset contiene varios libros en inglés ya tokenizados, listos para trabajar directamente con NLTK.

Se importa todo el contenido del módulo con from nltk.book import *.
Se incorpora matplotlib, la librería de visualización de datos más común en Python.
Se importa numpy con el acrónimo habitual np, una librería esencial para operaciones de álgebra lineal, matrices y vectores [1:22].

Una vez ejecutadas las importaciones, el dataset descarga varios archivos. El texto que se utiliza como ejemplo es text1, que corresponde a la novela Moby Dick de Herman Melville [2:20].

¿Qué estructura tienen los tokens de este corpus?

Al inspeccionar los primeros diez tokens con text1.tokens[:10] [2:40], se observa que el tokenizador incluye elementos como corchetes, comas y puntos como tokens independientes. Es un comportamiento diferente al de tokenizadores más simples y refleja que el texto fue preprocesado de forma específica para NLTK.

La longitud total del corpus se obtiene con len(text1), arrojando 260,819 tokens [3:20]. Es un corpus de tamaño moderado que se procesa con rapidez.

¿Qué es la riqueza léxica y cómo se calcula en Python?

La riqueza léxica es una métrica que relaciona el total de palabras únicas con el total de palabras del texto [3:45]. Se define así:

Riqueza léxica = palabras únicas / total de palabras.
Un valor alto indica que el autor empleó una mayor variedad de vocabulario o que las palabras se repiten menos.

Para obtener las palabras únicas se construye un vocabulario. En Python, esto se logra con la función set(), que elimina elementos duplicados de una lista [4:30]. Sin embargo, el objeto set no admite slicing (acceso por índices), lo que genera un error común. La solución es envolver el resultado con sorted(), que convierte el conjunto en una lista ordenada alfabéticamente [5:30].

python vocabulario = sorted(set(text1)) print(vocabulario[1000:1050])

Con el vocabulario listo, la riqueza léxica se calcula dividiendo len(vocabulario) entre len(text1). Para Moby Dick, el resultado es 0.074, es decir, aproximadamente un 7.4 % de los tokens son únicos [6:30].

¿Cómo convertir este cálculo en una función reutilizable?

Definir funciones en Python permite reutilizar lógica sin repetir código. La estructura es def nombre_funcion(argumento): seguida de un bloque con return [7:00].

python def riqueza_lexica(texto): vocabulario = sorted(set(texto)) return len(vocabulario) / len(texto)

Al llamar riqueza_lexica(text1) se obtiene el mismo 0.074 [8:00]. Es importante notar que la variable vocabulario dentro de la función es una definición interna: solo existe en el alcance de la función.

¿Cómo medir el porcentaje de aparición de una palabra?

Otra métrica útil es el porcentaje de consumo de una palabra dentro del texto [8:30]. Se construye una función que recibe una palabra y un texto, cuenta cuántas veces aparece y divide ese conteo entre la longitud total, multiplicando por cien.

python def porcentaje_palabra(palabra, texto): return 100 * texto.count(palabra) / len(texto)

Probando con la palabra monster —relevante porque en la novela la ballena es descrita frecuentemente como un monstruo— el resultado es apenas 0.01 % [9:20]. Si se consulta directamente text1.count('monster'), la palabra aparece 49 veces en un corpus de más de 260,000 tokens [9:50].

Estas métricas, aunque sencillas, constituyen la base del análisis estadístico de texto. Permiten comparar corpus, identificar patrones de uso del lenguaje y preparar el terreno para técnicas más avanzadas como las distribuciones de frecuencia, que se abordan de forma gráfica en la siguiente sesión.

¿Has calculado la riqueza léxica de otros textos del dataset book? Comparte tus resultados y comparaciones en los comentarios.

Comentarios

JUAN CARLOS QUELCA VELASQUEZ

student•

Una aclaración, cuando se define la función riqueza_lexica(texto), la variable vocabulario esta mal definida deberia ser : vocabulario=sorted(set(texto)) y no así text1

Francisco Camacho

teacher•

tienes razón, en efecto ese error ya fue notado, muchas gracias por tu observación, estas en lo correcto :)

Mauricio Gomez

student•

Venia a aclarar esto, pero llegué varios meses tarde xD

Alan Vazquez

student•

Les comparto una forma en la que pueden ver la riqueza lexica de todos los textos del modulo nltk.book

def lexical_affluence(corpus):
    vocabulary = sorted(set(corpus))
    return len(vocabulary) / len(corpus)

texts = [ i for i in dir(nltk.book) if re.search(r'text\d', i)]
for text in texts:
    exec(compile(f'print({text}.name, "\\n", lexical_affluence({text}), "\\n" )', 
        '', 'exec'))

Esto fue lo que se me ocurrio a mi para poder pasar los el nombre los textos como un parametro, si saben otra forma me gustaria saberlo c:

Fabian Villada

student•

Gracias Alan . Yo intente iterarlo con un

textos = texts()

for i in range(len(textos))

pero el tipo de dato que te devuelve la funcion texts() (lo ves con type(textos) ) es NoneType, por lo que no es iterable.

Bien pensado tu codigo

Fabian Villada

student•

esta etructura "texts = [ i for i in dir(nltk.book) if re.search(r'text\d', i)]" se llama lista por comprension.

Gracias alan motivaste que incorpore esto

Carlos Chavez

student•

Que buen curso y que excelente profesor.Algo que parece tan complejo, lo presenta de una forma simple. Una pregunta :Cual es el procedimiento a seguir si tengo un texto que quiero analizar y no esta en la librería de nltk?

Francisco Camacho

teacher•

En clases posteriores te muestro como puedes cargar archivos externos en formato .txt y .html

jimmy ibañez

student•

Primer paso

Importar las librerías necesarias; NLTK tiene un paquete. de libros llamado "book" asi que debemos descargarlo
```
import nltk
nltk.download('book')
from nltk.book import *
import matplotlib.pyplot as plt
import numpy as np
```
Se puede escoger entre varios libros con text y el numero , ejemplo text3
- También podemos ver los tks con text3.tokens[:10]

Riqueza lexica

R1 = total de palabras unicas/ total de palabras = longitud del vocabulario/longitud del texto

Vocabulario = Palabras únicas de un texto

vocabulario = sorted(**set**(text3))
print(vocabulario[1000:1050])

set = es una funcion que toma la lista de tks repetidos y los deja una sola vez

Riqueza léxica para un libro

rl = len(vocabulario)/len(text3)
print(rl)

Riqueza lexica general

Podemos general una función para hallar la rl de cualquier libro del dataset

def riqueza_lexica (texto):
    vocabulario = sorted(set(texto))
    return len(vocabulario)/len(texto)

riqueza_lexica(text3)

porcentaje por palabras

def porcentaje_palabra (palabra,texto):
    return 100*texto.count(palabra)/len(texto)

porcentaje_palabra('lord',text3)

Luis Suárez

student•

Nunca uso la libreria matplotlib.pyplot ;)

Cristian Nicolás Pereira

student•

Cúal seria una forma eficiente de escribir una función en python en el que solo debamos poner el texto (ya sea text6,text4,etc) y que no tengamos que definir el vocabulario de cada uno? Nose si me estoy explicando correctamente, me refiero a esta parte

vocabulario = sorted(set(text7))

Francisco Camacho

teacher•

lo que puedes hacer, definiendo una funcion así:

def vocabulary(text):
	return sorted(set(text))

y luego puedes calcular el vocabulario de diferentes textos:

v1 = vocabulary(text1)
v2 = vocabulary(text2)

etc, etc, .... no se si eso responde tu pregunta ?

Robert Jarod Meza Garcia

student•

Algo que entendí en el link sobre el objeto "set" es útil para poder eliminar datos duplicados.

Diego Alejandro Lesmes

student•

de acuerdo aunque no olvides la función unique() de pandas tambien lo hace

Andrés Muñoz

student•

Existe alguna cheatsheet de fórmulas más usadas para analizar texto ?

Wandy Rafael Santana Evangelista

student•

Esto podria ayudarte analizar un poco Andy: Click Aqui

Alexander Henry Obispo Buendia

student•

Aca hay un cheatsheet Natural Language Processing with Python & nltk Cheat Sheet

Hugo Fernandez Quiroz

student•

La version actualizada del link de la documentacion de Set es https://docs.python.org/2/library/stdtypes.html#set

Facundo Salade

student•

Comparto la función que escribí para recorrer la riqueza léxico de los 9 textos que hay:

def riqueza_lexica(texts):
  riquezas = []
  num_lib = 0
  for text in texts: 
    riqueza = len(vocabulario)/len(text)
    riquezas.append(f"Riqueza Libro {num_lib}: {riqueza}")
    num_lib+=1
  return riquezas  

texts = [text1, text2, text3, text4, text5, text6, text7, text8, text9]  
print(riqueza_lexica(texts))
```def riqueza\_lexica(texts):  riquezas = \[]  num\_lib = 0  for text in texts:     riqueza = len(vocabulario)/len(text)    riquezas.append(f"Riqueza Libro {num\_lib}: {riqueza}")    num\_lib+=1  return riquezas  
texts = \[text1, text2, text3, text4, text5, text6, text7, text8, text9]  print(riqueza\_lexica(texts))

Luis Suárez

student•

La clase es muy similar a este pdf ... muy similar

.tsc.uc3m.es/~miguel/MLG/adjuntos/NLTK.pdf

Fabian Villada

student•

Gracias por el pdf. Esta muy bueno para complemento

Alan Vazquez

student•

Algo que note es la funcion count no hace distincion entre mayusculas y minusculas para solucionar esto lo hice de dos maneras

Usando Regex

search_word = 'tHe'
search = re.compile(search_word, flags=re.IGNORECASE)
count = 0

for word in text1:
    if search.fullmatch(word, 0):
        count += 1

Usando sets

def transform(word):
    return { 
        word,
        word.lower(),
        word.upper(),
        word.capitalize()
    }

search_word = 'tHe'
count = 0

for word in transform(search_word):
    count += text1.count(word)

Aunque usando Sets tiene un mejor rendimiento

Juan Acevedo

student••

Codigo de la riqueza lexica de cada texto

Code:

textos = [text1, text2, text3, text4, text5, text6, text7,text8, text9]
lr_textos = [len(sorted(set(texto))) / len(texto) for texto in textos]
lr_textos

OUTPUT:

[0.07406285585022564,
 0.04826383002768831,
 0.06230453042623537,
 0.06526412776412777,
 0.13477005109975562,
 0.1276595744680851,
 0.12324685128531129,
 0.22765564002465585,
 0.0983485761345412]

Gabriel Obregón

student•

🧠Estadística en el Procesamiento del Lenguaje Natural (NLP)

💬 1. Qué es el NLP

📚 El Procesamiento del Lenguaje Natural (NLP) combina:

💻 Informática
🧠 Inteligencia Artificial
🔤 Lingüística Computacional

🎯 Objetivo: que las máquinas comprendan y procesen el lenguaje humano.

📊 La estadística permite analizar textos y extraer patrones de información.

⚙️ 2. Herramientas esenciales en Python

🧩 NLTK (Natural Language Toolkit) ➡️ Librería principal de NLP.

✅ Permite tokenizar, etiquetar, analizar textos y usar datasets como books dataset.

📈 Matplotlib

➡️ Sirve para visualizar datos.

✅ Útil en gráficos, histogramas y distribuciones.

🧮 NumPy

➡️ Base para álgebra lineal y cálculos matemáticos.

\ ✅ Facilita el manejo de matrices y vectores.

💡 Consejo: usa estas librerías juntas para obtener análisis completos y visuales.

✂️ 3. Tokenización y métricas del texto

🔹 Paso 1: Tokenizar el texto

🪄 Tokenizar = dividir el texto en palabras o unidades mínimas.

Ejemplo:

from nltk.book import *

tokens = text1[:10] # Primeros 10 tokens

🔹 Paso 2: Calcular métricas básicas

📏 Longitud del texto: número total de tokens. 🧩 Riqueza léxica: (palabras únicas ÷ total de palabras).

Ejemplo:

longitud_texto = len(text1)

vocabulario = set(text1)

riqueza_lexica = len(vocabulario) / longitud_texto

📊 Interpretación: cuanto más alto sea el valor, más diverso es el vocabulario.

🧠 4. Funciones útiles para el análisis de texto

🔸 Calcular riqueza léxica

def riqueza_lexica(texto):

vocabulario = set(texto)

return len(vocabulario) / len(texto)

📘 Sirve para: medir la variedad de palabras en un texto.

🔸 Calcular porcentaje de una palabra

def porcentaje_palabra(palabra, texto):

return 100 * texto.count(palabra) / len(texto)

📘 Sirve para: conocer la frecuencia de uso de una palabra (en porcentaje).

Cristian Tarazona

student•

¿ Cuál es la diferencia entre un data set y un corpus ? Es que estaba intentando hacer lo de clasee #4 pero no me funciona: corpus = nltk.corpus.cess_esp.sents() pero en este caso lo quiero hacer con el data set book pero no me funciona ... agradezco me puedan aclarar la duda :D

Massimo Di Berardino

student•

Hola @tarac21, un data set es cualquier tipo de dato almacenado en conjunto con un formato específico, mientras que un corpus es un término mayormente utilizado en NLP para hacer referencia a un conjunto de datos de texto

Javier Enriquez Sanchez

student•

Como podría hacer para que me busque cierta palabra y me la muestre en la frase en la cual esta junto a su posición en el texto?

José Ramón García

student•

José Ramón García

student•

text1: Moby Dick by Herman Melville 1851 text2: Sense and Sensibility by Jane Austen 1811 text3: The Book of Genesis text4: Inaugural Address Corpus text5: Chat Corpus text6: Monty Python and the Holy Grail text7: Wall Street Journal text8: Personals Corpus text9: The Man Who Was Thursday by G . K . Chesterton 1908

Jhon Freddy Tavera Blandon

student•

Al trabajar con estadísticas básicas del lenguaje, es importante considerar el preprocesamiento adecuado del texto, como la eliminación de puntuación, conversión a minúsculas y eliminación de palabras vacías (stopwords), dependiendo de los objetivos de tu análisis

Rafful Chang

student•

Faltó normalizar los tokens de los textos a minúsculas. Dejo una captura de resultado que obtuve con la palabra moby para el texto 1

Carlos Andrés Pinilla Castillo

student•

Estadisticas de los textos

Estadística para Procesamiento del Lenguaje: Riqueza Léxica y Métricas

Introducción al Procesamiento de Lenguaje Natural

Fundamentos del Procesamiento de Lenguaje Natural con Python y NLTK

Evolución y Técnicas del Procesamiento del Lenguaje Natural

Procesamiento del Lenguaje Natural con Python y NLTK

Fundamentos con NLTK

Procesamiento de Lenguaje Natural con Python en Google Colab

Expresiones Regulares en Python: Patrones de Búsqueda Avanzados

Tokenización de Texto con Expresiones Regulares en Python

Estadística para Procesamiento del Lenguaje: Riqueza Léxica y Métricas

Cálculo de frecuencias con NLTK y diccionarios en Python

Filtrado y Visualización de Frecuencias de Palabras con NLTK y NumPy

Estadísticas de Ennegramas y Colocaciones en Textos

Extracción de Ngramas y Bigramas con NLTK en Python

Análisis de Colocaciones con NLTK y Pandas en Python

Visualización de Colocaciones en Textos con Pandas y Plotly

Identificación de Colocaciones en Textos con NLTK y PMI

Recursos Léxicos: Uso y Aplicación en Procesamiento del Lenguaje

Recursos Léxicos en Python: Vocabularios, Frecuencias y Stopwords

Traducción de palabras con Swadesh en procesamiento de lenguaje natural

Uso de WarNet para Procesamiento del Lenguaje Natural

Análisis de Sinsets e Hipónimos con NLTK y WordNet en Google Colab

Medición de Similitud Semántica con WordNet en Python

Extracción y Procesamiento de Texto desde Páginas Web con NLTK

Organización de Código en Google Colab con Funciones y Módulos

Funciones y Buenas Prácticas en Google Colab y Python

Perspectivas de lo que viene

Fundamentos del Procesamiento del Lenguaje Natural con NLTK