Estadística para Procesamiento del Lenguaje: Riqueza Léxica y Métricas

Curso de Fundamentos de Procesamiento de Lenguaje Natural con Python y NLTK

Contenido del curso

Introducción al Procesamiento de Lenguaje Natural

Fundamentos con NLTK

Perspectivas de lo que viene

24
Fundamentos del Procesamiento del Lenguaje Natural con NLTK
03:16 min

Tomar examen

Estadística para Procesamiento del Lenguaje: Riqueza Léxica y Métricas

Resumen

Comprender cómo se comportan las palabras dentro de un texto es fundamental para cualquier proyecto de procesamiento de lenguaje natural. Medir la riqueza léxica, contar la frecuencia de aparición de términos y construir funciones reutilizables en Python son habilidades que permiten extraer información valiosa de cualquier corpus. A continuación se explican estas técnicas paso a paso, usando el libro Moby Dick como caso práctico.

¿Cómo preparar el entorno y cargar un corpus en NLTK?

El punto de partida es importar las librerías necesarias. Además del clásico nltk, se descarga un dataset llamado book mediante nltk.download('book') [0:40]. Este dataset contiene varios libros en inglés ya tokenizados, listos para trabajar directamente con NLTK.

Se importa todo el contenido del módulo con from nltk.book import *.
Se incorpora matplotlib, la librería de visualización de datos más común en Python.
Se importa numpy con el acrónimo habitual np, una librería esencial para operaciones de álgebra lineal, matrices y vectores [1:22].

Una vez ejecutadas las importaciones, el dataset descarga varios archivos. El texto que se utiliza como ejemplo es text1, que corresponde a la novela Moby Dick de Herman Melville [2:20].

¿Qué estructura tienen los tokens de este corpus?

Al inspeccionar los primeros diez tokens con text1.tokens[:10] [2:40], se observa que el tokenizador incluye elementos como corchetes, comas y puntos como tokens independientes. Es un comportamiento diferente al de tokenizadores más simples y refleja que el texto fue preprocesado de forma específica para NLTK.

La longitud total del corpus se obtiene con len(text1), arrojando 260,819 tokens [3:20]. Es un corpus de tamaño moderado que se procesa con rapidez.

¿Qué es la riqueza léxica y cómo se calcula en Python?

La riqueza léxica es una métrica que relaciona el total de palabras únicas con el total de palabras del texto [3:45]. Se define así:

Riqueza léxica = palabras únicas / total de palabras.
Un valor alto indica que el autor empleó una mayor variedad de vocabulario o que las palabras se repiten menos.

Para obtener las palabras únicas se construye un vocabulario. En Python, esto se logra con la función set(), que elimina elementos duplicados de una lista [4:30]. Sin embargo, el objeto set no admite slicing (acceso por índices), lo que genera un error común. La solución es envolver el resultado con sorted(), que convierte el conjunto en una lista ordenada alfabéticamente [5:30].

python vocabulario = sorted(set(text1)) print(vocabulario[1000:1050])

Con el vocabulario listo, la riqueza léxica se calcula dividiendo len(vocabulario) entre len(text1). Para Moby Dick, el resultado es 0.074, es decir, aproximadamente un 7.4 % de los tokens son únicos [6:30].

¿Cómo convertir este cálculo en una función reutilizable?

Definir funciones en Python permite reutilizar lógica sin repetir código. La estructura es def nombre_funcion(argumento): seguida de un bloque con return [7:00].

python def riqueza_lexica(texto): vocabulario = sorted(set(texto)) return len(vocabulario) / len(texto)

Al llamar riqueza_lexica(text1) se obtiene el mismo 0.074 [8:00]. Es importante notar que la variable vocabulario dentro de la función es una definición interna: solo existe en el alcance de la función.

¿Cómo medir el porcentaje de aparición de una palabra?

Otra métrica útil es el porcentaje de consumo de una palabra dentro del texto [8:30]. Se construye una función que recibe una palabra y un texto, cuenta cuántas veces aparece y divide ese conteo entre la longitud total, multiplicando por cien.

python def porcentaje_palabra(palabra, texto): return 100 * texto.count(palabra) / len(texto)

Probando con la palabra monster —relevante porque en la novela la ballena es descrita frecuentemente como un monstruo— el resultado es apenas 0.01 % [9:20]. Si se consulta directamente text1.count('monster'), la palabra aparece 49 veces en un corpus de más de 260,000 tokens [9:50].

Estas métricas, aunque sencillas, constituyen la base del análisis estadístico de texto. Permiten comparar corpus, identificar patrones de uso del lenguaje y preparar el terreno para técnicas más avanzadas como las distribuciones de frecuencia, que se abordan de forma gráfica en la siguiente sesión.

¿Has calculado la riqueza léxica de otros textos del dataset book? Comparte tus resultados y comparaciones en los comentarios.

Gabriel Obregón

Estudiante

🧠Estadística en el Procesamiento del Lenguaje Natural (NLP)

💬 1. Qué es el NLP

📚 El Procesamiento del Lenguaje Natural (NLP) combina:

💻 Informática
🧠 Inteligencia Artificial
🔤 Lingüística Computacional

🎯 Objetivo: que las máquinas comprendan y procesen el lenguaje humano.

📊 La estadística permite analizar textos y extraer patrones de información.

⚙️ 2. Herramientas esenciales en Python

🧩 NLTK (Natural Language Toolkit) ➡️ Librería principal de NLP.

✅ Permite tokenizar, etiquetar, analizar textos y usar datasets como books dataset.

📈 Matplotlib

➡️ Sirve para visualizar datos.

✅ Útil en gráficos, histogramas y distribuciones.

🧮 NumPy

➡️ Base para álgebra lineal y cálculos matemáticos.

\ ✅ Facilita el manejo de matrices y vectores.

💡 Consejo: usa estas librerías juntas para obtener análisis completos y visuales.

✂️ 3. Tokenización y métricas del texto

🔹 Paso 1: Tokenizar el texto

🪄 Tokenizar = dividir el texto en palabras o unidades mínimas.

Ejemplo:

from nltk.book import *

tokens = text1[:10] # Primeros 10 tokens

🔹 Paso 2: Calcular métricas básicas

📏 Longitud del texto: número total de tokens. 🧩 Riqueza léxica: (palabras únicas ÷ total de palabras).

Ejemplo:

longitud_texto = len(text1)

vocabulario = set(text1)

riqueza_lexica = len(vocabulario) / longitud_texto

📊 Interpretación: cuanto más alto sea el valor, más diverso es el vocabulario.

🧠 4. Funciones útiles para el análisis de texto

🔸 Calcular riqueza léxica

def riqueza_lexica(texto):

vocabulario = set(texto)

return len(vocabulario) / len(texto)

📘 Sirve para: medir la variedad de palabras en un texto.

🔸 Calcular porcentaje de una palabra

def porcentaje_palabra(palabra, texto):

return 100 * texto.count(palabra) / len(texto)

📘 Sirve para: conocer la frecuencia de uso de una palabra (en porcentaje).

JUAN CARLOS QUELCA VELASQUEZ

Francisco Camacho

Profesor

Mauricio Gomez

Alan Vazquez

Fabian Villada

Carlos Chavez

jimmy ibañez

Luis Suárez

Cristian Nicolás Pereira

Robert Jarod Meza Garcia

Diego Alejandro Lesmes

Andrés Muñoz

Wandy Rafael Santana Evangelista

Alexander Henry Obispo Buendia

Hugo Fernandez Quiroz

Facundo Salade

Juan Acevedo

•

Cristian Tarazona

Massimo Di Berardino

Javier Enriquez Sanchez

José Ramón García

Jhon Freddy Tavera Blandon

Rafful Chang

Carlos Andrés Pinilla Castillo

Estadística para Procesamiento del Lenguaje: Riqueza Léxica y Métricas

Introducción al Procesamiento de Lenguaje Natural

Fundamentos del Procesamiento de Lenguaje Natural con Python y NLTK

Evolución y Técnicas del Procesamiento del Lenguaje Natural

Procesamiento del Lenguaje Natural con Python y NLTK

Fundamentos con NLTK

Procesamiento de Lenguaje Natural con Python en Google Colab

Expresiones Regulares en Python: Patrones de Búsqueda Avanzados

Tokenización de Texto con Expresiones Regulares en Python