Implementación de Modelos Ocultos de Markov en NLTK y Python

Clase 13 de 26 • Curso de Algoritmos de Clasificación de Texto

Contenido del curso

Desambiguación y etiquetado de palabras

Modelos Markovianos Latentes (HMM)

Algoritmo de Viterbi

Modelos Markovianos de máxima entropía (MEMM)

Clasificación de texto con NLTK

Implementación de un modelo de clasificación de texto

Tomar examen

Resumen

Construir un etiquetador de categorías gramaticales desde cero y luego compararlo con una implementación profesional es una de las mejores formas de comprender cómo funcionan los modelos marcoviano latentes (Hidden Markov Models). Aquí se cierra ese ciclo completo: desde la selección de etiquetas con la matriz de Viterbi hasta el uso directo de la clase HMM que ofrece NLTK.

¿Cómo se selecciona la secuencia de etiquetas más probable con Viterbi?

En clases anteriores se construyó una función llamada viterbi_matrix que recibía una cadena de texto y devolvía la matriz de probabilidades de Viterbi [0:36]. El paso siguiente consiste en transformar esa función para que, en lugar de devolver la matriz, entregue directamente las etiquetas gramaticales más probables. Por eso se renombra a viterbi_tags [1:07].

El proceso adicional funciona así:

Se crea una lista vacía llamada res que almacenará las parejas de palabra y etiqueta.
Se recorre cada palabra de la secuencia usando enumerate para conservar el índice de columna [1:30].
Dentro de ese recorrido, se itera sobre todas las etiquetas posibles consultando el diccionario de estados (tag_state_dict).
Para cada palabra se busca la fila cuyo valor sea el máximo en la columna correspondiente de la matriz viterbi_prob [2:07].
Si una etiqueta coincide con ese máximo, se agrega la pareja (palabra, etiqueta) a la lista.

El return final ya no es la matriz, sino la lista res con la secuencia completa de etiquetas [2:41].

¿Qué resultados produce la función viterbi_tags?

Al ejecutar la función con la frase "El mundo es pequeño", el resultado es una secuencia tokenizada donde cada palabra recibe su etiqueta: determinante, sustantivo, auxiliar, adjetivo [3:15]. Con otra frase como "Estos instrumentos han de rasgar", el modelo identifica correctamente que rasgar es un verbo, aunque las demás etiquetas requieren verificación individual [3:38].

Esta verificación se haría mediante una métrica de accuracy, tal como se hace en machine learning con un esquema supervisado [3:56]. Lo esencial es haber comprendido el proceso completo: entrenamiento con matrices de probabilidad, ejecución del algoritmo y generación de la secuencia más probable.

¿Cómo se entrena un HMM directamente con NLTK?

NLTK incluye una clase llamada HiddenMarkovModelTrainer que encapsula todo el proceso que se programó desde cero [4:50]. Para usarla se trabaja con el corpus Treebank en inglés, un dataset ya etiquetado que se descarga con nltk.download [4:43].

¿Cómo se preparan los datos de entrenamiento?

Del corpus Treebank se seleccionan las frases etiquetadas (tagged sentences) hasta la sentencia 3900, lo que representa aproximadamente el 90 % del dataset [5:20]. La estructura resultante es una lista de listas donde cada frase está tokenizada en tuplas de palabra y etiqueta gramatical [5:47].

Es importante notar que este dataset usa una convención de etiquetado distinta a la UPOS que se venía utilizando con el corpus Áncora en español [6:02]. El algoritmo funciona con cualquier convención que se decida emplear.

¿Qué tan sencillo es ejecutar el entrenamiento?

El código se reduce a pocas líneas [6:30]:

python from nltk.tag import hmm

tagger = hmm.HiddenMarkovModelTrainer().train_supervised(train_data)

Con tagger.tag("Pierre Binkin will get old".split()) se obtiene la secuencia de etiquetas predicha [7:30]. Y para medir el rendimiento se usa tagger.evaluate(train_data), que arroja una precisión cercana al 98 % sobre el conjunto de entrenamiento [8:05].

Detrás de esa simplicidad hay un volumen de código muy elaborado. Revisar el código fuente de la clase HiddenMarkovModelTrainer permite entender la diferencia entre convertir matemáticas en código y optimizar ese código hasta cumplir buenas prácticas de desarrollo de software [8:35].

¿Qué ejercicio práctico cierra esta primera parte?

Al final del notebook se propone un ejercicio que combina el dataset Áncora en español con la clase de modelo marcoviano latente de NLTK [9:15]. El objetivo es aplicar la implementación profesional de NLTK al mismo corpus con el que se trabajó manualmente, comparando resultados y consolidando lo aprendido.

Comparte tus resultados y hallazgos en la sección de comentarios: ¿qué accuracy obtuviste al combinar Áncora con la clase HMM de NLTK?

Gabriel Obregón

student•

🧠Modelos Ocultos de Markov (HMM) con NLTK y Matriz de Viterbi

🔹 1. Seleccionar la secuencia más probable de etiquetas (Matriz de Viterbi)

🎯 Objetivo

Determinar la secuencia de etiquetas gramaticales más probables para una oración, usando la matriz de Viterbi calculada previamente.

🪜 Pasos clave

🟦 1. Renombrar función

➡️ Cambiar bitterbiMatrix → bitterbiTags

➡️ Ahora devuelve etiquetas, no la matriz.

🟩 2. Crear lista de resultados

➡️ Inicia una lista vacía res.

➡️ Recorre cada palabra de la secuencia (enumerate).

🟨 3. Calcular etiqueta más probable

➡️ Compara todas las etiquetas posibles.

➡️ Escoge la que tenga la mayor probabilidad en bitterviProp.

🟧 4. Devolver resultados

➡️ Retorna una lista con pares (palabra, etiqueta).

💻 Ejemplo de código

def bitterbiTags(text_sequence):

# Código para calcular bitterviProp

res = []

for i, word in enumerate(text_sequence):

for tag in tag_state_dict:

if tag == max(bitterviProp[:, i]):

res.append((word, tag))

return res

🟩 Resultado final: Obtienes cada palabra acompañada de su etiqueta gramatical más probable.

🔹 2. Entrenar un modelo oculto de Markov con NLTK

🎯 Objetivo

Entrenar un modelo supervisado que aprenda a etiquetar texto automáticamente a partir de un corpus.

⚙️ Procedimiento paso a paso

🟦 1. Importar librerías y corpus

import nltk

nltk.download('treebank')

from nltk.corpus import treebank

🟩 2. Preparar los datos de entrenamiento

train_data = treebank.tagged_sents()[:3900]

🟨 3. Entrenar el modelo

from nltk.tag import HiddenMarkovModelTrainer

tagger = HiddenMarkovModelTrainer().train_supervised(train_data)

🟧 4. Evaluar precisión

accuracy = tagger.evaluate(train_data)

print(f"Precisión: {accuracy * 100}%")

📈 Resultado: Precisión aproximada del 98% 💡 Ventaja: NLTK facilita el entrenamiento y manejo de los modelos probabilísticos de lenguaje.

🔹 3. Usar el modelo entrenado

🧩 Aplicaciones prácticas

🟦 1. Etiquetar una oración

sentence = "Pierre Binkin will get old".split()

print(tagger.tag(sentence))

🟩 2. Probar con otras frases

Usa nuevas oraciones o conjuntos de prueba adicionales.
Evalúa el rendimiento en distintos contextos.

🟨 3. Explorar el código fuente

Revisa la clase HiddenMarkovModel de NLTK.
Comprende la estructura interna del modelo y cómo aplica la teoría de los HMM.

Daniel Eishu Oyama Arevalo

Juan Jose Tovar

Wbert Castro

Joel Eduardo Gaspar

rusbel bermúdez rivera

Francisco Garcia [C6]

Bryan Castano

Alfonso Garijo

Rafael Rivera

Francisco Camacho

teacher•

Jose Daniel Gallegos Padilla

Jhon Freddy Tavera Blandon

Emilio José Chaparro Barrera

Eday Alix González Manjarrés

Omar Larasa

David Pinchao

Mario Alberto Vásquez Arias

Carlos Daniel Pimentel Díaz

Implementación de Modelos Ocultos de Markov en NLTK y Python

Desambiguación y etiquetado de palabras

Clasificación de Texto con Machine Learning

Etiquetado de Palabras en Python con NLTK y Stanza

Uso de Stanza para Procesamiento de Lenguaje Natural en Español

Modelos Markovianos Latentes (HMM)

Modelos Marcovianos Latentes en PLN: Fundamentos y Aplicaciones

Matemáticas de Cadenas de Markov y su Aplicación en Modelos Latentes

Modelos Marcovianos Latentes: Etiquetado Gramatical Automático

Implementación de Modelos Marcovianos Latentes en Python con Google Colab

Entrenamiento de Modelos Marcobianos Latentes en Python

Algoritmo de Viterbi

Decodificación de Secuencias con el Algoritmo de Viterbi

Cálculo de Probabilidades en el Algoritmo de Viterbi

Implementación del Algoritmo de Viterbi en Python con NumPy

Implementación del Algoritmo Viterbi para Modelos Ocultos de Markov