Contenido del curso

Desambiguación y etiquetado de palabras

Modelos Markovianos Latentes (HMM)

Algoritmo de Viterbi

Modelos Markovianos de máxima entropía (MEMM)

Clasificación de texto con NLTK

Implementación de un modelo de clasificación de texto

Tomar examen

Decodificación de Secuencias con el Algoritmo de Viterbi

Resumen

¿Qué son las predicciones del modelo marcobiano latente?

Los modelos marcobianos latentes son herramientas poderosas en el análisis del lenguaje. No solo nos permiten entrenar modelos con probabilidades de transición y emisión, sino que también nos ayudan a realizar predicciones precisas sobre secuencias de etiquetas gramaticales. El proceso clave para lograr esto es conocido como decodificación, que consiste en identificar la secuencia de etiquetas gramaticales más probable para una serie de palabras dadas. Para ello, utilizamos un algoritmo llamado Viterbi. Nos centraremos en entender cómo funciona este algoritmo para facilitar su aprendizaje y aplicación en otros métodos de decodificación.

¿Cómo se construye el proceso de decodificación?

La decodificación es la segunda fase del uso de modelos marcobianos latentes, tras el entrenamiento. Consiste en los siguientes pasos:

Calculo de matrices y probabilidades iniciales:
- Primero, se calcula la matriz de transición con coeficientes 'c'.
- Luego, se determinan las probabilidades de emisión 'b', que describen la probabilidad condicional de una etiqueta dada una palabra.
Aplicación del algoritmo de Viterbi:
- Este algoritmo asigna una probabilidad a cada posible secuencia de etiquetas para las palabras de entrada.
- Se exploran distintas combinaciones de etiquetas conectando posibles decisiones en cada palabra de la secuencia.
- Se evalúa cada camino desde la primera hasta la última palabra, seleccionando finalmente el que tiene la mayor probabilidad asignada.
Retorno de la mejor secuencia:
- De entre todas las secuencias posibles, se selecciona y retorna la más probable como la secuencia de etiquetas correctas.

¿Cómo funciona el algoritmo de Viterbi?

Vamos a detallar el funcionamiento de este algoritmo con el fin de entender cómo encuentra la secuencia más plausible.

Preparación de la matriz de nodos y cálculo inicial

Primero, tomamos una oración como "Castillo el noble trabajador" y generamos matrices de nodos donde cada columna representa una palabra, y cada fila sus posibles etiquetas gramaticales. Aquí cada nodo representa una posibilidad y comenzamos calculando la probabilidad inicial para cada nodo de la primera palabra. Por ejemplo:

# Probabilidad inicial para sustantivo propio (prop) de 'Castillo'
nu_1_prop = P_inicial(prop) * P_condicional(Castillo | prop)

Cálculo recursivo de probabilidades

Para las siguientes palabras, calculamos la probabilidad en cada nodo considerando las probabilidades de los nodos anteriores. Tomamos como ejemplo el nodo para la palabra "el":

# Ejemplo de cálculo de probabilidad para el nodo "el"
nu_2_det = max(
    nu_1_prop * P_transicion(det | prop) * P_emision(el | det),
    nu_1_non * P_transicion(det | non) * P_emision(el | det)
)

Aquí, calculamos la probabilidad desde dos caminos posibles: pasando desde un sustantivo propio o desde un sustantivo no propio ('non'), y escogemos la mayor.

Finalización del proceso

Repetimos este proceso para cada palabra y cada posible etiqueta en la secuencia. Una vez calculadas todas las probabilidades, seleccionamos la secuencia con la probabilidad más alta como la secuencia de etiquetas correctas.

Factores clave para el éxito del algoritmo Viterbi

Precisión de probabilidades iniciales y condicionales: La exactitud de las probabilidades marcobianas es crucial para la fidelidad del modelo.
Eficiencia computacional: Viterbi es conocido por su eficiencia en reducir el número de caminos calculados al descartar caminos menos probables en cada paso.
Adaptabilidad: Una vez entendido, el algoritmo de Viterbi puede aplicarse fácilmente a diversos problemas de procesamiento de lenguaje natural.

Con el enfoque correcto y la comprensión adecuada del algoritmo, la decodificación de secuencias complejas se convierte en una tarea alcanzable y eficiente. Continúa explorando este fascinante mundo de la lingüística computacional donde cada palabra cuenta una historia matemática.

Comentarios

Rodolfo Arturo González Trillo

student•

¡Por fin un profesor que se mete a la matemática y no anda diciendo "se que las matemáticas les dan miedo"! No nos dan miedo, somos ingenieros y científicos.

Fabian Villada

student•

Pero bueno, no todx matemaniaco jejejejej

Bryan Castano

student•

Esto es Cierto!

Pedro Quiñonez Verdugo

student•

El proceso mediante el cual un Modelo Markoviano Latente determina la secuencia de etiquetas más probable para una secuencia de palabras es: el producto de a probabilidad inicial de encontrar esa etiqueta en la primera parte de esa secuencia este multiplicado por una probabilidad condicional.

frluenga

student•

Se me acaba de presentar una duda, de pronto sea mas adecuada para módulos anteriores o para el curso anterior, pero igual la haré.

¿Qué tratamiento le doy a las cadenas de texto con errores de Ortografía?

Jorge Iván Rivera Montaño

student•

No soy experto en esto, pero se me ocurre que podrías tratar los errores ortográficos antes de procesar el texto. En textos grandes, los errores suelen ser menos importantes y podrías simplemente ignorarlos o tratarlos como palabras desconocidas. En textos más cortos, donde cada palabra cuenta más, podrías usar alguna herramienta de corrección automática. Otra opción es tratar esas palabras con errores como desconocidas (OOV) o aplicar suavización para que no afecten tanto. Dependerá mucho de cómo los errores impacten tu análisis.

Pedro Quiñonez Verdugo

student•

Entrenar un Modelo Markoviano Latente significa: Calcular la matriz a con sus con sus coeficientes c, y luego las probabilidades de emision que son los b, dados por las probabilidades condicionales etiqueta palabra.

Jorge Andrés Robledo Ariza

student•

Excelente Pacho cómo hace de fácil entender ciertos conceptos de forma muy clara y sencilla :D

Francisco Garcia [C6]

student•

Espectacular, muy muy interesante en verdad

Bryan Castano

student•

Un modelo oculto de Markov (HMM) se especifica formalmente mediante los siguientes componentes, los cuales permiten relacionar una secuencia de eventos observados con eventos "ocultos" que se consideran factores causales:

• Un conjunto de estados (Q): Consiste en N estados individuales, representados como q1,q2,…,qN.

• Una matriz de probabilidades de transición (A): Cada valor aij representa la probabilidad de pasar de un estado i a un estado j. Esta matriz debe cumplir que, para cualquier estado, la suma de las probabilidades de todas las transiciones que salen de él sea igual a 1.

• Probabilidades de emisión o verosimilitudes de observación (B): Se define como una secuencia de probabilidades bi(ot), donde cada una expresa la probabilidad de que se genere una observación específica (ot) desde un estado determinado (qi).

• Una distribución de probabilidad inicial (π): Es un conjunto de probabilidades π=π1,π2,…,πN, donde cada πi indica la probabilidad de que el modelo comience en el estado i. Al igual que con las transiciones, la suma de estas probabilidades iniciales debe ser 1.

• Un vocabulario de observaciones (V): Es el conjunto de todos los símbolos o eventos posibles que pueden ser observados, denotados como v1,v2,…,vV.

Además de estos componentes estructurales, el modelo opera bajo dos supuestos simplificadores fundamentales:

1. Supuesto de Markov: La probabilidad de un estado particular depende únicamente del estado inmediatamente anterior.

2. Independencia de salida: La probabilidad de que aparezca una observación determinada (oi) depende exclusivamente del estado que la produjo (qi) y no de otros estados u observaciones previas.

En la práctica, el modelo recibe como entrada una secuencia de observaciones (O) de longitud T, donde cada elemento pertenece al vocabulario V, con el fin de inferir la secuencia de estados ocultos más probable que la general.

Las diferencias fundamentales entre los procesos de Markov (específicamente las cadenas de Markov) y los modelos ocultos de Markov (HMM) se centran en la visibilidad de los estados, los componentes del modelo y la forma en que se calculan las probabilidades:

• Visibilidad de los estados: En una cadena de Markov, los eventos o estados que nos interesan son directamente observables. Es decir, las observaciones superficiales son las mismas que los estados. Por el contrario, en un HMM, los eventos de interés son "ocultos" y no se pueden observar directamente; en su lugar, observamos una secuencia de eventos diferentes que resultan de esos estados ocultos y debemos inferirlos.

• Componentes adicionales del modelo: Un HMM se basa en el aumento de una cadena de Markov. Mientras que una cadena de Markov se define por un conjunto de estados (Q), una matriz de probabilidades de transición (A) y una distribución de probabilidad inicial (π), un HMM añade un componente crucial: una secuencia de probabilidades de emisión o verosimilitudes de observación (B). Estas probabilidades (B) expresan la probabilidad de que se genere una observación específica desde un estado oculto determinado.

• Complejidad en el cálculo de probabilidades: En una cadena de Markov, la probabilidad de una secuencia se calcula simplemente multiplicando las probabilidades de las transiciones entre los estados observados. En un HMM, el proceso es más complejo porque no se conoce la secuencia de estados ocultos; para determinar la probabilidad de una secuencia de observaciones, es necesario sumar las probabilidades de todas las posibles secuencias de estados ocultos que podrían haberla generado, lo cual se resuelve eficientemente mediante el algoritmo Forward.

• Relación causal: Los HMM permiten modelar tanto eventos observados como eventos ocultos, tratando a estos últimos como factores causales en el modelo probabilístico. Por ejemplo, en el etiquetado de partes del discurso, las palabras son observadas, pero las etiquetas (los estados ocultos) son los factores causales que el modelo busca descubrir.

En resumen, mientras que las cadenas de Markov son útiles para calcular probabilidades de secuencias de eventos que podemos ver, los HMM son herramientas diseñadas para situaciones donde los procesos subyacentes más importantes no son directamente accesibles.

Gabriel Obregón

student•

🎯Predicciones del Modelo Markoviano Latente (HMM)

🧠 Idea principal

Los modelos markovianos latentes (HMM) se usan para predecir secuencias de etiquetas gramaticales a partir de palabras.

Sirven para:

📊 Analizar estructuras del lenguaje.
🔁 Calcular probabilidades de transición (etiqueta → etiqueta).
🔡 Calcular probabilidades de emisión (etiqueta → palabra).
🎯 Hallar la secuencia de etiquetas más probable.

➡️ El proceso que hace esto posible se llama decodificación.

➡️ El método más usado para lograrlo es el algoritmo de Viterbi.

⚙️ Etapas del proceso de decodificación

🧩 1️⃣ Cálculo de matrices y probabilidades iniciales

🔸 Matriz de transición (c): mide la probabilidad de pasar de una etiqueta a otra.
🔸 Probabilidades de emisión (b): indican la probabilidad de que una palabra pertenezca a una etiqueta dada.

🚀 2️⃣ Aplicación del algoritmo de Viterbi

🧮 Calcula la probabilidad de todas las posibles secuencias de etiquetas.
🔗 Conecta decisiones entre palabras según su probabilidad.
📈 Evalúa cada “camino” completo desde la primera hasta la última palabra.
🏆 Escoge la secuencia total con mayor probabilidad.

🎯 3️⃣ Resultado final

👉 Se devuelve la secuencia de etiquetas más probable, es decir, la interpretación gramatical más coherente para la oración.

Jhon Freddy Tavera Blandon

student•

Conclusión

El algoritmo de Viterbi es eficiente y esencial para encontrar la secuencia de estados más probable en un HMM, dado un conjunto de observaciones. En el contexto de tareas de procesamiento del lenguaje natural, como el etiquetado gramatical, es una herramienta potente para inferir la estructura oculta de las secuencias de datos.

Octavio De Paula

student•

Alucipoyonante

Diego Alejandro Lesmes

student•

ML en su máxima expresión

Joel Eduardo Gaspar

student•

Flipante

Marcelo Sánchez

student•

Tremendo el algoritmo, el profesor sabe como hacer llegar la información.

Desambiguación y etiquetado de palabras

Clasificación de Texto con Machine Learning

Etiquetado de Palabras en Python con NLTK y Stanza

Uso de Stanza para Procesamiento de Lenguaje Natural en Español

Modelos Markovianos Latentes (HMM)

Modelos Marcovianos Latentes en PLN: Fundamentos y Aplicaciones

Matemáticas de Cadenas de Markov y su Aplicación en Modelos Latentes

Modelos Marcovianos Latentes: Etiquetado Gramatical Automático

Implementación de Modelos Marcovianos Latentes en Python con Google Colab

Entrenamiento de Modelos Marcobianos Latentes en Python

Algoritmo de Viterbi