Un modelo oculto de Markov (HMM) se especifica formalmente mediante los siguientes componentes, los cuales permiten relacionar una secuencia de eventos observados con eventos "ocultos" que se consideran factores causales:
• Un conjunto de estados (Q): Consiste en N estados individuales, representados como q1,q2,…,qN.
• Una matriz de probabilidades de transición (A): Cada valor aij representa la probabilidad de pasar de un estado i a un estado j. Esta matriz debe cumplir que, para cualquier estado, la suma de las probabilidades de todas las transiciones que salen de él sea igual a 1.
• Probabilidades de emisión o verosimilitudes de observación (B): Se define como una secuencia de probabilidades bi(ot), donde cada una expresa la probabilidad de que se genere una observación específica (ot) desde un estado determinado (qi).
• Una distribución de probabilidad inicial (π): Es un conjunto de probabilidades π=π1,π2,…,πN, donde cada πi indica la probabilidad de que el modelo comience en el estado i. Al igual que con las transiciones, la suma de estas probabilidades iniciales debe ser 1.
• Un vocabulario de observaciones (V): Es el conjunto de todos los símbolos o eventos posibles que pueden ser observados, denotados como v1,v2,…,vV.
Además de estos componentes estructurales, el modelo opera bajo dos supuestos simplificadores fundamentales:
1. Supuesto de Markov: La probabilidad de un estado particular depende únicamente del estado inmediatamente anterior.
2. Independencia de salida: La probabilidad de que aparezca una observación determinada (oi) depende exclusivamente del estado que la produjo (qi) y no de otros estados u observaciones previas.
En la práctica, el modelo recibe como entrada una secuencia de observaciones (O) de longitud T, donde cada elemento pertenece al vocabulario V, con el fin de inferir la secuencia de estados ocultos más probable que la general.
Las diferencias fundamentales entre los procesos de Markov (específicamente las cadenas de Markov) y los modelos ocultos de Markov (HMM) se centran en la visibilidad de los estados, los componentes del modelo y la forma en que se calculan las probabilidades:
• Visibilidad de los estados: En una cadena de Markov, los eventos o estados que nos interesan son directamente observables. Es decir, las observaciones superficiales son las mismas que los estados. Por el contrario, en un HMM, los eventos de interés son "ocultos" y no se pueden observar directamente; en su lugar, observamos una secuencia de eventos diferentes que resultan de esos estados ocultos y debemos inferirlos.
• Componentes adicionales del modelo: Un HMM se basa en el aumento de una cadena de Markov. Mientras que una cadena de Markov se define por un conjunto de estados (Q), una matriz de probabilidades de transición (A) y una distribución de probabilidad inicial (π), un HMM añade un componente crucial: una secuencia de probabilidades de emisión o verosimilitudes de observación (B). Estas probabilidades (B) expresan la probabilidad de que se genere una observación específica desde un estado oculto determinado.
• Complejidad en el cálculo de probabilidades: En una cadena de Markov, la probabilidad de una secuencia se calcula simplemente multiplicando las probabilidades de las transiciones entre los estados observados. En un HMM, el proceso es más complejo porque no se conoce la secuencia de estados ocultos; para determinar la probabilidad de una secuencia de observaciones, es necesario sumar las probabilidades de todas las posibles secuencias de estados ocultos que podrían haberla generado, lo cual se resuelve eficientemente mediante el algoritmo Forward.
• Relación causal: Los HMM permiten modelar tanto eventos observados como eventos ocultos, tratando a estos últimos como factores causales en el modelo probabilístico. Por ejemplo, en el etiquetado de partes del discurso, las palabras son observadas, pero las etiquetas (los estados ocultos) son los factores causales que el modelo busca descubrir.
En resumen, mientras que las cadenas de Markov son útiles para calcular probabilidades de secuencias de eventos que podemos ver, los HMM son herramientas diseñadas para situaciones donde los procesos subyacentes más importantes no son directamente accesibles.