Create an account or log in

Keep learning for free! Join and start boosting your career

Aprovecha el precio especial y haz tu profesión a prueba de IA

Antes: $249

Currency
$209
Suscríbete

Termina en:

0 Días
3 Hrs
39 Min
39 Seg

Modelos Markovianos latentes (HMM)

5/26
Resources

What are Markov chains?

Markov chains are a key tool in mathematical modeling that allows us to understand how certain events happen sequentially and probabilistically over time. They are fundamental for several models, including word labelers in natural language processing. An essential aspect of Markov chains is their ability to predict the next state based solely on the current state, regardless of how it arrived at that state.

What are the fundamental ingredients of a Markov chain?

  • State transition matrix: This is the core of Markov chains. Each element of the matrix represents the transition probability between different states. Imagine we want to predict the weather: if it is warm today, what is the probability that it will be cold or warm tomorrow?

      In  itia l State | Next State | Cold | Ho t |  Warm | Warm || -----------------------------------|------|-- ---- ----|-------|| Cold |      |          |       | | H ot |       |          |       | | Warm | |          |       | Warm |      | | | Warm | | | | Warm | | Warm | | | Warm | | Warm | | Warm | | Warm | |
  • Probability distribution vector: This vector represents the probabilities of finding the system in each of the states initially. For example, today there may be a 40% chance that it will be cold, a 20% chance that it will be hot, and a 40% chance that it will be warm.

How are transition probabilities calculated?

Defining transition probabilities is crucial to creating an accurate Markov chain. Consider a sequence of weather observed over five days: cold, cold, warm, warm, warm, warm. To calculate the probability of certain transitions, such as going from warm to hot, you use concepts such as conditional probability. It is observed how many times the specific transition occurs over the total number of possible days.

  • Transition probability: This is determined by dividing the number of observed transitions by the total number of possible transitions. For example, if in five days only one transition was from warm to hot, and there were five transitions in total, the probability is ( \frac{1}{5} = 0.2 ) or 20%.

How is the transition matrix constructed?

To construct the transition matrix, place the possible states (cold, hot, warm) in the rows and columns. Each position in the matrix indicates the probability of transition from one state to another. Use previous observations and calculations to fill each position.

What is a latent marcovian model?

The latent Markov model, known as Hidden Markov Model (HMM), is an extension of Markov chains. This model introduces hidden sequences that are not directly observable. For example, in a text labeling process, the visible sequence could be "Peter is an engineer", while the hidden or latent sequence would be "noun verb noun". The goal of the HMM is to discover or infer this hidden sequence from observable data.

How are Markov chains applied in predictive modeling?

By multiplying the transition matrix by the initial vector of probabilities, probabilities for future states can be calculated. For example, if today the probabilities are 40% cold, 20% hot and 40% warm, after applying the transition matrix, those probabilities change for the next day. This is a fundamental process in predictive modeling and is used in areas such as climate modeling and state prediction in dynamical systems.

What is the link between Markov chains and machine learning?

Markov chains and latent Markovian models are essential in the field of machine learning for processing temporal sequences. They allow inferences and predictions to be made based on a set of observable data. This is particularly useful in natural language models, DNA sequence analysis and more.

Finally, understanding Markov chains and their applications opens up a range of opportunities in predictive analytics and modeling of complex systems. Let's explore more and continue to discover the potential of these models in our next lessons - the learning never stops!

Contributions 15

Questions 1

Sort by:

Want to see more contributions, questions and answers from the community?

Se ve genial el punto en donde da la explicación del uso de los modelos Markovianos en el etiquetado de palabras. Algo que encontré y me sirvió mucho es la siguiente definición.

La cadena de Markov es una serie de eventos, en la que la probabilidad de que ocurra un evento depende del evento anterior. Este tipo de cadenas tienen memoria.

Increible como se puede explicar algo que parece bastante complejo a primera vista de una manera tan sencilla. Increíble profesor!!!

import numpy as np

def probabilities(vec:list , ev_a: str, ev_b: str):
  n = len(vec) - 1
  i = [idx for idx, val in enumerate(vec) if val == ev_a]
  num = len([count for count, val in enumerate(i) if val+1 < len(vec) and vec[val+1] == ev_b])
  p_num = num/n
  den = len([count for count, val in enumerate(i) if val < len(vec)-1])
  p_den = den/n
  return p_num / p_den
def matriz_trans(dic: dict, vec: list):
  res = []
  for k, v in dic.items():
    res.append([probabilities(vec, k, key) for key in dic.keys()])
  res_out = np.array(res)
  return res_out
def pi_1(pi_0: list, matrix: np.array):
  return pi_0 @ matrix
pi_1([0.4,0.2,0.4], matriz_trans(dict_day_temp, h0))
array([0.2, 0.6, 0.2])

Me parece que hay alguna clase de error con la notación y/o uso de las fórmulas en esta clase. La razón es la siguiente:

Para obtener la matriz de transicición el profesor usa la fórmula de probabilidad condicional, que dice P(A | B) = P(B,A)/P(B), donde además sabemos por teoría que P(A,B)= P(B, A) (Notar que eso se usa para demostrar el teorema de Bayes). Si fuera el caso de que realmente debemos usar la fórmula de probabilidad condicional para obtener la matriz de transición, entonces debería cumplirse siempre que P(3,2)= P(2, 3), lo cual no es cierto según lo que desarrolla el profesor [P(3,2) = 1/5 y P(2,3) = 0].

Encontré una forma más intuitiva de entender esto acorde con la teoría standard en estadística por medio de esta fuente: https://towardsdatascience.com/time-series-data-markov-transition-matrices-7060771e362b

Salu2!

Amigos de master recomiendo antes de tomar este curso haberse visto el de Matemáticas para DS: Probabilidad, también dicatado por Francisco https://platzi.com/clases/ds-probabilidad/

  • Por si quieren dar el extra se pueden hacer el 10 days of statistics de HACKER RANK

Hola Francisco en el podcast hablaste sobre la importancia de usar docker como harías para crear tus proyectos con contenedores de una manera sencilla

Muy buena explicación de las cadenas de Markov.
### **Aplicaciones de los Modelos Ocultos de Markov** Los HMM tienen aplicaciones en diversas áreas, donde los estados subyacentes no se observan directamente pero las observaciones proporcionan pistas sobre estos. Algunas aplicaciones incluyen: * **Reconocimiento de voz:** En el reconocimiento de voz, las secuencias de audio (observaciones) son generadas por un modelo subyacente de fonemas (estados ocultos). * **Etiquetado de secuencias en lenguaje natural:** Para etiquetar las partes del discurso (sustantivos, verbos, adjetivos, etc.) de una oración, los estados ocultos son las etiquetas gramaticales y las palabras observadas son las emisiones. * **Bioinformática:** Los HMM se utilizan en secuenciación genética para modelar regiones ocultas de ADN que generan observaciones. * **Detección de fraudes:** En la detección de fraudes, los estados ocultos podrían representar comportamientos normales o fraudulentos, y las transacciones financieras son las observaciones.

El concepto de caena markoviana también se utiliza en el aprendizaje no supervisado por reforzamiento, específicamente el q-learning,

es posible que pueda usar modelos parecidos a los de markov, en el caso que quiera anticipar la probabilidad que el idioma que estudio, tenga la misma etiqueta que el idioma con que lo traduzco… se ve bien, a donde me ha llevado todo esto

Efectivamente, cuando construye la Matriz de Transición de Estados en el minuto 5:58, el valor de C_3,1 es 1 (como dice el profesor) y no 1/2 (como lo muestra el video).
En este sentido, la respuesta correcta de las probabilidades resultantes del día siguiente son [0.2, 0.6, 0.4] y NO [0.2, 0.6, 0.2]como aparece en el video.

que bien

Esta clase estuve genial, ver como eventos previos pueden ser estimados a través de una secuencia me recuerda a las máquinas de estados vistas en los conceptos básicos de la electrónica digital.