Objetos del mundo real en el espacio vectorial y métricas de distancia

Clase 24 de 30Curso de Big Data y Ciencia de Datos 2016

Resumen

Existen varias estrategias para codificar patrones, para esto debemos codificar en términos numéricos, mientras mayor creatividad al construir estos mayor cantidad de patrones puedes encontrar.

 

Por ejemplo si quisiéramos encontrar patrones de las compras en una tienda podríamos tomar el peso, valor y dimensiones de los productos, pero podríamos ser más creativos.

 

Podemos medir todos los identificadores únicos de las personas que han comprado el producto en las últimas cuatro semanas, a través de todos los productos solo fueron cinco personas distintas, esto lo representamos en una lista de cinco números (cada persona).

 

Posibles representaciones:

 

  • Si el primer producto fue comprado por las personas 1,2,5 tendríamos una lista [1,1,0,0,1]
  • Si representamos que productos comprados cada una de las personas tendríamos 5 listas.

 

Si estas listas las graficamos plano de X y Y, visualizando una lista de tuplas y si lo hacemos con más dimensiones da exactamente igual.

 

Analizar las gráficas:

 

Si dos puntos en el gráfico se encuentran juntos uno al otro, esos dos puntos se comportan de una manera similar, si tenemos dos puntos lejanos se comportan de una manera diferente. Esto lo medimos de una escala de 0 a 1, usando las métricas de distancia usando coordenadas del espacio vectorial.

 

  • Distancia de manhattan 
  • Distancia de jacard
  • Distancia euclidiana
  • Distancia cosine