No tienes acceso a esta clase

隆Contin煤a aprendiendo! 脷nete y comienza a potenciar tu carrera

M茅tricas de distancia

16/24
Recursos

Aportes 76

Preguntas 6

Ordenar por:

驴Quieres ver m谩s aportes, preguntas y respuestas de la comunidad?

o inicia sesi贸n.

GEOMETRIA DEL TAXISTA

Realizada por Hermann Minkowski

Linea Roja = M茅trica Binaria

Linea Verde = M茅trica Euclidiana

Linea Amarilla y Azul = M茅trica de Manhattan

Hola, encontr茅 estas dos m茅tricas en internet.

  • **Distancia Chebyshev **
    Es una m茅trica definida en un espacio vectorial donde la distancia entre dos vectores es el mayor de sus diferencias a lo largo de cualquier dimensi贸n de coordenadas

  • Distancia Kullback-Leibler
    Es una medida no sim茅trica de la similitud o diferencia entre dos funciones de distribuci贸n de probabilidad P y Q. KL mide el n煤mero esperado de extra bits requeridos en muestras de c贸digo de P cuando se usa un c贸digo basado en Q, en lugar de un c贸digo
    basado en P. Generalmente P representa la 鈥渧erdadera鈥 distribuci贸n de los datos, observaciones, o cualquier distribuci贸n te贸rica. La medida Q generalmente representa una teor铆a, modelo, descripci贸n o aproximaci贸n de P

El concepto matem谩tico de m茅trica, si saben un poco de funciones, es suficiente para interpretar y generalizar un poco mas el concepto de m茅trica.

Una m茅trica sobre un conjunto X es una funci贸n (llamada funci贸n distancia o simplemente distancia)

d : X 脳 X 鈫 [0,鈭),

donde [0,鈭) es el conjunto de los n煤meros reales no-negativos (no se puede poner R porque la distancia no puede ser negativa), y tal que, para cualesquiera x, y, z de X, se satisfacen las siguientes condiciones:

d(x, y) 鈮 0 (no-negativa, o axioma de separaci贸n)
d(x, y) = 0 si y solo si x = y (axioma de coincidencia)
d(x, y) = d(y, x) (simetr铆a)
d(x, z) 鈮 d(x, y) + d(y, z) (desigualdad triangular).

siguiendo la definici贸n anterior, tenemos la m茅trica discreta definida por:

d(x,y) = 0 si x=y
d(x,y) = 1 Si x diferente de y

Encontre esto 馃槃! Muy muy interesante !

Consegu铆 en este portal algunas m茅tricas de distancia con una brev铆sima explicaci贸n de cada una: https://www.interactivechaos.com/manual/tutorial-de-machine-learning/distancia-de-chebyshev

Hola, es mi primer aporte. He averiguado sobre m茅tricas de distancia en Machine Learning y quisiera compartirlo con todos 馃槉.
Primero. 驴Qu茅 son las m茅tricas de distancia ? Son maneras de hallar la distancia entre un punto A y un punto B, viendolo de manera vectorial generalmente.
La que todos conocemos es esa f贸rmula que se asemeja al teorema de Pitagoras y se llama Distancia Euclidiana :

![](

Esta formula se deriva de otra a煤n m谩s fascinante que se llama la distancia de Minkowski y que engloba otras m谩s :

![](

驴Logran verlo? Cuando p = 2 se forma la ecuaci贸n de Distancia Euclidiana .

Cuando p = 1 se le llama la Distancia de Manhattan y se le conoce as铆 como el avance escalonado :

![](

Y cuando p = 3 se le llama Distancia Cos茅nica, algo muy aplicado en la 谩lgebra lineal que dictan en la universidad para saber la direcci贸n de dos puntos sin importar la magnitud de estas y tiene mucha relaci贸n con esta formula de aqu铆:

驴Y entonces ? 驴 C贸mo uso estas distancias en Machine Learning ?

Pues estas se usan cuando no usamos algoritmos probabil铆sticos y tenemos que aplicar agrupaci贸n cuando los datos no tienen etiquetas por ejemplo!!

Este tema me fascino mucho y espero me puedan ayudar cont谩ndome qu茅 m谩s se puede hacer ya que reci茅n estoy empezando en esta maravillosa rama.

Gracias !!

Para entender mejor recomiendo que tomen un curso de 谩lgebra lineal . La m茅trica de distancia es un concepto matem谩tico que generaliza la m茅trica euclidiana . Por ejemplo cuando estudias el espacio no-euclidiano (ejm , esferoidal , curvo ) se necesita definir otro tipo de distancia pero que no pierda propiedades que tiene las de euclides . recuerden cada espacio de trabajo (espacio vectorial ) tiene su propia metrica definida . Pero no cualquier distancia es una metrica de distancia de un espacio vectorial .

En esta grafica ademas podemos ver segun la complejidad de tiempo.

<h1>M茅tricas de distancia</h1>
  • Distancia Euclidiana: distancia en l铆nea recta o la trayectoria m谩s corta posible entre dos puntos.
  • Distancia Manhattan: calcula la distancia que se puede recorrer para llegar de un punto de datos a la otra si un camino en forma de rejilla es seguido. La distancia Manhattan entre dos elementos es la suma de las diferencias de sus correspondientes componentes.
  • Distancia Chebyshev: m茅trica definida en un espacio vectorial donde la distancia entre dos vectores es el mayor de sus diferencias a lo largo de cualquier dimensi贸n de coordenadas.
  • Distancia Kullback-Leibler: es una medida no sim茅trica de la similitud o diferencia entre dos funciones de distribuci贸n de probabilidad P y Q. KL mide el n煤mero esperado de extra bits requeridos en muestras de c贸digo de P cuando se usa un c贸digo basado en Q, en lugar de un c贸digo basado en P. Generalmente P representa la 鈥渧erdadera鈥 distribuci贸n de los datos, observaciones, o cualquier distribuci贸n te贸rica. La medida Q generalmente representa una teor铆a, modelo, descripci贸n o aproximaci贸n de P.
  • M茅trica binaria: magnitud y su ley que determina el menor nivel de diferencia o lejan铆a entre dos objetos de un espacio o geometr铆a dados, usualmente considerados como puntos, en este caso mediante el resultado de la igualdad o desigualdad pura de ambos.
  • M茅trica esf茅rica: es una forma de distancia que asume que los puntos A y B est谩n dispuestos sobre la superficie de una esfera s贸lida centrada en O de radio 鈥渞鈥 entonces la distancia en cuesti贸n entre ambos puntos ser铆a la longitud de la ortodr贸mica o arco de circunferencia conc茅ntrica en O y de radio r que contiene en cada uno de sus extremos a A y a B.

馃搹 Las m茅tricas de distancia ayudan a los algoritmos a encontrar similitudes entre los elementos del dataset.
.
Algunos ejemplos que encontr茅 de m茅tricas de distancia:
.

M茅tricas de Distancia
Nos permiten cuantificar la cercan铆a o lejan铆a de los datos. Generalmente los algoritmos de machine learning son algoritmos de optimizaci贸n, es decir optimizan las distancias entre datos.
Existen diversas maneras de calcular la distancia entre ellas est谩n la euclidiana, la distancia de Manhattan, la el铆ptica, la hiperb贸lica, etc. Es nuestro trabajo elegir la distancia 贸ptima para realizar nuestro programa.

En Ingenieria Industrial se ven este tipo de metricas como (Ecludiana o Retilinea) y se usan para metodos de localizacion de plantas industriales, basados en el menor costo de transporte teniendo como puntos de referencia proveedores(MP o Insumos) y cliente(Ventas).

M茅trica EIGRP para enrutamiento: (ancho de banda, delay, Confiabilidad, carga)
M茅tricas para la relatividad como la de Schwarzschild o Minkowski
M茅trica de Riemann para geometr铆a el铆ptica e hiperb贸lica

No conoc铆a la distancia de Manhattan.

Por Similitud de Coseno
= ( a * b ) / ( ||a|| * ||b|| )

se que necesito leer mas, es solo que youtube se empe帽a en tener tan buenos videos, y para muestra un boton

https://www.youtube.com/watch?v=Usngvpiv_LI

M脡TRICAS DE DISTANCIA


M茅trica euclideana
Sea un espacio cartesiano de N dimensiones la distancia entre dos de sus puntos A, B viene definida por la longitud del segmento de l铆nea recta que los une o lo que es lo mismo:

que para los casos del espacio tridimenional y el plano quedan representadas respectivamente por:

La demostraci贸n de las cinco propiedades inherentes a las m茅tricas son evidentes.

M茅trica binaria
Se define por distancia binaria a la funcion d(x,y) definida seg煤n:

Esta m茅trica suele ser usada en la l贸gica, la topolog铆a y la inteligencia artificial.

M茅trica esf茅rica

La m茅trica esf茅rica es una forma de distancia que asume que los puntos A y B est谩n dispuestos sobre la superficie de una esfera s贸lida centrada en O de radio 鈥渞鈥 entonces la distancia en cuesti贸n entre ambos puntos ser铆a la longitud de la ortodr贸mica o arco de circunferencia conc茅ntrica en O y de radio r que contiene en cada uno de sus extremos a A y a B:

Hablando n煤mericamente ser铆a:

donde los alfas representan las longitudes de sus respectivos puntos y las betas son las latitudes, exactamente igual que en nuestro planeta.

En el caso, por ejemplo, de las distancias mar铆timas, pues a nivel del mar se evade el extra en altitud que le agregan las elevaciones a los c谩lculos de distancia, esta forma de medici贸n en muy 煤til, pues como se sabe la Tierra tiene forma esf茅rica y ser铆a equ铆voco por tanto creer que se viaja en l铆nea recta cuando en verdad se navega sobre un arco de circunferencia.

La m茅trica del taxista

Una m茅trica de distancia muy utilizada en ML, es el descenso del gradiente, mediante regresi贸n lineal

M茅tricas de distancia:
Son la optimiszaci贸n que existe entre distancias(De un feature a otro)
Notas:
Existen distintas maneras de medir distancia.
La distancia no es necesariamente una linea recta que llega de un punto A al B. SI no es el mejor camino para llegar de A a B.
La mayor铆a de los algoritmos de machine learnig tratan de optimizar algo.

La metrica del taxista

Metricas de distancia aplica el nivel de congestion de la calle o lo que se puede modelar en un grafo como el peso de las aristas, tambien el tipo de si es unidireccional el camino o en algunos puntos es bidireccional

Inclusive pueden inventar sus propias m茅tricas de distancia dependiendo de sus necesidades. S贸lo deben tener bien definido su Espacio Vectorial donde vivir谩n sus Vectores y que su m茅trica de distancia cumpla las siguientes propiedades para todo vector perteneciente en su espacio vectorial, y en autom谩tico tendr谩n un espacio m茅trico 馃槈

Seg煤n el link al paper compartido por Juan David Vergara, el mejor algoritmo de distancia, cuando son datasets de baja dimensi贸n, es el de distancia promedio 鈥渁verage鈥, es de r谩pida convergencia cuando el algoritmo de agrupamiento usado es el 鈥渒-means鈥.

Por otro lado, para datasets de dimensiones altas (m谩s par谩metros en el vector de datos) la correlaci贸n de Pearson es la que mejor funciona, especialmente con enfoques jer谩rquicos para agrupamiento de datos.

Otras m茅tricas de distancia
鈥 Distancia de Chebyshev: Esta m茅trica calcula la m谩xima diferencia entre las coordenadas de dos puntos. Es adecuada para medir distancias en un espacio de rejilla o tablero de ajedrez.

鈥 Distancia de Minkowski: Es una generalizaci贸n que incluye tanto la distancia Euclidiana como la distancia de Manhattan como casos especiales. Se define como la ra铆z n-茅sima de la suma de las diferencias en las coordenadas elevadas a la potencia n.

Distancia de Hamming: Es utilizada para medir la diferencia entre dos cadenas de igual longitud. Mide la cantidad de posiciones en las que los s铆mbolos difieren.

Encontre estas distancias

  • Chebyshev Distance
  • Minkowski Distance
  • Hamming Distance
  • Cosine Similarity
  • Jaccard Similarity

La distancia Hamming se compara la distancia de cada punto de una lista con cada punto de otra lista para calcular la distancia total. Por ejemplo:

  • Salm贸n
  • Pulm贸n

La distancia total se define por dos de las 5 letras de cada palabra. La distancia entra esas letras (seg煤n el abecedario) ser铆a de 3 y 21, respectivamente.

Para que una funci贸n sea considerada una norma debe cumplir tres condiciones:

  • Siempre debe ser no negativa y solo vale 0 cuando x =0, f(x)>0 y f(x) = 0 si y solo si x =0
  • Cumplir con la desigualdad del triangulo f(x+y)<= f(x) + f(y)
  • Su producto por escalares debe satisfacer f(ax) = f(a) f(x) para toda a

Un ejemplo curioso es f(x) = 1 si x es mayor o igual a 1 y 0 para cualquier otro caso en los n煤meros naturales.

  • Como solo puede valer 0 cuando x = 0 y 1 para cualquier otro valor, cumple con la no negatividad
  • f(x+y) solo puede valer 0 o 1 mientras que f(x) + f(y) puede valer entre 0 y 2 por lo que cumple la desigualdad del tri谩ngulo.
  • Cuando x = 0 se ve que se cumple el producto por escalares, por otro lado, si x es diferente de 0 tenemos: f(ax) = 0 si a = 0 y f(ax) = 1 si a es diferente de 0, mientras que f(a)f(x) = 0 si a = 0 y f(a)f(x) = f(x) = 1 si a es diferente de 0.

Nota curiosa: un rombo es un esfera si se usa la m茅trica Manhattan en la definici贸n del circulo. Lo mismo acurre con un cuadrado si se usa la m茅trica del m谩ximo.

METRICAS DE DISTANCIA

Distancia Euclidiana

El acento puede ser un poco dif铆cil al principio pero es una muy buena representaci贸n de distancia euclidiana y manhattan
https://www.youtube.com/watch?v=p3HbBlcXDTE

Luego de leer tanto owski Y usky, me parece que las m茅tricas de distancia, buscan determinar la proximidad entre dos datos o conjuntos de datos (por ponerlo de una manera minimalista), de una forma binaria, para facilitar 谩rboles de decisi贸n.

m茅trica discreta.

Para vectores binarios, algunas m茅tricas de similitud o distancia (dependiendo de c贸mo lo quieras ver) son:

  • Tanimoto o Jaccard
  • Dice
  • Kulsinski

Y una liga a scipy con m谩s m茅tricas para vectores con cont煤nuos, discretos o binarios:
https://docs.scipy.org/doc/scipy/reference/spatial.distance.html

En general yo conozco las normas l_i que la norma l_2 es la euclidiana y la l_1 es la de Manhattan. Con i=0 es muy interesante porque cuenta los que son iguales y los que son diferentes y la norma con i=inf da el m谩ximo valor.

Algunas que encontr茅:
M茅trica de Mahalanobis.
M茅trica esf茅rica.
M茅trica binaria: Esta la usamos en Machine Learning
Espacio m茅trico.
Distancia de Levenshtein.

en realidad existen infinidades de distancia

  • distancia n=1,2,3,4,鈥nf este es el resumen de distancias, n=1 es la de manhatan, n=2 es la ecuclidina, y n=inf es la infinita. Esas son las mas conocidas en el mundo de la geometria.

  • Tambi茅n se tiene MSE

hamming es una m茅trica muy 煤til que mide 鈥渓a distancia de errores鈥, un ejemplo en donde se usa es a la hora de comparar cadenas de ADN, si las cadenas son diferentes dependiendo de cuanta se la diferencia el c贸digo de hamming nos retorna un numero de 鈥渄istancia de error鈥

Distancia de Chebyshev

En relatividad general. La metrica que se utiliza es la metrica de Minkowski, que se basa en un espaciotiempo con ausencia de gravedad

Un comparativo de diferentes m茅tricas de distancia, sus **ventajas desventajas y aplicaciones
**
https://journals.plos.org/plosone/article/figure?id=10.1371/journal.pone.0144059.t001

Otras distancias son la Distancia Chebyshev y la Distancia Kullback-Leibler

Encontre esta m茅trica llamada distancia de Minkowski:

Distancia Bray-Curtis
Existen otras formas de medir distancias entre dos localidades. En ecolog铆a una de las distancias m谩s utilizada es la de Bray-Curtis, esta distancia es el opuesto del porcentaje de similitud, que a su vez es la versi贸n de abundancia del 铆ndice de Sorensen.

En este link se encuentran m谩s m茅tricas que est谩n bien explicadas
https://towardsdatascience.com/importance-of-distance-metrics-in-machine-learning-modelling-e51395ffe60d

Distacia Minkowsky

Chevychev. El se帽or Chevichev

En este caso se aprecia tambipen que la 鈥淒istancia Euclidiana鈥 ser铆a el 鈥淒esplazamiento鈥 y la Distancia de Manhattan ser铆a simplemente la 鈥淒istancia Total鈥 (Con los cl谩sicos conceptos que ense帽an de f铆sica)

Definici贸n M茅tricas de Distancia.

. El espacio eucl麓谋deo R
n
Sea X = R
n, el conjunto de todas las n-uplas de n麓umeros reales. Si x = (x1, x2, 路 路 路 , xn) e
y = (y1, y2, 路 路 路 , yn) son elementos de X, definimos la distancia
d(x, y) =
vuutXn
i=1
(xi 鈭 yi

La m茅trica de Manhattan la podr铆a ver como la distancia del camino recorrido proyectada en el eje x m谩s la distancia proyectada en el eje y.

  • Distancia de Minkowsky:
    Esto se realiza mediante un par谩metro pp con el que se puede reproducir los valores de las anteriores. Matem谩ticamente se define como:

  • Distancia Chebyshev:
    Es una m茅trica definida en un espacio vectorial donde la distancia entre dos vectores
    es el mayor de sus diferencias a lo largo de cualquier dimensi贸n de coordenadas:

  • Distancia Kullback-Leibler:
    Es una medida no sim茅trica de la similitud o diferencia entre dos funciones de
    distribuci贸n de probabilidad P y Q. KL mide el n煤mero esperado de extra bits requeridos en muestras de c贸digo de P cuando se usa un c贸digo basado en Q, en lugar de un c贸digo basado en P. Generalmente P representa la 鈥渧erdadera鈥 distribuci贸n de los datos,
    observaciones, o cualquier distribuci贸n te贸rica. La medida Q generalmente representa una teor铆a, modelo, descripci贸n o aproximaci贸n de P:

Distancia Euclidiana Es la distancia en l铆nea recta o la trayectoria m谩s corta posible entre dos puntos.

Distancia Chebyshev Es una m茅trica definida en un espacio vectorial donde la distancia entre dos vectores es el mayor de sus diferencias a lo largo de cualquier dimensi贸n de coordenadas

Distancia Manhattan La funci贸n de la distancia Manhattan calcula la distancia que se puede recorrer para llegar de un punto de datos a la otra si un camino en forma de rejilla es seguido. La distancia Manhattan entre dos elementos es la suma de las diferencias de sus correspondientes componentes.

Distancia Kullback-Leibler Es una medida no sim茅trica de la similitud o diferencia entre dos funciones de distribuci贸n de probabilidad P y Q. KL mide el n煤mero esperado de extra bits requeridos en muestras de c贸digo de P cuando se usa un c贸digo basado en Q, en lugar de un c贸digo basado en P. Generalmente P representa la 鈥渧erdadera鈥 distribuci贸n de los datos, observaciones, o cualquier distribuci贸n te贸rica. La medida Q generalmente representa una teor铆a, modelo, descripci贸n o aproximaci贸n de P

Seg煤n recuerdo mis clases de c谩lculo de la universidad, t煤 puedes definir una m茅trica de distancia o Norma siempre y cuando cumpla estas 3 reglas:

  • Siempre es positiva
  • La longitud debe ser directamente proporcional al tama帽o
  • La longitud entre dos puntos ser谩 siempre menor o igual que la suma de sus longitudes (desigualdad del tri谩ngulo)

Por aqu铆 dejo un enlace a Wikipedia con m谩s informaci贸n al respecto.

<h3>M茅tricas de distancia</h3>
  • Muchos de los algoritmos de machine learning pueden clasificarse como algoritmos de optimizaci贸n.

  • lo que desean optimizar es una funci贸n que en muchas ocasiones se refiere a la distancia entre features
    x = (a, b), y = (c, d)

  • Distancia euclidiana:
    Una de las distancias m谩s conocidas y utilizadas es la distancia eucl铆dea. Ya que es la que se utiliza en el d铆a a d铆a para medir la separaci贸n entre dos puntos. La distancia eucl铆dea en un espacio de n dimensiones se define mediante la siguiente ecuaci贸n

  • Distancia de Manhattan: Otra distancia de inter茅s en algunos problemas es la Manhattan o geometr铆a del taxista. El nombre hace referencia al dise帽o de cuadriculado de las calles de la isla de Manhattan, lo que obliga a moverse en los ejes que definen las calles. As铆 la distancia m谩s corta entre dos puntos es la suma de los tramos de las calles. Esto es lo que se muestra en la siguiente figura donde la l铆nea negra representa la distancia eucl铆dea y el resto son la distancia Manhattan se define mediante la siguiente ecuaci贸n

  • Distancia de Minkowsky: La distancia de Minkowsky es una generalizaci贸n de las vistas anteriormente. Esto se realiza mediante un par谩metro pp con el que se puede reproducir los valores de las anteriores. Matem谩ticamente se define como

Mis apuntes https://github.com/fernando343/ProbabilisticThinking

M茅tricas de distancia.

  • Dado que tenemos vectores de caracter铆sticas, es importante poder medir distancias entre ellos, 驴Pero c贸mo?.
  • Muchos de los algoritmos de machine learning pueden clasificarse como algoritmos de optimizaci贸n, que buscan optimizar la distancia de vectores.
  • Lo que desean optimizar es una funci贸n que en muchas ocasiones se refiere a la distancia entre features. $x = (a, b)$ y $y = (c, d)$.
  • Distancia euclidiana: $\sqrt{(a-c)^2 + (b-d)^2}$.
  • Distancia de Manhattan: $|a-c|+|b-d|$. Se llama as铆 porque nos permite medir distancia a trav茅s de calles 馃槅.
<h3>**M茅tricas de distancia
**</h3>
  • Muchos de los algoritmos de machine learning pueden clasificarse como algoritmos de optimizaci贸n.
  • Lo que desean optimizar es una funci贸n que en muchas ocasiones se refiere a la distancia entre features(vectores).
  • Distancia euclidiana, esta es la forma cl谩sica.
  • Distancia de Manhattan, toma en cuenta la diferencia de los valores absolutos, y suma estas diferencias para obtener un vector de distancia. Se llama m茅trica de Manhattan por que 煤nicamente permite ir atraves de calles y no en l铆nea recta.

increible


Google tiene una herramienta llamada Google Earth Pro, el cual es muy utilizado para comunicaciones.

Entiendo que no es lo mismo la distancia entre 2 puntos y el recorrido, porque se pueden definir dos puntos que tengan la misma posici贸n y la distancia entre si sea 0 (cero), pero se pueden dar infinitos recorridos cuya longitud puede variar.

Encontr茅 un paper muy interesante sobre distancias. En machine learning, la selecci贸n de una funci贸n de distancia adecuada es fundamental para los algoritmos de aprendizaje basados en instancias. Y esta funci贸n de distancia dicta el 茅xito o el fracaso de dichos algoritmos:
https://www.researchgate.net/publication/279538194_Aprendizaje_supervisado_de_funciones_de_distancia_estado_del_arte

F贸rmula del semiverso (Haversine Formula): https://es.wikipedia.org/wiki/F贸rmula_del_semiverseno#F贸rmula_del_semiverseno

Usada para calcular la distancia entre 2 puntos en una esfera, conociendo su latitud y longitud.

La tuve que usar (y no sab铆a que era esa) en el desarrollo de una app en Android.

Aqu铆 encontr茅 algunas a parte de las que ya se tocaron en los videos: