Aún no tienes acceso a esta clase

Crea una cuenta y continúa viendo este curso

Métricas de distancia

16/24
Recursos

Aportes 73

Preguntas 6

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad? Crea una cuenta o inicia sesión.

GEOMETRIA DEL TAXISTA

Realizada por Hermann Minkowski

Linea Roja = Métrica Binaria

Linea Verde = Métrica Euclidiana

Linea Amarilla y Azul = Métrica de Manhattan

Hola, encontré estas dos métricas en internet.

  • **Distancia Chebyshev **
    Es una métrica definida en un espacio vectorial donde la distancia entre dos vectores es el mayor de sus diferencias a lo largo de cualquier dimensión de coordenadas

  • Distancia Kullback-Leibler
    Es una medida no simétrica de la similitud o diferencia entre dos funciones de distribución de probabilidad P y Q. KL mide el número esperado de extra bits requeridos en muestras de código de P cuando se usa un código basado en Q, en lugar de un código
    basado en P. Generalmente P representa la “verdadera” distribución de los datos, observaciones, o cualquier distribución teórica. La medida Q generalmente representa una teoría, modelo, descripción o aproximación de P

El concepto matemático de métrica, si saben un poco de funciones, es suficiente para interpretar y generalizar un poco mas el concepto de métrica.

Una métrica sobre un conjunto X es una función (llamada función distancia o simplemente distancia)

d : X × X → [0,∞),

donde [0,∞) es el conjunto de los números reales no-negativos (no se puede poner R porque la distancia no puede ser negativa), y tal que, para cualesquiera x, y, z de X, se satisfacen las siguientes condiciones:

d(x, y) ≥ 0 (no-negativa, o axioma de separación)
d(x, y) = 0 si y solo si x = y (axioma de coincidencia)
d(x, y) = d(y, x) (simetría)
d(x, z) ≤ d(x, y) + d(y, z) (desigualdad triangular).

siguiendo la definición anterior, tenemos la métrica discreta definida por:

d(x,y) = 0 si x=y
d(x,y) = 1 Si x diferente de y

Conseguí en este portal algunas métricas de distancia con una brevísima explicación de cada una: https://www.interactivechaos.com/manual/tutorial-de-machine-learning/distancia-de-chebyshev

Encontre esto 😄! Muy muy interesante !

Hola, es mi primer aporte. He averiguado sobre métricas de distancia en Machine Learning y quisiera compartirlo con todos 😊.
Primero. ¿Qué son las métricas de distancia ? Son maneras de hallar la distancia entre un punto A y un punto B, viendolo de manera vectorial generalmente.
La que todos conocemos es esa fórmula que se asemeja al teorema de Pitagoras y se llama Distancia Euclidiana :

![](

Esta formula se deriva de otra aún más fascinante que se llama la distancia de Minkowski y que engloba otras más :

![](

¿Logran verlo? Cuando p = 2 se forma la ecuación de Distancia Euclidiana .

Cuando p = 1 se le llama la Distancia de Manhattan y se le conoce así como el avance escalonado :

![](

Y cuando p = 3 se le llama Distancia Cosénica, algo muy aplicado en la álgebra lineal que dictan en la universidad para saber la dirección de dos puntos sin importar la magnitud de estas y tiene mucha relación con esta formula de aquí:

¿Y entonces ? ¿ Cómo uso estas distancias en Machine Learning ?

Pues estas se usan cuando no usamos algoritmos probabilísticos y tenemos que aplicar agrupación cuando los datos no tienen etiquetas por ejemplo!!

Este tema me fascino mucho y espero me puedan ayudar contándome qué más se puede hacer ya que recién estoy empezando en esta maravillosa rama.

Gracias !!

<h1>Métricas de distancia</h1>
  • Distancia Euclidiana: distancia en línea recta o la trayectoria más corta posible entre dos puntos.
  • Distancia Manhattan: calcula la distancia que se puede recorrer para llegar de un punto de datos a la otra si un camino en forma de rejilla es seguido. La distancia Manhattan entre dos elementos es la suma de las diferencias de sus correspondientes componentes.
  • Distancia Chebyshev: métrica definida en un espacio vectorial donde la distancia entre dos vectores es el mayor de sus diferencias a lo largo de cualquier dimensión de coordenadas.
  • Distancia Kullback-Leibler: es una medida no simétrica de la similitud o diferencia entre dos funciones de distribución de probabilidad P y Q. KL mide el número esperado de extra bits requeridos en muestras de código de P cuando se usa un código basado en Q, en lugar de un código basado en P. Generalmente P representa la “verdadera” distribución de los datos, observaciones, o cualquier distribución teórica. La medida Q generalmente representa una teoría, modelo, descripción o aproximación de P.
  • Métrica binaria: magnitud y su ley que determina el menor nivel de diferencia o lejanía entre dos objetos de un espacio o geometría dados, usualmente considerados como puntos, en este caso mediante el resultado de la igualdad o desigualdad pura de ambos.
  • Métrica esférica: es una forma de distancia que asume que los puntos A y B están dispuestos sobre la superficie de una esfera sólida centrada en O de radio “r” entonces la distancia en cuestión entre ambos puntos sería la longitud de la ortodrómica o arco de circunferencia concéntrica en O y de radio r que contiene en cada uno de sus extremos a A y a B.

En esta grafica ademas podemos ver segun la complejidad de tiempo.

Para entender mejor recomiendo que tomen un curso de álgebra lineal . La métrica de distancia es un concepto matemático que generaliza la métrica euclidiana . Por ejemplo cuando estudias el espacio no-euclidiano (ejm , esferoidal , curvo ) se necesita definir otro tipo de distancia pero que no pierda propiedades que tiene las de euclides . recuerden cada espacio de trabajo (espacio vectorial ) tiene su propia metrica definida . Pero no cualquier distancia es una metrica de distancia de un espacio vectorial .

📏 Las métricas de distancia ayudan a los algoritmos a encontrar similitudes entre los elementos del dataset.
.
Algunos ejemplos que encontré de métricas de distancia:
.

Métricas de Distancia
Nos permiten cuantificar la cercanía o lejanía de los datos. Generalmente los algoritmos de machine learning son algoritmos de optimización, es decir optimizan las distancias entre datos.
Existen diversas maneras de calcular la distancia entre ellas están la euclidiana, la distancia de Manhattan, la elíptica, la hiperbólica, etc. Es nuestro trabajo elegir la distancia óptima para realizar nuestro programa.

En Ingenieria Industrial se ven este tipo de metricas como (Ecludiana o Retilinea) y se usan para metodos de localizacion de plantas industriales, basados en el menor costo de transporte teniendo como puntos de referencia proveedores(MP o Insumos) y cliente(Ventas).

Métrica EIGRP para enrutamiento: (ancho de banda, delay, Confiabilidad, carga)
Métricas para la relatividad como la de Schwarzschild o Minkowski
Métrica de Riemann para geometría elíptica e hiperbólica

No conocía la distancia de Manhattan.

Por Similitud de Coseno
= ( a * b ) / ( ||a|| * ||b|| )

se que necesito leer mas, es solo que youtube se empeña en tener tan buenos videos, y para muestra un boton

https://www.youtube.com/watch?v=Usngvpiv_LI

MÉTRICAS DE DISTANCIA


Métrica euclideana
Sea un espacio cartesiano de N dimensiones la distancia entre dos de sus puntos A, B viene definida por la longitud del segmento de línea recta que los une o lo que es lo mismo:

que para los casos del espacio tridimenional y el plano quedan representadas respectivamente por:

La demostración de las cinco propiedades inherentes a las métricas son evidentes.

Métrica binaria
Se define por distancia binaria a la funcion d(x,y) definida según:

Esta métrica suele ser usada en la lógica, la topología y la inteligencia artificial.

Métrica esférica

La métrica esférica es una forma de distancia que asume que los puntos A y B están dispuestos sobre la superficie de una esfera sólida centrada en O de radio “r” entonces la distancia en cuestión entre ambos puntos sería la longitud de la ortodrómica o arco de circunferencia concéntrica en O y de radio r que contiene en cada uno de sus extremos a A y a B:

Hablando númericamente sería:

donde los alfas representan las longitudes de sus respectivos puntos y las betas son las latitudes, exactamente igual que en nuestro planeta.

En el caso, por ejemplo, de las distancias marítimas, pues a nivel del mar se evade el extra en altitud que le agregan las elevaciones a los cálculos de distancia, esta forma de medición en muy útil, pues como se sabe la Tierra tiene forma esférica y sería equívoco por tanto creer que se viaja en línea recta cuando en verdad se navega sobre un arco de circunferencia.

La métrica del taxista

Una métrica de distancia muy utilizada en ML, es el descenso del gradiente, mediante regresión lineal

Métricas de distancia:
Son la optimiszación que existe entre distancias(De un feature a otro)
Notas:
Existen distintas maneras de medir distancia.
La distancia no es necesariamente una linea recta que llega de un punto A al B. SI no es el mejor camino para llegar de A a B.
La mayoría de los algoritmos de machine learnig tratan de optimizar algo.

La metrica del taxista

Metricas de distancia aplica el nivel de congestion de la calle o lo que se puede modelar en un grafo como el peso de las aristas, tambien el tipo de si es unidireccional el camino o en algunos puntos es bidireccional

Inclusive pueden inventar sus propias métricas de distancia dependiendo de sus necesidades. Sólo deben tener bien definido su Espacio Vectorial donde vivirán sus Vectores y que su métrica de distancia cumpla las siguientes propiedades para todo vector perteneciente en su espacio vectorial, y en automático tendrán un espacio métrico 😉

Según el link al paper compartido por Juan David Vergara, el mejor algoritmo de distancia, cuando son datasets de baja dimensión, es el de distancia promedio “average”, es de rápida convergencia cuando el algoritmo de agrupamiento usado es el “k-means”.

Por otro lado, para datasets de dimensiones altas (más parámetros en el vector de datos) la correlación de Pearson es la que mejor funciona, especialmente con enfoques jerárquicos para agrupamiento de datos.

Para que una función sea considerada una norma debe cumplir tres condiciones:

  • Siempre debe ser no negativa y solo vale 0 cuando x =0, f(x)>0 y f(x) = 0 si y solo si x =0
  • Cumplir con la desigualdad del triangulo f(x+y)<= f(x) + f(y)
  • Su producto por escalares debe satisfacer f(ax) = f(a) f(x) para toda a

Un ejemplo curioso es f(x) = 1 si x es mayor o igual a 1 y 0 para cualquier otro caso en los números naturales.

  • Como solo puede valer 0 cuando x = 0 y 1 para cualquier otro valor, cumple con la no negatividad
  • f(x+y) solo puede valer 0 o 1 mientras que f(x) + f(y) puede valer entre 0 y 2 por lo que cumple la desigualdad del triángulo.
  • Cuando x = 0 se ve que se cumple el producto por escalares, por otro lado, si x es diferente de 0 tenemos: f(ax) = 0 si a = 0 y f(ax) = 1 si a es diferente de 0, mientras que f(a)f(x) = 0 si a = 0 y f(a)f(x) = f(x) = 1 si a es diferente de 0.

Nota curiosa: un rombo es un esfera si se usa la métrica Manhattan en la definición del circulo. Lo mismo acurre con un cuadrado si se usa la métrica del máximo.

METRICAS DE DISTANCIA

Distancia Euclidiana

El acento puede ser un poco difícil al principio pero es una muy buena representación de distancia euclidiana y manhattan
https://www.youtube.com/watch?v=p3HbBlcXDTE

Luego de leer tanto owski Y usky, me parece que las métricas de distancia, buscan determinar la proximidad entre dos datos o conjuntos de datos (por ponerlo de una manera minimalista), de una forma binaria, para facilitar árboles de decisión.

métrica discreta.

Para vectores binarios, algunas métricas de similitud o distancia (dependiendo de cómo lo quieras ver) son:

  • Tanimoto o Jaccard
  • Dice
  • Kulsinski

Y una liga a scipy con más métricas para vectores con contúnuos, discretos o binarios:
https://docs.scipy.org/doc/scipy/reference/spatial.distance.html

En general yo conozco las normas l_i que la norma l_2 es la euclidiana y la l_1 es la de Manhattan. Con i=0 es muy interesante porque cuenta los que son iguales y los que son diferentes y la norma con i=inf da el máximo valor.

Algunas que encontré:
Métrica de Mahalanobis.
Métrica esférica.
Métrica binaria: Esta la usamos en Machine Learning
Espacio métrico.
Distancia de Levenshtein.

en realidad existen infinidades de distancia

  • distancia n=1,2,3,4,…inf este es el resumen de distancias, n=1 es la de manhatan, n=2 es la ecuclidina, y n=inf es la infinita. Esas son las mas conocidas en el mundo de la geometria.

  • También se tiene MSE

hamming es una métrica muy útil que mide “la distancia de errores”, un ejemplo en donde se usa es a la hora de comparar cadenas de ADN, si las cadenas son diferentes dependiendo de cuanta se la diferencia el código de hamming nos retorna un numero de “distancia de error”

Distancia de Chebyshev

En relatividad general. La metrica que se utiliza es la metrica de Minkowski, que se basa en un espaciotiempo con ausencia de gravedad

Un comparativo de diferentes métricas de distancia, sus **ventajas desventajas y aplicaciones
**
https://journals.plos.org/plosone/article/figure?id=10.1371/journal.pone.0144059.t001

Otras distancias son la Distancia Chebyshev y la Distancia Kullback-Leibler

Encontre esta métrica llamada distancia de Minkowski:

Distancia Bray-Curtis
Existen otras formas de medir distancias entre dos localidades. En ecología una de las distancias más utilizada es la de Bray-Curtis, esta distancia es el opuesto del porcentaje de similitud, que a su vez es la versión de abundancia del índice de Sorensen.

Distacia Minkowsky

Chevychev. El señor Chevichev

En este caso se aprecia tambipen que la “Distancia Euclidiana” sería el “Desplazamiento” y la Distancia de Manhattan sería simplemente la “Distancia Total” (Con los clásicos conceptos que enseñan de física)

Definición Métricas de Distancia.

. El espacio eucl´ıdeo R
n
Sea X = R
n, el conjunto de todas las n-uplas de n´umeros reales. Si x = (x1, x2, · · · , xn) e
y = (y1, y2, · · · , yn) son elementos de X, definimos la distancia
d(x, y) =
vuutXn
i=1
(xi − yi

La métrica de Manhattan la podría ver como la distancia del camino recorrido proyectada en el eje x más la distancia proyectada en el eje y.

  • Distancia de Minkowsky:
    Esto se realiza mediante un parámetro pp con el que se puede reproducir los valores de las anteriores. Matemáticamente se define como:

  • Distancia Chebyshev:
    Es una métrica definida en un espacio vectorial donde la distancia entre dos vectores
    es el mayor de sus diferencias a lo largo de cualquier dimensión de coordenadas:

  • Distancia Kullback-Leibler:
    Es una medida no simétrica de la similitud o diferencia entre dos funciones de
    distribución de probabilidad P y Q. KL mide el número esperado de extra bits requeridos en muestras de código de P cuando se usa un código basado en Q, en lugar de un código basado en P. Generalmente P representa la “verdadera” distribución de los datos,
    observaciones, o cualquier distribución teórica. La medida Q generalmente representa una teoría, modelo, descripción o aproximación de P:

Distancia Euclidiana Es la distancia en línea recta o la trayectoria más corta posible entre dos puntos.

Distancia Chebyshev Es una métrica definida en un espacio vectorial donde la distancia entre dos vectores es el mayor de sus diferencias a lo largo de cualquier dimensión de coordenadas

Distancia Manhattan La función de la distancia Manhattan calcula la distancia que se puede recorrer para llegar de un punto de datos a la otra si un camino en forma de rejilla es seguido. La distancia Manhattan entre dos elementos es la suma de las diferencias de sus correspondientes componentes.

Distancia Kullback-Leibler Es una medida no simétrica de la similitud o diferencia entre dos funciones de distribución de probabilidad P y Q. KL mide el número esperado de extra bits requeridos en muestras de código de P cuando se usa un código basado en Q, en lugar de un código basado en P. Generalmente P representa la “verdadera” distribución de los datos, observaciones, o cualquier distribución teórica. La medida Q generalmente representa una teoría, modelo, descripción o aproximación de P

Según recuerdo mis clases de cálculo de la universidad, tú puedes definir una métrica de distancia o Norma siempre y cuando cumpla estas 3 reglas:

  • Siempre es positiva
  • La longitud debe ser directamente proporcional al tamaño
  • La longitud entre dos puntos será siempre menor o igual que la suma de sus longitudes (desigualdad del triángulo)

Por aquí dejo un enlace a Wikipedia con más información al respecto.

<h3>Métricas de distancia</h3>
  • Muchos de los algoritmos de machine learning pueden clasificarse como algoritmos de optimización.

  • lo que desean optimizar es una función que en muchas ocasiones se refiere a la distancia entre features
    x = (a, b), y = (c, d)

  • Distancia euclidiana:
    Una de las distancias más conocidas y utilizadas es la distancia euclídea. Ya que es la que se utiliza en el día a día para medir la separación entre dos puntos. La distancia euclídea en un espacio de n dimensiones se define mediante la siguiente ecuación

  • Distancia de Manhattan: Otra distancia de interés en algunos problemas es la Manhattan o geometría del taxista. El nombre hace referencia al diseño de cuadriculado de las calles de la isla de Manhattan, lo que obliga a moverse en los ejes que definen las calles. Así la distancia más corta entre dos puntos es la suma de los tramos de las calles. Esto es lo que se muestra en la siguiente figura donde la línea negra representa la distancia euclídea y el resto son la distancia Manhattan se define mediante la siguiente ecuación

  • Distancia de Minkowsky: La distancia de Minkowsky es una generalización de las vistas anteriormente. Esto se realiza mediante un parámetro pp con el que se puede reproducir los valores de las anteriores. Matemáticamente se define como

Mis apuntes https://github.com/fernando343/ProbabilisticThinking

Métricas de distancia.

  • Dado que tenemos vectores de características, es importante poder medir distancias entre ellos, ¿Pero cómo?.
  • Muchos de los algoritmos de machine learning pueden clasificarse como algoritmos de optimización, que buscan optimizar la distancia de vectores.
  • Lo que desean optimizar es una función que en muchas ocasiones se refiere a la distancia entre features. $x = (a, b)$ y $y = (c, d)$.
  • Distancia euclidiana: $\sqrt{(a-c)^2 + (b-d)^2}$.
  • Distancia de Manhattan: $|a-c|+|b-d|$. Se llama así porque nos permite medir distancia a través de calles 😆.
<h3>**Métricas de distancia
**</h3>
  • Muchos de los algoritmos de machine learning pueden clasificarse como algoritmos de optimización.
  • Lo que desean optimizar es una función que en muchas ocasiones se refiere a la distancia entre features(vectores).
  • Distancia euclidiana, esta es la forma clásica.
  • Distancia de Manhattan, toma en cuenta la diferencia de los valores absolutos, y suma estas diferencias para obtener un vector de distancia. Se llama métrica de Manhattan por que únicamente permite ir atraves de calles y no en línea recta.

increible


Google tiene una herramienta llamada Google Earth Pro, el cual es muy utilizado para comunicaciones.

Entiendo que no es lo mismo la distancia entre 2 puntos y el recorrido, porque se pueden definir dos puntos que tengan la misma posición y la distancia entre si sea 0 (cero), pero se pueden dar infinitos recorridos cuya longitud puede variar.

Encontré un paper muy interesante sobre distancias. En machine learning, la selección de una función de distancia adecuada es fundamental para los algoritmos de aprendizaje basados en instancias. Y esta función de distancia dicta el éxito o el fracaso de dichos algoritmos:
https://www.researchgate.net/publication/279538194_Aprendizaje_supervisado_de_funciones_de_distancia_estado_del_arte

Fórmula del semiverso (Haversine Formula): https://es.wikipedia.org/wiki/Fórmula_del_semiverseno#Fórmula_del_semiverseno

Usada para calcular la distancia entre 2 puntos en una esfera, conociendo su latitud y longitud.

La tuve que usar (y no sabía que era esa) en el desarrollo de una app en Android.

Aquí encontré algunas a parte de las que ya se tocaron en los videos: