https://dataaspirant.com/2015/04/11/five-most-popular-similarity-measures-implementation-in-python/
https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0144059
Programación probabilística
Introducción a la programación probabilística
Probabilidad condicional
Teorema de Bayes
Entiende el Teorema de Bayes
Análisis de síntomas
Aplicaciones del Teorema de Bayes
Mentiras estadísticas
Garbage in, garbage out
Imágenes engañosas
Cum Hoc Ergo Propter Hoc
Prejuicio en el muestreo
Falacia del francotirador de Texas
Porcentajes confusos
Falacia de regresión
Introducción a Machine Learning
Introducción a Machine Learning
Feature vectors
Métricas de distancia
Agrupamiento
Introducción al agrupamiento
Agrupamiento jerárquico
Agrupamiento K-means
Otras técnicas de agrupamiento
Clasificación
Introducción a la clasificación
Clasificación K-nearest neighbors
Otras tecnicas de clasificación
Conclusiones
No tienes acceso a esta clase
¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera
David Aroesti
Aportes 76
Preguntas 6
Métricas de distancias:
Tomado de: https://docs.scipy.org/doc/scipy/reference/spatial.distance.html
GEOMETRIA DEL TAXISTA
Realizada por Hermann Minkowski
Linea Roja = Métrica Binaria
Linea Verde = Métrica Euclidiana
Linea Amarilla y Azul = Métrica de Manhattan
Hola, encontré estas dos métricas en internet.
**Distancia Chebyshev **
Es una métrica definida en un espacio vectorial donde la distancia entre dos vectores es el mayor de sus diferencias a lo largo de cualquier dimensión de coordenadas
Distancia Kullback-Leibler
Es una medida no simétrica de la similitud o diferencia entre dos funciones de distribución de probabilidad P y Q. KL mide el número esperado de extra bits requeridos en muestras de código de P cuando se usa un código basado en Q, en lugar de un código
basado en P. Generalmente P representa la “verdadera” distribución de los datos, observaciones, o cualquier distribución teórica. La medida Q generalmente representa una teoría, modelo, descripción o aproximación de P
El concepto matemático de métrica, si saben un poco de funciones, es suficiente para interpretar y generalizar un poco mas el concepto de métrica.
Una métrica sobre un conjunto X es una función (llamada función distancia o simplemente distancia)
d : X × X → [0,∞),
donde [0,∞) es el conjunto de los números reales no-negativos (no se puede poner R porque la distancia no puede ser negativa), y tal que, para cualesquiera x, y, z de X, se satisfacen las siguientes condiciones:
d(x, y) ≥ 0 (no-negativa, o axioma de separación)
d(x, y) = 0 si y solo si x = y (axioma de coincidencia)
d(x, y) = d(y, x) (simetría)
d(x, z) ≤ d(x, y) + d(y, z) (desigualdad triangular).
siguiendo la definición anterior, tenemos la métrica discreta definida por:
d(x,y) = 0 si x=y
d(x,y) = 1 Si x diferente de y
Encontre esto 😄! Muy muy interesante !
Conseguí en este portal algunas métricas de distancia con una brevísima explicación de cada una: https://www.interactivechaos.com/manual/tutorial-de-machine-learning/distancia-de-chebyshev
Métricas de distancia:
-Canberra.
-Euclidiana.
-Pearson.
-Máxima.
Hola, es mi primer aporte. He averiguado sobre métricas de distancia en Machine Learning y quisiera compartirlo con todos 😊.
Primero. ¿Qué son las métricas de distancia ? Son maneras de hallar la distancia entre un punto A y un punto B, viendolo de manera vectorial generalmente.
La que todos conocemos es esa fórmula que se asemeja al teorema de Pitagoras y se llama Distancia Euclidiana :
![](
Esta formula se deriva de otra aún más fascinante que se llama la distancia de Minkowski y que engloba otras más :
![](
¿Logran verlo? Cuando p = 2 se forma la ecuación de Distancia Euclidiana .
Cuando p = 1 se le llama la Distancia de Manhattan y se le conoce así como el avance escalonado :
![](
Y cuando p = 3 se le llama Distancia Cosénica, algo muy aplicado en la álgebra lineal que dictan en la universidad para saber la dirección de dos puntos sin importar la magnitud de estas y tiene mucha relación con esta formula de aquí:
¿Y entonces ? ¿ Cómo uso estas distancias en Machine Learning ?
Pues estas se usan cuando no usamos algoritmos probabilísticos y tenemos que aplicar agrupación cuando los datos no tienen etiquetas por ejemplo!!
Este tema me fascino mucho y espero me puedan ayudar contándome qué más se puede hacer ya que recién estoy empezando en esta maravillosa rama.
Gracias !!
Para entender mejor recomiendo que tomen un curso de álgebra lineal . La métrica de distancia es un concepto matemático que generaliza la métrica euclidiana . Por ejemplo cuando estudias el espacio no-euclidiano (ejm , esferoidal , curvo ) se necesita definir otro tipo de distancia pero que no pierda propiedades que tiene las de euclides . recuerden cada espacio de trabajo (espacio vectorial ) tiene su propia metrica definida . Pero no cualquier distancia es una metrica de distancia de un espacio vectorial .
En esta grafica ademas podemos ver segun la complejidad de tiempo.
📏 Las métricas de distancia ayudan a los algoritmos a encontrar similitudes entre los elementos del dataset.
.
Algunos ejemplos que encontré de métricas de distancia:
.
Métricas de Distancia
Nos permiten cuantificar la cercanía o lejanía de los datos. Generalmente los algoritmos de machine learning son algoritmos de optimización, es decir optimizan las distancias entre datos.
Existen diversas maneras de calcular la distancia entre ellas están la euclidiana, la distancia de Manhattan, la elíptica, la hiperbólica, etc. Es nuestro trabajo elegir la distancia óptima para realizar nuestro programa.
Les dejo un excelente recurso: https://www.analyticslane.com/2018/08/24/distancias-y-metricas-en-aprendizaje-automatico/
En Ingenieria Industrial se ven este tipo de metricas como (Ecludiana o Retilinea) y se usan para metodos de localizacion de plantas industriales, basados en el menor costo de transporte teniendo como puntos de referencia proveedores(MP o Insumos) y cliente(Ventas).
Métrica EIGRP para enrutamiento: (ancho de banda, delay, Confiabilidad, carga)
Métricas para la relatividad como la de Schwarzschild o Minkowski
Métrica de Riemann para geometría elíptica e hiperbólica
No conocía la distancia de Manhattan.
Por Similitud de Coseno
= ( a * b ) / ( ||a|| * ||b|| )
se que necesito leer mas, es solo que youtube se empeña en tener tan buenos videos, y para muestra un boton
MÉTRICAS DE DISTANCIA
Métrica euclideana
Sea un espacio cartesiano de N dimensiones la distancia entre dos de sus puntos A, B viene definida por la longitud del segmento de línea recta que los une o lo que es lo mismo:
que para los casos del espacio tridimenional y el plano quedan representadas respectivamente por:
La demostración de las cinco propiedades inherentes a las métricas son evidentes.
Métrica binaria
Se define por distancia binaria a la funcion d(x,y) definida según:
Esta métrica suele ser usada en la lógica, la topología y la inteligencia artificial.
Métrica esférica
La métrica esférica es una forma de distancia que asume que los puntos A y B están dispuestos sobre la superficie de una esfera sólida centrada en O de radio “r” entonces la distancia en cuestión entre ambos puntos sería la longitud de la ortodrómica o arco de circunferencia concéntrica en O y de radio r que contiene en cada uno de sus extremos a A y a B:
Hablando númericamente sería:
donde los alfas representan las longitudes de sus respectivos puntos y las betas son las latitudes, exactamente igual que en nuestro planeta.
En el caso, por ejemplo, de las distancias marítimas, pues a nivel del mar se evade el extra en altitud que le agregan las elevaciones a los cálculos de distancia, esta forma de medición en muy útil, pues como se sabe la Tierra tiene forma esférica y sería equívoco por tanto creer que se viaja en línea recta cuando en verdad se navega sobre un arco de circunferencia.
La métrica del taxista
Una métrica de distancia muy utilizada en ML, es el descenso del gradiente, mediante regresión lineal
Métricas de distancia:
Son la optimiszación que existe entre distancias(De un feature a otro)
Notas:
Existen distintas maneras de medir distancia.
La distancia no es necesariamente una linea recta que llega de un punto A al B. SI no es el mejor camino para llegar de A a B.
La mayoría de los algoritmos de machine learnig tratan de optimizar algo.
La metrica del taxista
Metricas de distancia aplica el nivel de congestion de la calle o lo que se puede modelar en un grafo como el peso de las aristas, tambien el tipo de si es unidireccional el camino o en algunos puntos es bidireccional
Inclusive pueden inventar sus propias métricas de distancia dependiendo de sus necesidades. Sólo deben tener bien definido su Espacio Vectorial donde vivirán sus Vectores y que su métrica de distancia cumpla las siguientes propiedades para todo vector perteneciente en su espacio vectorial, y en automático tendrán un espacio métrico 😉
Según el link al paper compartido por Juan David Vergara, el mejor algoritmo de distancia, cuando son datasets de baja dimensión, es el de distancia promedio “average”, es de rápida convergencia cuando el algoritmo de agrupamiento usado es el “k-means”.
Por otro lado, para datasets de dimensiones altas (más parámetros en el vector de datos) la correlación de Pearson es la que mejor funciona, especialmente con enfoques jerárquicos para agrupamiento de datos.
Otras métricas de distancia
• Distancia de Chebyshev: Esta métrica calcula la máxima diferencia entre las coordenadas de dos puntos. Es adecuada para medir distancias en un espacio de rejilla o tablero de ajedrez.
• Distancia de Minkowski: Es una generalización que incluye tanto la distancia Euclidiana como la distancia de Manhattan como casos especiales. Se define como la raíz n-ésima de la suma de las diferencias en las coordenadas elevadas a la potencia n.
Distancia de Hamming: Es utilizada para medir la diferencia entre dos cadenas de igual longitud. Mide la cantidad de posiciones en las que los símbolos difieren.
Encontre estas distancias
La distancia Hamming se compara la distancia de cada punto de una lista con cada punto de otra lista para calcular la distancia total. Por ejemplo:
La distancia total se define por dos de las 5 letras de cada palabra. La distancia entra esas letras (según el abecedario) sería de 3 y 21, respectivamente.
Para que una función sea considerada una norma debe cumplir tres condiciones:
Un ejemplo curioso es f(x) = 1 si x es mayor o igual a 1 y 0 para cualquier otro caso en los números naturales.
Nota curiosa: un rombo es un esfera si se usa la métrica Manhattan en la definición del circulo. Lo mismo acurre con un cuadrado si se usa la métrica del máximo.
METRICAS DE DISTANCIA
Distancia Euclidiana
El acento puede ser un poco difícil al principio pero es una muy buena representación de distancia euclidiana y manhattan
https://www.youtube.com/watch?v=p3HbBlcXDTE
Luego de leer tanto owski Y usky, me parece que las métricas de distancia, buscan determinar la proximidad entre dos datos o conjuntos de datos (por ponerlo de una manera minimalista), de una forma binaria, para facilitar árboles de decisión.
métrica discreta.
Para vectores binarios, algunas métricas de similitud o distancia (dependiendo de cómo lo quieras ver) son:
Y una liga a scipy con más métricas para vectores con contúnuos, discretos o binarios:
https://docs.scipy.org/doc/scipy/reference/spatial.distance.html
En general yo conozco las normas l_i que la norma l_2 es la euclidiana y la l_1 es la de Manhattan. Con i=0 es muy interesante porque cuenta los que son iguales y los que son diferentes y la norma con i=inf da el máximo valor.
Algunas que encontré:
Métrica de Mahalanobis.
Métrica esférica.
Métrica binaria: Esta la usamos en Machine Learning
Espacio métrico.
Distancia de Levenshtein.
Esta pagina esta interesante:
https://www.datanovia.com/en/lessons/clustering-distance-measures/
en realidad existen infinidades de distancia
distancia n=1,2,3,4,…inf este es el resumen de distancias, n=1 es la de manhatan, n=2 es la ecuclidina, y n=inf es la infinita. Esas son las mas conocidas en el mundo de la geometria.
También se tiene MSE
hamming es una métrica muy útil que mide “la distancia de errores”, un ejemplo en donde se usa es a la hora de comparar cadenas de ADN, si las cadenas son diferentes dependiendo de cuanta se la diferencia el código de hamming nos retorna un numero de “distancia de error”
Distancia de Chebyshev
En relatividad general. La metrica que se utiliza es la metrica de Minkowski, que se basa en un espaciotiempo con ausencia de gravedad
Un comparativo de diferentes métricas de distancia, sus **ventajas desventajas y aplicaciones
**
https://journals.plos.org/plosone/article/figure?id=10.1371/journal.pone.0144059.t001
Otras distancias son la Distancia Chebyshev y la Distancia Kullback-Leibler
Encontre esta métrica llamada distancia de Minkowski:
Distancia Bray-Curtis
Existen otras formas de medir distancias entre dos localidades. En ecología una de las distancias más utilizada es la de Bray-Curtis, esta distancia es el opuesto del porcentaje de similitud, que a su vez es la versión de abundancia del índice de Sorensen.
En este link se encuentran más métricas que están bien explicadas
https://towardsdatascience.com/importance-of-distance-metrics-in-machine-learning-modelling-e51395ffe60d
Distacia Minkowsky
Chevychev. El señor Chevichev
En este caso se aprecia tambipen que la “Distancia Euclidiana” sería el “Desplazamiento” y la Distancia de Manhattan sería simplemente la “Distancia Total” (Con los clásicos conceptos que enseñan de física)
Definición Métricas de Distancia.
. El espacio eucl´ıdeo R
n
Sea X = R
n, el conjunto de todas las n-uplas de n´umeros reales. Si x = (x1, x2, · · · , xn) e
y = (y1, y2, · · · , yn) son elementos de X, definimos la distancia
d(x, y) =
vuutXn
i=1
(xi − yi
La métrica de Manhattan la podría ver como la distancia del camino recorrido proyectada en el eje x más la distancia proyectada en el eje y.
Distancia de Minkowsky:
Esto se realiza mediante un parámetro pp con el que se puede reproducir los valores de las anteriores. Matemáticamente se define como:
Distancia Chebyshev:
Es una métrica definida en un espacio vectorial donde la distancia entre dos vectores
es el mayor de sus diferencias a lo largo de cualquier dimensión de coordenadas:
Distancia Euclidiana Es la distancia en línea recta o la trayectoria más corta posible entre dos puntos.
Distancia Chebyshev Es una métrica definida en un espacio vectorial donde la distancia entre dos vectores es el mayor de sus diferencias a lo largo de cualquier dimensión de coordenadas
Distancia Manhattan La función de la distancia Manhattan calcula la distancia que se puede recorrer para llegar de un punto de datos a la otra si un camino en forma de rejilla es seguido. La distancia Manhattan entre dos elementos es la suma de las diferencias de sus correspondientes componentes.
Distancia Kullback-Leibler Es una medida no simétrica de la similitud o diferencia entre dos funciones de distribución de probabilidad P y Q. KL mide el número esperado de extra bits requeridos en muestras de código de P cuando se usa un código basado en Q, en lugar de un código basado en P. Generalmente P representa la “verdadera” distribución de los datos, observaciones, o cualquier distribución teórica. La medida Q generalmente representa una teoría, modelo, descripción o aproximación de P
Según recuerdo mis clases de cálculo de la universidad, tú puedes definir una métrica de distancia o Norma siempre y cuando cumpla estas 3 reglas:
Por aquí dejo un enlace a Wikipedia con más información al respecto.
Muchos de los algoritmos de machine learning pueden clasificarse como algoritmos de optimización.
lo que desean optimizar es una función que en muchas ocasiones se refiere a la distancia entre features
x = (a, b), y = (c, d)
Distancia euclidiana:
Una de las distancias más conocidas y utilizadas es la distancia euclídea. Ya que es la que se utiliza en el día a día para medir la separación entre dos puntos. La distancia euclídea en un espacio de n dimensiones se define mediante la siguiente ecuación
Distancia de Manhattan: Otra distancia de interés en algunos problemas es la Manhattan o geometría del taxista. El nombre hace referencia al diseño de cuadriculado de las calles de la isla de Manhattan, lo que obliga a moverse en los ejes que definen las calles. Así la distancia más corta entre dos puntos es la suma de los tramos de las calles. Esto es lo que se muestra en la siguiente figura donde la línea negra representa la distancia euclídea y el resto son la distancia Manhattan se define mediante la siguiente ecuación
Distancia de Minkowsky: La distancia de Minkowsky es una generalización de las vistas anteriormente. Esto se realiza mediante un parámetro pp con el que se puede reproducir los valores de las anteriores. Matemáticamente se define como
Mis apuntes https://github.com/fernando343/ProbabilisticThinking
Métricas de distancia.
increible
Google tiene una herramienta llamada Google Earth Pro, el cual es muy utilizado para comunicaciones.
Entiendo que no es lo mismo la distancia entre 2 puntos y el recorrido, porque se pueden definir dos puntos que tengan la misma posición y la distancia entre si sea 0 (cero), pero se pueden dar infinitos recorridos cuya longitud puede variar.
Encontré un paper muy interesante sobre distancias. En machine learning, la selección de una función de distancia adecuada es fundamental para los algoritmos de aprendizaje basados en instancias. Y esta función de distancia dicta el éxito o el fracaso de dichos algoritmos:
https://www.researchgate.net/publication/279538194_Aprendizaje_supervisado_de_funciones_de_distancia_estado_del_arte
Está completo este artículo: https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0144059
Fórmula del semiverso (Haversine Formula): https://es.wikipedia.org/wiki/Fórmula_del_semiverseno#Fórmula_del_semiverseno
Usada para calcular la distancia entre 2 puntos en una esfera, conociendo su latitud y longitud.
La tuve que usar (y no sabía que era esa) en el desarrollo de una app en Android.
Aquí encontré algunas a parte de las que ya se tocaron en los videos:
¿Quieres ver más aportes, preguntas y respuestas de la comunidad?