Distanzfunktion

Distanzfunktionen oder Ähnlichkeitsmaße beschreiben den Grad der Übereinstimmung von Vektoren.

In typischen Anwendungen stellen die Vektoren Folgen von Messwerten dar. Ähnlichkeitsmaße werden in Auswertemethoden wie dem Vektorraum-Retrieval und dem Clustering benutzt.

Als Distanzfunktion lassen sich verschiedene Metriken verwenden. Distanzfunktionen werden oft auch unpräzise als Metrik bezeichnet; nicht alle Distanzfunktionen sind jedoch Metriken im streng mathematischen Sinne.

Inhaltsverzeichnis

Häufig verwendete Distanzfunktionen

Euklidischer Abstand

d(x,y) = |x-y| = \sqrt{\sum_{i=1}^n (x_i-y_i)^2}

lp-Distanz oder Minkowski-Metrik

l_p(x,y) = \sqrt[p]{\sum_{i=1}^n |x_i-y_i|^p}

Für den Fall p=1 und n=2 ist die lp Distanz identisch zur City-Block Distanz.

Des Weiteren gilt:

Für alle x,y\in\mathbb{R}^n :  \lim_{p \to \infty}l_p(x,y)=\max\{|x_i-y_i||1 \le i \le n\}

City-Block- bzw. Manhattan-Distanz

d(x,y) = \sum_{i=1}^n |x_i-y_i|


Siehe auch: Normierter Raum

Kosinus-Distanzfunktion

Es wird vorausgesetzt, dass wir einen Vektorraum über den reellen Zahlen haben.

Die Distanz ist der Kosinus des Winkels α(x,y) zwischen den Vektoren x und y.

d(x,y) = \cos \alpha (x,y) = \frac{x\cdot y}{|x| |y|} = \frac {\sum_{i=1}^n x_i y_i}{\sqrt{\sum_{i=1}^n x_i^2} \sqrt{\sum_{i=1}^n y_i^2}}

Dabei ist |x| = \|x\|_2.

Dice-Distanzfunktion

d(x,y) =  \frac {2 x \cdot y}{ x^2 + y^2 } = \frac {2 \sum_{i=1}^n x_i y_i}       {\sum_{i=1}^n x_i^2 + \sum_{i=1}^n y_i^2}

Dabei ist x^2 = x \cdot x = \langle x, x \rangle.

Jaccard- (oder Tanimoto)-Distanzfunktion

d(x,y) =  \frac {x \cdot y}{ x^2 + y^2 - x \cdot y} = \frac {\sum_{i=1}^n x_i y_i}       {\sum_{i=1}^n x_i^2 + \sum_{i=1}^n y_i^2 - \sum_{i=1}^n x_i y_i}

Mahalanobis-Distanz

See also: Distanzfunktion, Clustering, Euklidischer Abstand, Kosinus, Mahalanobis-Distanz, Metrischer Raum, Minkowski, Normierter Raum, Vektorraum, Vektorraum-Retrieval