www.wikidata.de-de.nina.az
In der Statistik insbesondere der Multivariaten Statistik interessiert man sich fur die Messung der Ahnlichkeit zwischen verschiedenen Objekten und definiert dazu Ahnlichkeits und Distanzmasse Es handelt sich dabei nicht um Masse im mathematischen Sinn der Begriff bezieht sich ausschliesslich auf die Messung einer bestimmten Grosse In der Regel werden Ahnlichkeitsmasse fur nominal oder ordinal skalierte Variablen genutzt und Distanzmasse fur metrisch skalierte Variablen d h fur Intervall und Verhaltnisskala Inhaltsverzeichnis 1 Ahnlichkeitsmass 1 1 Definition 1 2 Anwendung in der Bioinformatik 1 3 Ahnlichkeitsmasse fur binare Vektoren 1 4 Wahl des Ahnlichkeitsmasses 2 Distanzmass 2 1 Definition 2 2 Einige Distanzmasse 3 Zusammenhang zwischen Ahnlichkeits und Distanzmassen 4 Siehe auch 5 Literatur 6 EinzelnachweiseAhnlichkeitsmass BearbeitenDefinition Bearbeiten Sei I 1 2 N displaystyle I left 1 2 dots N right nbsp eine endliche Menge Eine Funktion s I I R displaystyle s colon I times I rightarrow mathbb R nbsp heisst Ahnlichkeitsmass oder Ahnlichkeitsfunktion falls fur alle i j I displaystyle i j in I nbsp gilt s i j s j i displaystyle s i j s j i nbsp und s i i s i j displaystyle s i i geq s i j nbsp Zudem wird oft noch gefordert dass fur alle i j I displaystyle i j in I nbsp gilt s i j 0 displaystyle s i j geq 0 nbsp und s i i 1 displaystyle s i i 1 nbsp Die Funktionswerte s i j displaystyle s i j nbsp lassen sich zu einer symmetrischen N N displaystyle N times N nbsp Matrix s i j i j displaystyle left s i j right i j nbsp anordnen Diese Matrix heisst Ahnlichkeitsmatrix In diesem Kontext wird s i j displaystyle s i j nbsp auch als Ahnlichkeitskoeffizient bezeichnet Anwendung in der Bioinformatik Bearbeiten Ahnlichkeitsmatrizen wie PAM oder BLOSUM spielen eine wichtige Rolle beim Sequenzalignment Ahnliche Proteine Nukleotide oder Aminosauren erhalten dabei hohere Scores d h Ahnlichkeitswerte als unahnliche Die Ahnlichkeit ist hier durch die chemischen Eigenschaften der Bausteine und ihre Mutationsraten definiert Beispiel AGCT steht fur die vier Nukleinbasen Adenin Guanin Cytosin und Thymin A G C TA 10 1 3 4G 1 7 5 3C 3 5 9 0T 4 3 0 8Die Molekule deren Ahnlichkeit angegeben werden soll werden in gleicher Reihenfolge spalten und zeilenweise sortiert Der Wert a i j displaystyle a i j nbsp an der Position i j displaystyle i j nbsp gibt somit an wie ahnlich das Molekul an der Spaltenposition i displaystyle i nbsp dem an der Zeilenposition j displaystyle j nbsp ist Laut obiger Ahnlichkeitsmatrix sind Cytosin und Tymin Ahnlichkeits Score 0 einander ahnlicher als Guanin und Cytosin Ahnlichkeits Score 5 Ahnlichkeitsmasse fur binare Vektoren Bearbeiten Fur p displaystyle p nbsp binare Variablen und zwei Beobachtungen i displaystyle i nbsp und j displaystyle j nbsp sei n 00 k 1 p I x i k 0 x j k 0 displaystyle n 00 sum k 1 p I x ik 0 x jk 0 nbsp n 01 k 1 p I x i k 0 x j k 1 displaystyle n 01 sum k 1 p I x ik 0 x jk 1 nbsp n 10 k 1 p I x i k 1 x j k 0 displaystyle n 10 sum k 1 p I x ik 1 x jk 0 nbsp n 11 k 1 p I x i k 1 x j k 1 displaystyle n 11 sum k 1 p I x ik 1 x jk 1 nbsp und p n 00 n 01 n 10 n 11 displaystyle p n 00 n 01 n 10 n 11 nbsp Dann kann man folgende Masse definieren Ahnlichkeitsmass s i j displaystyle s i j nbsp Braun n 11 max n 11 n 01 n 11 n 10 displaystyle frac n 11 max n 11 n 01 n 11 n 10 nbsp Dice 2 n 11 n 01 n 10 2 n 11 displaystyle frac 2n 11 n 01 n 10 2n 11 nbsp Hamann n 00 n 11 n 01 n 10 p displaystyle frac n 00 n 11 n 01 n 10 p nbsp Jaccard S Koeffizient n 11 n 01 n 10 n 11 displaystyle frac n 11 n 01 n 10 n 11 nbsp Kappa 1 1 p n 01 n 10 2 n 00 n 11 n 01 n 10 displaystyle frac 1 1 tfrac p n 01 n 10 2 n 00 n 11 n 01 n 10 nbsp Kulczynski n 11 n 01 n 10 displaystyle frac n 11 n 01 n 10 nbsp Ochiai n 11 n 11 n 01 n 11 n 10 displaystyle frac n 11 sqrt n 11 n 01 n 11 n 10 nbsp Phi n 11 n 00 n 10 n 01 n 11 n 01 n 11 n 10 n 00 n 01 n 00 n 10 displaystyle frac n 11 n 00 n 10 n 01 sqrt n 11 n 01 n 11 n 10 n 00 n 01 n 00 n 10 nbsp Russel Rao 1 n 11 p displaystyle frac n 11 p nbsp Simple Matching M Koeffizient n 00 n 11 p displaystyle frac n 00 n 11 p nbsp Simpson n 11 min n 11 n 01 n 11 n 10 displaystyle frac n 11 min n 11 n 01 n 11 n 10 nbsp Sneath n 11 n 11 2 n 01 2 n 10 displaystyle frac n 11 n 11 2n 01 2n 10 nbsp Tanimoto Rogers 2 n 00 n 11 n 00 2 n 01 n 10 n 11 displaystyle frac n 00 n 11 n 00 2 n 01 n 10 n 11 nbsp Yule n 00 n 11 n 01 n 10 n 00 n 11 n 01 n 10 displaystyle frac n 00 n 11 n 01 n 10 n 00 n 11 n 01 n 10 nbsp Fur nicht binare nominale oder ordinale Variablen definiert man fur jede Kategorie der Variablen eine binare Variable und kann dann die Ahnlichkeitsmasse fur binare Variablen verwenden Wahl des Ahnlichkeitsmasses Bearbeiten Welches Ahnlichkeitsmass man zur Analyse wahlt hangt von der Problemstellung ab Es gibt jedoch einige Hinweise wann sich welches Mass gut eignet in Abhangigkeit von den Eigenschaften der binaren Variable 3 Ist die Variable symmetrisch d h beide Kategorien sind gleich wichtig z B Geschlecht dann ist oft das gleiche Vorhandensein n 11 displaystyle n 11 nbsp bzw die gleiche Abwesenheit n 00 displaystyle n 00 nbsp wichtig fur ein Ahnlichkeitsmass Dann konnen Simple Matching Hamann oder Tanimoto verwendet werden Ist die Variable asymmetrisch d h nur eine Kategorie spielt eine wesentliche Rolle z B Krankheit aufgetreten dann spielt oft nur das gleiche Auftreten n 11 displaystyle n 11 nbsp eine Rolle Dann konnen Dice Jaccard Kulczynskl Ochiai Braun Simpson oder Sneath verwendet werden Kappa Phi und Yule konnen sowohl im symmetrischen als auch im asymmetrischen Fall verwendet werden Bei der Wahl des Ahnlichkeitmasses sollten auch Zusammenhange zwischen den Massen berucksichtigt werden Dice Jaccard und Sneath sind monotone Funktionen voneinander Sneath Jaccard Dice displaystyle text Sneath leq text Jaccard leq text Dice nbsp dd Betrachtet man Simpson und Braun so ist das harmonische Mittel Dice das arithmetische Mittel Kulczynski und das geometrische Mittel Ochiai Aus der Ungleichung der Mittelwerte folgt Braun Dice Ochiai Kulczynski Simpson displaystyle text Braun leq text Dice leq text Ochiai leq text Kulczynski leq text Simpson nbsp dd Auch Hamann Rogers und Simple matching weisen einen Zusammenhang auf Distanzmass BearbeitenDefinition Bearbeiten Sei I 1 2 N displaystyle I left 1 2 dots N right nbsp eine endliche Menge Eine Funktion d I I R displaystyle d colon I times I rightarrow mathbb R nbsp heisst Distanzmass oder Distanzfunktion falls fur alle i j I displaystyle i j in I nbsp gilt d i j d j i displaystyle d i j d j i nbsp sowie d i j 0 displaystyle d i j geq 0 nbsp und d i j 0 i j displaystyle d i j 0 Leftrightarrow i j nbsp Die Funktionswerte d i j displaystyle d i j nbsp lassen sich zu einer symmetrischen N N displaystyle N times N nbsp Matrix d i j i j displaystyle left d i j right i j nbsp anordnen Diese Matrix heisst Distanzmatrix Falls die Funktion d displaystyle d nbsp zusatzlich die Dreiecksungleichung erfullt ist sie eine Metrik Haufig wird auch eine Metrik als Distanzfunktion bezeichnet Einige Distanzmasse Bearbeiten Fur p displaystyle p nbsp metrische Variablen und zwei Beobachtungen i displaystyle i nbsp und j displaystyle j nbsp kann man folgende Masse definieren Distanzmass d i j displaystyle d i j nbsp L r displaystyle L r nbsp k 1 p x i k x j k r 1 r displaystyle left sum k 1 p x ik x jk r right 1 r nbsp EuklidischL 2 displaystyle L 2 nbsp k 1 p x i k x j k 2 displaystyle sqrt sum k 1 p x ik x jk 2 nbsp Pearson k 1 p x i k x j k 2 s k 2 displaystyle sqrt sum k 1 p frac x ik x jk 2 s k 2 nbsp mit s k displaystyle s k nbsp die Standardabweichung der Variable k displaystyle k nbsp City BlockManhattanL 1 displaystyle L 1 nbsp k 1 p x i k x j k displaystyle sum k 1 p x ik x jk nbsp Gower 4 k 1 p x i k x j k r k displaystyle sum k 1 p frac x ik x jk r k nbsp mit r k displaystyle r k nbsp die Spannweite der Variable k displaystyle k nbsp Mahalanobis x i x j T S 1 x i x j displaystyle sqrt x i x j T S 1 x i x j nbsp mit S displaystyle S nbsp der Stichproben Kovarianzmatrix der Variablen x i displaystyle x i nbsp Zusammenhang zwischen Ahnlichkeits und Distanzmassen BearbeitenAllgemein kann man ein Distanzmass aus einem Ahnlichkeitsmass definieren durch 5 d i j s i i s j j 2 s i j displaystyle d i j sqrt s i i s j j 2s i j nbsp Ein so gewonnenes Distanzmass erfullt aber im Allgemeinen nicht die Dreiecksungleichung und ist somit keine Metrik Siehe auch BearbeitenKosinus Ahnlichkeit Clusteranalyse Multidimensionale SkalierungLiteratur BearbeitenJoachim Hartung Barbel Elpelt Multivariate Statistik Lehr und Handbuch der angewandten Statistik Oldenbourg Verlag Munchen 1984 ISBN 3 486 28451 7 Ludwig Fahrmeir Alfred Hamerle Multivariate statistische Verfahren de Gruyter Berlin 1984 ISBN 3 11 008509 7Einzelnachweise Bearbeiten P F Russel T R Rao On habitat and association of species of Anophe line larvae In South eastern Madras Journal of Malaria Institute India 3 Jahrgang 1940 S 153 178 D J Rogers and T T Tanimoto A Computer Program for Classifying Plants In Science 132 Jahrgang Nr 3434 21 Oktober 1960 S 1115 1118 doi 10 1126 science 132 3434 1115 sciencemag org ShengLi Tzeng Han Ming Wu Chun Houh Chen Selection of Proximity Measures for Matrix Visualization of Binary Data In Biomedical Engineering and Informatics 2009 BMEI 09 2nd International Conference on 30 Oktober 2009 S 1 9 doi 10 1109 BMEI 2009 5305137 J C Gower A General Coefficient of Similarity and Some of Its Properties In Biometrics 27 Jahrgang Nr 4 Dezember 1971 S 857 871 jstor org Wolfgang Hardle Leopold Simar Applied Multivariate Statistical Analysis 1 Auflage Springer Verlag Berlin 2003 ISBN 3 540 03079 4 S 381 Abgerufen von https de wikipedia org w index php title Ahnlichkeitsanalyse amp oldid 226864120