www.wikidata.de-de.nina.az
Fluch der Dimensionalitat ist ein Begriff der von Richard Bellman eingefuhrt wurde um den rapiden Anstieg im Volumen beim Hinzufugen weiterer Dimensionen in einen mathematischen Raum zu beschreiben Ein einfaches Beispiel fur den Fluch der Dimensionalitat Ein Zentimeter besteht aus 10 Millimetern ein Quadratzentimeter hingegen aus 100 Quadratmillimetern Leo Breiman beschreibt beispielhaft dass 100 Beobachtungen den eindimensionalen Raum der reellen Zahlen zwischen 0 und 1 gut abdecken Aus diesen Beobachtungen lasst sich ein Histogramm berechnen und Schlussfolgerungen lassen sich ziehen Werden vergleichsweise in einem 10 dimensionalen Raum der gleichen Art jede Dimension kann Werte zwischen 0 und 1 annehmen 100 Stichproben gesammelt sind dies isolierte Punkte die den Raum nicht ausreichend abdecken um sinnvolle Aussagen uber diesen Raum zu treffen Um eine ahnliche Abdeckung wie im eindimensionalen Raum zu erreichen mussen 10010 1020 Stichproben gezogen werden was einen wesentlich hoheren Aufwand zur Folge hat Inhaltsverzeichnis 1 Auswirkung auf Distanzfunktionen 2 Maschinelles Lernen 3 Indexstrukturen 4 Numerische Integration 5 Einzelnachweise 6 QuellenAuswirkung auf Distanzfunktionen BearbeitenEine oft zitierte Formulierung des Fluchs besagt dass fur verschiedene Arten von zufalligen Verteilungen der Datensatze der Unterschied zwischen der kleinsten und der grossten Distanz zwischen Datensatzen im Vergleich zur kleinsten Distanz beliebig klein wird wenn sich die Dimensionalitat d erhoht mit anderen Worten die kleinste und grosste Distanz unterscheiden sich nur noch relativ wenig 1 und daher fur die betreffenden Verteilungen in hochdimensionalen Raumen die Ergebnisse von Distanzfunktionen und darauf basierenden Algorithmen nicht mehr brauchbar sind Dies lasst sich formalisieren als lim d dist max dist min dist min 0 displaystyle lim d to infty frac text dist text max text dist text min text dist text min 0 nbsp Aktuelle Forschungsergebnisse deuten jedoch darauf hin dass nicht die reine Anzahl der Dimensionen ausschlaggebend ist 2 da zusatzliche relevante Informationen die Daten besser trennen konnen Lediglich zur Trennung irrelevante zusatzliche Dimensionen verursachen den Effekt Wahrend die exakten Distanzwerte ahnlicher werden bleibt dann jedoch die daraus resultierende Reihenfolge stabil Clusteranalyse und Ausreissererkennung ist mit geeigneten Methoden weiterhin moglich 3 Eine weitere Moglichkeit den Fluch zu charakterisieren bietet der Vergleich zwischen einer d displaystyle d nbsp dimensionalen Hypersphare mit Radius r displaystyle r nbsp und einem d displaystyle d nbsp dimensionalen Hyperwurfel mit Seitenlangen 2 r displaystyle 2r nbsp Das Volumen der Hypersphare ist gegeben durch V Sphare 2 r d p d 2 d G d 2 displaystyle V text Sphare frac 2r d pi d 2 d Gamma d 2 nbsp wobei G displaystyle Gamma nbsp die Gammafunktion ist und das Volumen des Hyperwurfels ist gegeben durch V Wurfel 2 r d displaystyle V text Wurfel 2r d nbsp Betrachten wir nun den Quotienten so fallt auf dass das Volumen der Hypersphare im Vergleich zum Volumen des Hyperwurfels mit steigender Dimension sehr klein insignifikant wird denn V Sphare V Wurfel 2 r d p d 2 d G d 2 2 r d p d 2 d 2 d 1 G d 2 0 displaystyle frac V text Sphare V text Wurfel frac frac 2r d pi d 2 d Gamma d 2 2r d frac pi d 2 d2 d 1 Gamma d 2 rightarrow 0 nbsp fur d displaystyle d rightarrow infty nbsp Diese Konvergenz lasst sich durch die Abschatzung p d 2 d 2 d 1 G d 2 lt 2 2 d 2 d 2 d 1 G d 2 2 d d 2 d 1 G d 2 2 d G d 2 0 displaystyle frac pi d 2 d2 d 1 Gamma d 2 lt frac 2 2 d 2 d2 d 1 Gamma d 2 frac 2 d d2 d 1 Gamma d 2 frac 2 d Gamma d 2 rightarrow 0 nbsp fur d displaystyle d rightarrow infty nbsp zeigen wobei verwendet wird dass p 3 14 lt 4 2 2 displaystyle pi 3 14 ldots lt 4 2 2 nbsp und G x gt 0 displaystyle Gamma x gt 0 nbsp fur x gt 0 displaystyle x gt 0 nbsp Maschinelles Lernen BearbeitenDer Fluch der Dimensionalitat ist eine ernst zu nehmende Hurde bei Maschinellen Lern Problemen die von wenigen Stichprobenelementen die Struktur eines hochdimensionalen Raumes lernen mussen Indexstrukturen BearbeitenViele Indexstrukturen sind entweder distanzbasiert oder versuchen den Raum dimensionsweise zu teilen Diese Verfahren haben meist Probleme mit hochdimensionalen Daten da entweder die Distanzwerte nicht mehr aussagekraftig genug sind oder die Anzahl der Dimensionen und die daraus resultierenden Partitionsmoglichkeiten Probleme bereiten Numerische Integration BearbeitenBei der numerischen Integration spielt der Fluch der Dimensionalitat ebenfalls eine grosse Rolle da die Anzahl der benotigten Funktionsauswertungen bei einfachen Algorithmen wie der Trapezregel exponentiell mit der Anzahl der Dimensionen steigt Das fuhrt dazu dass die Konvergenzgeschwindigkeit drastisch abnimmt Bei einfachen Aufgabenstellungen lasst sich dieses Problem mittels Monte Carlo Verfahren umgehen da diese nicht von der Dimensionalitat abhangig sind Ansonsten werden hierarchische Zerlegungsverfahren verwendet Einzelnachweise Bearbeiten K Beyer J Goldstein R Ramakrishnan U Shaft When is Nearest Neighbor Meaningful In Proc 7th International Conference on Database Theory ICDT 99 LNCS 1540 Springer 1999 ISBN 978 3 540 65452 0 S 217 doi 10 1007 3 540 49257 7 15 M E Houle H P Kriegel P Kroger E Schubert A Zimek Can Shared Neighbor Distances Defeat the Curse of Dimensionality In Proc 21st International Conference on Scientific and Statistical Database Management SSDBM Springer Heidelberg Germany 2010 doi 10 1007 978 3 642 13818 8 34 A Zimek E Schubert H P Kriegel A survey on unsupervised outlier detection in high dimensional numerical data In Statistical Analysis and Data Mining Band 5 Nr 5 2012 S 363 387 doi 10 1002 sam 11161 Quellen BearbeitenBellman R E 1961 Adaptive Control Processes Princeton University Press Princeton NJ Abgerufen von https de wikipedia org w index php title Fluch der Dimensionalitat amp oldid 236717950