www.wikidata.de-de.nina.az
Die Google Matrix ist eine quadratische Matrix die bei der Konstruktion des PageRank Algorithmus entsteht Da sie oftmals sehr gross ist mit vielen Millionen Zeilen und Spalten sind die numerischen und algebraischen Eigenschaften dieser Matrix fur die schnelle und exakte Bestimmbarkeit der PageRanks von grosser Bedeutung Ausschnitt aus der Google Matrix der englischsprachigen Wikipedia Artikel 2009 Inhaltsverzeichnis 1 Definition 2 Eigenschaften 2 1 PageRank 2 2 Normen 2 3 Eigenvektoren und Eigenwerte 2 4 Regularitat und Kondition 3 Numerische Berechnung des Eigenvektors 4 Beispiel 5 Einzelnachweise 6 LiteraturDefinition BearbeitenDie normierte Google Matrix eines Netzwerks oder gerichteten Graphen mit n displaystyle n nbsp Knoten ist die reelle n n displaystyle n times n nbsp Matrix P d L 1 n w 1 T 1 d 1 n 1 1 T displaystyle P d left L tfrac 1 n mathbf w cdot mathbf 1 T right 1 d tfrac 1 n mathbf 1 cdot mathbf 1 T nbsp Die einzelnen Komponenten der Google Matrix sind dabei folgendermassen definiert Die Linkmatrix L displaystyle L nbsp ist die zeilenweise auf 1 displaystyle 1 nbsp normierte Adjazenzmatrix A a i j displaystyle A a ij nbsp des untersuchten Graphen l i j 1 c i falls a i j 1 0 sonst displaystyle l ij begin cases frac 1 c i amp text falls a ij 1 0 amp text sonst end cases nbsp dd wobei c i displaystyle c i nbsp der Ausgangsgrad des Knotens i displaystyle i nbsp ist also die Anzahl der Kanten die den Knoten i displaystyle i nbsp verlassen Der Vektor w displaystyle mathbf w nbsp ist komponentenweise definiert alsw i 1 falls c i 0 0 sonst displaystyle w i begin cases 1 amp text falls c i 0 0 amp text sonst end cases nbsp dd Er enthalt also genau dann eine Eins wenn der Ausgangsgrad einer Seite bzw eines Knotens null ist Diese Knoten werden auch dangling nodes genannt In der Literatur gibt es verschiedene Methoden diese Knoten zu behandeln 1 die hier behandelte ist die haufigste d displaystyle d nbsp ist eine reelle Zahl zwischen 0 displaystyle 0 nbsp und 1 displaystyle 1 nbsp die Dampfungsfaktor genannt wird 1 displaystyle mathbf 1 nbsp ist ein Einsvektor der Lange n displaystyle n nbsp also ein Vektor der nur Einsen als Eintrage hat Damit ist die Matrix 1 1 T displaystyle mathbf 1 cdot mathbf 1 T nbsp genau die Einsmatrix Eigenschaften BearbeitenPageRank Bearbeiten Zur Berechnung der PageRanks ist man insbesondere an der Existenz und Vielfachheit von Linkseigenvektoren der Matrix P displaystyle P nbsp interessiert Diese entsprechen genau den gewohnlichen Eigenvektoren der Matrix P T displaystyle P T nbsp zum Eigenwert 1 displaystyle 1 nbsp Interpretiert man das Eigenwertproblem P T x x displaystyle P T cdot mathbf x mathbf x nbsp als Berechnung der stationaren Verteilung einer Markow Kette so ist der Vektor x displaystyle x nbsp ein stochastischer Vektor bestehend aus den PageRanks Damit reduziert sich das Eigenvektorproblem zu dem linearen Gleichungssystem I d L 1 n w 1 T T x 1 d 1 n 1 displaystyle left I d left L tfrac 1 n mathbf w cdot mathbf 1 T right T right x 1 d tfrac 1 n mathbf 1 nbsp Um dieses lineare Gleichungssystem effizient losen zu konnen stellt sich die Frage nach der Regularitat der Matrix und ihrer Konditionszahl Normen Bearbeiten Sowohl die Matrix L displaystyle L nbsp als auch die Matrix 1 n w 1 T displaystyle tfrac 1 n mathbf w cdot mathbf 1 T nbsp sind im Allgemeinen nur substochastisch Addiert man beide so erhalt man eine zeilenstochastische Matrix da sich die Nichtnullzeilen der Matrizen erganzen Da auch 1 n 1 1 T displaystyle tfrac 1 n mathbf 1 cdot mathbf 1 T nbsp zeilenstochastisch ist streng genommen sogar doppelt stochastisch und durch den Dampfungsparameter nur Konvexkombinationen gebildet werden bezuglich derer die stochastischen Matrizen abgeschlossen sind ist die Google Matrix ebenfalls eine zeilenstochastische Matrix Damit gilt fur die Zeilensummennorm der Google Matrix P 1 displaystyle Vert P Vert infty 1 nbsp und damit auch fur die Spaltensummennorm der Transponierten P T 1 1 displaystyle Vert P T Vert 1 1 nbsp Eigenvektoren und Eigenwerte Bearbeiten Die Existenz eines Eigenvektors von P T displaystyle P T nbsp zum Eigenwert 1 displaystyle 1 nbsp folgt direkt daraus dass die Matrix eine stochastische Matrix ist Dass 1 displaystyle 1 nbsp sogar betragsgrosster positiver Eigenwert ist zu dem ein einfacher strikt positiver Eigenvektor existiert folgt aus dem Satz von Perron Frobenius da P T gt 0 displaystyle P T gt 0 nbsp gilt Wichtig ist hier dass erst die Einfuhrung des Dampfungsparameters die Positivitat der Matrix und damit die Losbarkeit des Eigenwertproblems garantiert Des Weiteren lasst sich noch zeigen dass l i d displaystyle lambda i leq d nbsp fur alle anderen Eigenwerte gilt 2 Die Separation der Eigenwerte wird also nur durch den Dampfungsparameter bestimmt Damit ist fur viele der numerischen Verfahren zur Eigenwertberechnung wie beispielsweise die Potenzmethode eine gute Konvergenzgeschwindigkeit garantiert so lange der Dampfungsfaktor nicht zu nahe an 1 displaystyle 1 nbsp gewahlt wird Normalerweise gilt d 0 85 displaystyle d approx 0 85 nbsp Regularitat und Kondition Bearbeiten Da d L 1 n w 1 T T 1 d lt 1 displaystyle Vert d L tfrac 1 n mathbf w cdot mathbf 1 T T Vert 1 d lt 1 nbsp gilt liefert die Neumann Reihe die Invertierbarkeit der Matrix K I d L 1 n w 1 T T displaystyle K I d L tfrac 1 n mathbf w cdot mathbf 1 T T nbsp Somit ist das Problem als lineares Gleichungssystem losbar Gleichzeitig gilt auch fur die Norm der Inversen K 1 1 1 1 d displaystyle Vert K 1 Vert 1 leq frac 1 1 d nbsp und damit fur die Konditionszahl die Abschatzung k 1 K 1 K 1 1 1 d 1 d displaystyle kappa 1 Vert K Vert 1 Vert K 1 Vert 1 leq frac 1 d 1 d nbsp Somit ist nur die Wahl des Dampfungsparameters fur die Kondition verantwortlich und sollte wieder nicht zu nahe an 1 displaystyle 1 nbsp gewahlt werden Numerische Berechnung des Eigenvektors BearbeitenDer betragsgrosste Eigenvektor der Google Matrix wird normalerweise mittels der Potenzmethode naherungsweise bestimmt Dabei wird ausgehend von einer Startnaherung b 0 displaystyle b 0 nbsp in jedem Iterationsschritt das Matrix Vektor Produkt der Google Matrix mit der aktuellen Naherung des Eigenvektors b k displaystyle mathbf b k nbsp gebildet In jedem Iterationsschritt ist demnach P T b k d L T b k d 1 n 1 w T b k 1 d 1 n 1 displaystyle P T b k dL T cdot mathbf b k d tfrac 1 n mathbf 1 cdot mathbf w T cdot mathbf b k 1 d tfrac 1 n mathbf 1 nbsp zu berechnen Ist die Startnaherung ein stochastischer Vektor dann ist auch jeder folgende Naherungsvektor stochastisch Nachdem die Eigenwerte der Google Matrix gut separiert sind ist eine langsame Konvergenzgeschwindigkeit der Potenzmethode ausgeschlossen Bei der Berechnung kann die spezielle Struktur der Google Matrix ausgenutzt werden Die Linkmatrix L T displaystyle L T nbsp ist in der Regel extrem dunn besetzt das heisst fast alle ihre Eintrage sind null Dadurch kann sie zum einen sehr platzsparend gespeichert werden und zum anderen sehr effizient mit einem Vektor multipliziert werden Auch der Vektor w displaystyle w nbsp ist in der Regel dunn besetzt wodurch sich der Term 1 w T b k displaystyle mathbf 1 w T b k nbsp ebenfalls sehr schnell berechnen lasst Beispiel Bearbeiten nbsp Der im Beispiel behandelte gerichtete GraphBetrachtet man als Beispiel den rechts stehenden gerichteten Graphen mit 8 Knoten so sind die Knoten 5 und 6 dangling nodes Dann ist die zeilenweise normierte Adjazenzmatrix L 0 0 1 0 0 0 0 0 0 5 0 0 0 0 0 5 0 0 0 0 0 0 5 0 5 0 0 0 0 0 5 0 0 0 0 0 5 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 1 0 displaystyle L begin bmatrix 0 amp 0 amp 1 amp 0 amp 0 amp 0 amp 0 amp 0 0 5 amp 0 amp 0 amp 0 amp 0 amp 0 5 amp 0 amp 0 0 amp 0 amp 0 amp 0 5 amp 0 5 amp 0 amp 0 amp 0 0 amp 0 5 amp 0 amp 0 amp 0 amp 0 amp 0 5 amp 0 0 amp 0 amp 0 amp 0 amp 0 amp 0 amp 0 amp 0 0 amp 0 amp 0 amp 0 amp 0 amp 0 amp 0 amp 0 0 amp 0 amp 0 amp 0 amp 0 amp 0 amp 0 amp 1 0 amp 0 amp 0 amp 0 amp 0 amp 0 amp 1 amp 0 end bmatrix nbsp und der Vektor w 0 0 0 0 1 1 0 0 T displaystyle w begin bmatrix 0 amp 0 amp 0 amp 0 amp 1 amp 1 amp 0 amp 0 end bmatrix T nbsp Dann ist mit der obigen Konstruktion und einem Dampfungsparameter von d 0 8 displaystyle d 0 8 nbsp P 1 40 1 1 33 1 1 1 1 1 17 1 1 1 1 17 1 1 1 1 1 17 17 1 1 1 1 17 1 1 1 1 17 1 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 1 1 1 1 1 1 1 33 1 1 1 1 1 1 33 1 displaystyle P frac 1 40 begin bmatrix 1 amp 1 amp 33 amp 1 amp 1 amp 1 amp 1 amp 1 17 amp 1 amp 1 amp 1 amp 1 amp 17 amp 1 amp 1 1 amp 1 amp 1 amp 17 amp 17 amp 1 amp 1 amp 1 1 amp 17 amp 1 amp 1 amp 1 amp 1 amp 17 amp 1 5 amp 5 amp 5 amp 5 amp 5 amp 5 amp 5 amp 5 5 amp 5 amp 5 amp 5 amp 5 amp 5 amp 5 amp 5 1 amp 1 amp 1 amp 1 amp 1 amp 1 amp 1 amp 33 1 amp 1 amp 1 amp 1 amp 1 amp 1 amp 33 amp 1 end bmatrix nbsp Der Eigenvektor von P T displaystyle P T nbsp zum Eigenwert 1 ist dann x 0 067 5 0 070 1 0 093 4 0 076 8 0 076 8 0 067 5 0 282 5 0 265 4 T displaystyle x 0 0675 0 0701 0 0934 0 0768 0 0768 0 0675 0 2825 0 2654 T nbsp Damit haben die Knoten 7 und 8 die hochsten PageRanks 0 2825 und 0 2654 und die Knoten 1 und 6 die niedrigsten je 0 0675 Der betragszweite Eigenwert ist l 2 0 8 displaystyle lambda 2 0 8 nbsp die obige Abschatzung ist also scharf Des Weiteren ist die Konditionszahl k 1 9 1 0 8 1 0 8 displaystyle kappa 1 9 frac 1 0 8 1 0 8 nbsp auch diese Abschatzung ist also scharf Einzelnachweise Bearbeiten Deeper Inside PageRank Amy N Langville und Carl D Meyer Abgerufen am 30 August 2013 T H Haveliwala und S D Kamvar The Second Eigenvalue of the Google Matrix Technischer Report Stanford University 2003 Abgerufen am 30 August 2013 Literatur BearbeitenPeter Knabner Wolf Barth Lineare Algebra Grundlagen und Anwendungen Springer Lehrbuch Springer Berlin 2012 ISBN 978 3 642 32185 6 Abgerufen von https de wikipedia org w index php title Google Matrix amp oldid 224879313