www.wikidata.de-de.nina.az
Der PageRank Algorithmus ist ein Verfahren eine Menge verlinkter Dokumente beispielsweise das World Wide Web anhand ihrer Struktur zu bewerten und zu gewichten Dabei wird jedem Element ein Gewicht der PageRank aufgrund seiner Verlinkungsstruktur zugeordnet Der Algorithmus wurde von Larry Page daher der Name PageRank und Sergey Brin an der Stanford University entwickelt und von dieser zum Patent angemeldet 1 Er diente der Suchmaschine Google des von Brin und Page gegrundeten Unternehmens Google Inc als Grundlage fur die Bewertung von Seiten Der PageRank Algorithmus ist eine spezielle Methode die Linkpopularitat einer Seite bzw eines Dokumentes festzulegen Das Grundprinzip lautet Je mehr Links auf eine Seite verweisen desto hoher ist das Gewicht dieser Seite Je hoher das Gewicht der verweisenden Seiten ist desto grosser ist der Effekt Das Ziel des Verfahrens ist es die Links dem Gewicht entsprechend zu sortieren um so eine Ergebnisreihenfolge bei einer Suchabfrage herzustellen d h Links zu wichtigeren Seiten weiter vorne in der Ergebnisliste anzuzeigen Der PageRank Algorithmus bildet einen zufallig durch das Netz surfenden Benutzer nach Die Wahrscheinlichkeit mit der dieser auf eine bestimmte Webseite stosst korreliert mit dem PageRank der Webseite Inhaltsverzeichnis 1 Der PageRank Algorithmus 1 1 Konstruktion 1 2 Zufallssurfermodell 1 3 Rational Surfer Modell 2 Geschichte 3 Anpassungen 4 Toolbar und Verzeichnis Werte 5 Manipulation 6 Sonstige Verwendungszwecke 6 1 Wissenschaftliche Forschung und Hochschulwesen 6 2 Internet 7 Siehe auch 8 Literatur 9 Weblinks 10 EinzelnachweiseDer PageRank Algorithmus BearbeitenKonstruktion Bearbeiten nbsp Visualisierung des PageRank fur einen einfachen Graphen mit Dampfungsfaktor d 0 85 displaystyle d 0 85 nbsp Nach dem Zufallssurfer Modell ist die Grosse der Kreise in etwa proportional der Wahrscheinlichkeit mit der sich ein Surfer auf dieser Seite befindet So wird Seite C nur von einer einzigen aber gewichtigeren Seite verlinkt und hat infolgedessen einen hoheren PageRank als Seite E obwohl diese von insgesamt sechs Seiten verlinkt wird Das Prinzip des PageRank Algorithmus ist dass jede Seite ein Gewicht PageRank besitzt das umso grosser ist je mehr Seiten mit moglichst hohem eigenen Gewicht auf diese Seite verweisen Das Gewicht P R i displaystyle PR i nbsp einer Seite i displaystyle i nbsp berechnet sich also aus den Gewichten P R j displaystyle PR j nbsp der auf i displaystyle i nbsp verlinkenden Seiten j displaystyle j nbsp Verlinkt j displaystyle j nbsp auf insgesamt c j displaystyle c j nbsp verschiedene Seiten so wird das Gewicht von P R j displaystyle PR j nbsp anteilig auf diese Seiten aufgeteilt Folgende rekursive Formel kann als Definition des PageRank Algorithmus angesehen werden P R i 1 d n d j 1 n P R j c j displaystyle PR i frac 1 d n d sum j 1 n frac PR j c j nbsp Dabei ist n displaystyle n nbsp die Gesamtanzahl der Seiten und d displaystyle d nbsp ein Dampfungsfaktor zwischen 0 und 1 mit dem ein kleiner Anteil des Gewichts 1 d displaystyle 1 d nbsp einer jeden Seite abgezogen und gleichmassig auf alle vom Algorithmus erfassten Seiten verteilt wird Dies ist notwendig damit das Gewicht nicht zu Seiten abfliesst die auf keine anderen Seiten verweisen Oft wird die obige Formel auch ohne den Normierungsfaktor 1 n displaystyle 1 n nbsp angegeben Analog kann die Gleichung auch als zeilenweise Notation des linearen Gleichungssystems M P R 1 d n 1 displaystyle M cdot PR frac 1 d n mathbf 1 nbsp mit dem Spaltenvektor P R P R j j displaystyle PR PR j j nbsp dem konstanten Spaltenvektor 1 displaystyle mathbf 1 nbsp und der Matrix M M i j i j displaystyle M M ij ij nbsp mit Koeffizienten M i j d i j d L i j displaystyle M ij delta ij d L ij nbsp interpretiert werden wobei d i j displaystyle delta ij nbsp das Kronecker Delta bezeichnet und die Matrix L displaystyle L nbsp durch L i j 1 c j falls Seite j zu Seite i linkt 0 sonst displaystyle L ij begin cases 1 c j amp text falls Seite j text zu Seite i text linkt 0 amp text sonst end cases nbsp definiert ist Diese Gleichung fuhrt auf das Eigenwertproblem P T P R P R displaystyle P T PR PR nbsp wobei P displaystyle P nbsp die sogenannte Google Matrix ist und P T displaystyle P T nbsp die Transponierte der Matrix bezeichnet Fur d lt 1 displaystyle d lt 1 nbsp ist die Losung des Gleichungssystems eindeutig Satz von Perron Frobenius Ein kleinerer Dampfungsfaktor d displaystyle d nbsp fuhrt zu einer homogeneren Verteilung des PageRanks Die Losung des linearen Gleichungssystems kann analytisch oder numerisch erfolgen Durch Verwendung der Jacobi Iteration zur numerischen Losung ergibt sich obige rekursive Gleichung Andere numerische Verfahren zur Matrixinvertierung wie das Minimale Residuum das Uberrelaxations oder das Gauss Seidel Verfahren konvergieren jedoch in der Regel schneller Zufallssurfermodell Bearbeiten Das Zufallssurfermodell engl Random Surfer Model bietet eine alternative Interpretation des Page Rank Algorithmus welche aus der Stochastik kommt Normiert man den PageRank auf 1 so kann man das Gewicht einer Seite als Wahrscheinlichkeit interpretieren dass ein zufalliger Surfer Zufallspfad sich auf dieser Seite befindet Ein zufalliger Surfer bewegt sich durch das Netz indem er mit der Wahrscheinlichkeit d displaystyle d nbsp zufallig einen der ausgehenden Links der aktuellen Seite wahlt Mit Wahrscheinlichkeit 1 d displaystyle 1 d nbsp wahlt er eine beliebige neue Seite Das Modell kann als Markow Kette verstanden werden der normierte Page Rank ist dann die stationare Verteilung dieser Kette Rational Surfer Modell Bearbeiten Das Rational Surfer Modell ist ein von Google 2010 eingereichtes Patent Es stellt eine Weiterentwicklung des Zufallssurfermodells dar Hierbei wird die Wichtigkeit eines Links je nach Platzierung nach empirischen Daten unterschieden Ziel ist es Links starker zu gewichten welche von einem rationalen Surfer mit hoherer Wahrscheinlichkeit geklickt werden Somit soll Linkkauf entgegengewirkt werden Geschichte BearbeitenDie Idee des PageRank Algorithmus stammt ursprunglich aus der Soziometrie und lasst sich in der Fachliteratur erstmals 1953 bei Katz nachweisen Bereits 1949 verwendete Seeley das Verfahren zur Erklarung des Zustandekommens des Status eines Individuums allerdings gibt es in seiner Beschreibung noch keine Normierung auf die Anzahl der ausgehenden Kanten und keinen Dampfungsterm Letzterer wurde 1965 von Charles H Hubbell eingefuhrt Sergey Brin und Larry Page entwickelten PageRank 1996 an der Stanford University Page meldete 1997 ein Patent darauf an 1 welches auf die Stanford University eingetragen war und zusammen veroffentlichten sie den Algorithmus 1998 In ihrer Originalarbeit zitieren sie Massimo Marchiori Universitat Padua Entwickler von Hyper Search Eugene Garfield der in den 1950er Jahren citation analysis entwickelt hatte sowie Jon Kleinberg 2 der etwa gleichzeitig wie Brin und Page Hubs und Authorities HITS entwickelte Neben Brin und Page entwickelte nicht nur Kleinberg sondern auch Robin Li um 1996 in China einen ahnlichen Algorithmus RankDex den er bei der Suchmaschine Baidu verwendete Patent 1999 Nach der Google Grundung erhielt die Stanford University von Google 1 8 Millionen Anteile fur das Patent das exklusiv an Google ging 2005 verkauften sie die Aktien fur 336 Millionen Dollar 3 Forscher der Washington State University geben an dass Googles PageRank Algorithmus auch dazu geeignet sein kann die geometrische Ausrichtung von Wassermolekulen relativ zu anderen Molekulen in einer Losung z B jenen giftiger Chemikalien naherungsweise zu berechnen 4 Anpassungen BearbeitenDer heute von Google verwendete Algorithmus hat vermutlich nicht mehr exakt diese Form geht aber auf diese Formel zuruck Alternative Algorithmen sind das Verfahren der Hubs und Authorities von Jon Kleinberg sowie der Hilltop und der TrustRank Algorithmus 2013 wurde das Ranking durch den neuen Algorithmus Hummingbird ersetzt Der PageRank ist nur noch ein Aspekt den Hummingbird in seine Bewertung einbezieht 5 Toolbar und Verzeichnis Werte BearbeitenInformationen uber den PageRank lassen sich aus der Google Toolbar und dem Google Verzeichnis entnehmen Der von Google in der Toolbar angezeigte PageRank liegt zwischen 0 und 10 Der im Google Verzeichnis angegebene Wert lag bis Anfang 2008 zwischen 0 und 7 entspricht inzwischen aber dem in der Toolbar angezeigten Wert Die angezeigten Werte bilden den realen PageRank auf einer logarithmischen Skala ab und geben das Ergebnis als gerundeten ganzzahligen Wert wieder Der in der Google Toolbar angezeigte PageRank wurde fruher alle dreissig Tage aktualisiert Inzwischen wird das Intervall zwischen den Updates sehr unregelmassig durchgefuhrt die Intervalllange schwankt dabei zwischen etwas weniger als dreissig bis zu mehr als einhundert Tagen Google hat mittlerweile den Toolbar PageRank endgultig abgeschafft und die Auslieferung der entsprechenden Daten eingestellt Somit ist der PageRank fur Webseitenbetreiber nicht mehr offentlich einsehbar Intern nutzt Google die Daten fur die Algorithmen vermutlich jedoch weiterhin 6 Manipulation BearbeitenAufgrund der wirtschaftlichen Bedeutung ist es inzwischen zu gezielten Manipulationen und Falschungen gekommen So wurde das System in der Praxis von Suchmaschinenoptimierern durch Suchmaschinen Spamming in Gastebuchern Blogs und Foren dem Betreiben von Linkfarmen und anderen unseriosen Methoden unterlaufen Hierzu gehort unter anderem die Moglichkeit den in der Toolbar angezeigten PageRank einer niedrig eingestuften Seite durch Weiterleitung auf eine bestehende Seite mit hohem PageRank zu spiegeln Die Weiterleitung bewirkt ein Kopieren der Anzeige des hohen PageRanks der Zielseite mit dem folgenden Update Wird die Weiterleitung anschliessend entfernt so wird dem Besucher fur die Dauer des dann laufenden Intervalls der eigentliche Seiteninhalt in Verbindung mit dem gespiegelten PageRank prasentiert Der eigentliche PageRank Wert und das Ranking im Suchalgorithmus ist hiervon unberuhrt lediglich die Anzeige wird manipuliert Dies kann beispielsweise in betrugerischer Absicht dafur genutzt werden beim Verkauf der Domain oder von Links einen hoheren Preis zu erzielen Anfang 2005 implementierte Google mit rel nofollow ein neues Attribut fur Verweise als Versuch gegen Spam vorzugehen Links die mit diesem Attribut versehen werden werden nicht fur die PageRank Berechnung berucksichtigt Durch Kennzeichnung ausgehender Links kann so beispielsweise dem Gastebuch Blog und Forum Spamming entgegengewirkt werden Allerdings ist diese Methode umstritten da zum einen nicht alle Suchmaschinen das Attribut beachten und zum anderen die Links zwar nicht fur die PageRank Berechnung berucksichtigt werden die verlinkten Seiten jedoch von den meisten Suchmaschinen weiterhin gecrawlt werden Sonstige Verwendungszwecke BearbeitenPageRank wird heute auch regelmassig in der Bibliometrie der Analyse von Sozialen und Informationsnetzwerken sowie fur Linkvorhersagen und Empfehlungen verwendet Es wird sogar zur Systemanalyse von Strassennetzen sowie in der Chemie Biologie Neurowissenschaft und Physik eingesetzt 7 Wissenschaftliche Forschung und Hochschulwesen Bearbeiten PageRank wird verwendet um den wissenschaftlichen Einfluss von Forschern zu quantifizieren Die zugrunde liegenden Zitations und Kollaborationsnetzwerke werden in Verbindung mit dem Pagerank Algorithmus verwendet um ein Ranking System fur einzelne Publikationen zu entwickeln das sich auf einzelne Autoren ubertragt Der neue Index der als Pagerank Index Pi bekannt ist erweist sich im Vergleich zum h Index als gerechter da dieser viele Nachteile aufweist 8 Fur die Analyse von Proteinnetzwerken in der Biologie ist PageRank ebenfalls ein nutzliches Werkzeug 9 10 In jedem Okosystem kann eine abgewandelte Version des PageRank verwendet werden um die Arten zu bestimmen die fur das Fortbestehen des Okosystems wichtig sind 11 Eine ahnliche neue Anwendung von PageRank besteht darin akademische Promotionsprogramme auf der Grundlage ihrer Erfolge bei der Einstellung ihrer Absolventen in Fakultatspositionen zu bewerten Im Sinne von PageRank sind akademische Abteilungen miteinander verbunden indem sie ihre Lehrkrafte voneinander und von sich selbst anwerben 12 Internet Bearbeiten Das soziale Netzwerk Twitter benutzt ein angepasstes PageRank System Deren Empfehlungsdienst WTF Who to Follow stellt taglich Millionen von Verbindungen zwischen Nutzern auf der Grundlage gemeinsamer Interessen Verbindungen und anderer verwandter Faktoren her 13 Siehe auch Bearbeiten nbsp Commons PageRank Sammlung von Bildern Videos und Audiodateien RankBrain Click Popularity Disavow Natural Listings SponsorenlinkLiteratur BearbeitenAmy N Langville und Carl D Meyer Google s pagerank and beyond the science of search engine rankings Princeton N J Princeton University Press 2006 ISBN 978 1 4008 3032 9 sample chapter Arvind Arasu Junghoo Cho Hector Garcia Molina Andreas Paepcke und Sriram Raghavan Searching the Web Technical Report Stanford University USA 2000 online PDF 1 7 MB Sergei Brin Lawrence Page The Anatomy of a Large Scale Hypertextual Web Search Engine In Computer Networks and ISDN Systems Band 30 1998 S 107 117 Charles H Hubbell An input output approach to clique identification In Sociometry Nummer 28 Seite 377 399 1965 Leo Katz A new status index derived from sociometric analysis In Psychometrika Nummer 18 1 Seite 39 43 1953 PDF J Seeley The net of reciprocal influence A problem in treating sociometric data Canadian Journal of Psychology 3 234 240 1949 Weblinks BearbeiteneFactory Erlauterungen und Berechnungsbeispiele zum PageRank Verfahren Franz Embacher Universitat Wien Bewertung von Webseiten durch Google Suchmaschinen Doktor Der PageRank Algorithmus Geschichte Mathematik Beispiele und Erweiterungen Linkkatalog zum Thema PageRank bei curlie org ehemals DMOZ Einzelnachweise Bearbeiten a b Patent US6285999B1 Method for node ranking in a linked database Angemeldet am 10 Januar 1997 veroffentlicht am 4 September 2001 Anmelder Leland Standford Junior University Erfinder Lawrence Page Ebenso zitiert Page diese in seinem Patent sowie Katz Hubbell und andere Stanford earns 335 Million off google stocks Redorbit 2005 Wired Researchers Fight Toxic Waste With Google PageRank 17 Februar 2012 Amit Singhal Fifteen years on and we re just getting started In Google Blog Google LLC 26 September 2013 abgerufen am 5 Mai 2021 englisch Google has confirmed it is removing Toolbar PageRank Searchengineland co 8 Marz 2016 abgerufen am 10 Marz 2016 David F Gleich PageRank Beyond the Web In SIAM Review Band 57 Nr 3 1 Januar 2015 ISSN 0036 1445 S 321 363 doi 10 1137 140976649 Upul Senanayake Mahendra Piraveenan Albert Zomaya The Pagerank Index Going beyond Citation Counts in Quantifying Scientific Impact of Researchers In PLoS ONE Band 10 Nr 8 19 August 2015 ISSN 1932 6203 S e0134794 doi 10 1371 journal pone 0134794 PMID 26288312 PMC 4545754 freier Volltext Gabor Ivan Vince Grolmusz When the Web meets the cell using personalized PageRank for analyzing protein interaction networks In Bioinformatics Band 27 Nr 3 1 Februar 2011 ISSN 1460 2059 S 405 407 doi 10 1093 bioinformatics btq680 Daniel Banky Gabor Ivan Vince Grolmusz Equal Opportunity for Low Degree Network Nodes A PageRank Based Method for Protein Target Identification in Metabolic Graphs In PLoS ONE Band 8 Nr 1 29 Januar 2013 ISSN 1932 6203 S e54204 doi 10 1371 journal pone 0054204 PMID 23382878 PMC 3558500 freier Volltext Google trick tracks extinctions 4 September 2009 bbc co uk abgerufen am 12 Januar 2022 Benjamin M Schmidt Matthew M Chingos Ranking Doctoral Programs by Placement A New Method In PS Political Science amp Politics Band 40 Nr 03 Juli 2007 ISSN 1049 0965 S 523 529 doi 10 1017 S1049096507070771 Pankaj Gupta Ashish Goel Jimmy Lin Aneesh Sharma Dong Wang WTF the who to follow service at Twitter In Proceedings of the 22nd international conference on World Wide Web WWW 13 ACM Press Rio de Janeiro Brazil 2013 ISBN 978 1 4503 2035 1 S 505 514 doi 10 1145 2488388 2488433 Abgerufen von https de wikipedia org w index php title PageRank amp oldid 236173808