www.wikidata.de-de.nina.az
Das Google File System GFS oder GoogleFS ist ein proprietares verteiltes Dateisystem fur Linux basierte Systeme das Google intern entwickelte um grosse Datenmengen vor allem aus dem Index der Google Suche und spater auch aus Gmail zu speichern und zu verarbeiten 1 2 Das Google File System kennt zwei Arten von Komponenten die Master und die Chunkserver Erstere halten lediglich Metainformationen uber Dateien wahrend letztere die tatsachlichen Daten auf einem klassischen Linux Dateisystem persistieren Das Google File System unterteilt die Dateien dafur in Chunks so dass eine Datei auf mehrere Server aufgeteilt werden kann In der ersten Version war jeder Chunk 64 Megabyte gross wahrend die Grosse spater auf 1 MB aktualisiert wurde Stand 2009 2 Das Google File System arbeitet eine Abstraktionsebene hoher als typische Dateisysteme und kummert sich lediglich um die Verteilung unter Gewahrleistung von Verfugbarkeit und Konsistenz der Daten 1 Es ist fur einen hohen Datendurchsatz optimiert und kann hunderte von Terabytes verteilt auf tausende Festplatten auf tausenden Maschinen verwalten 2 Inhaltsverzeichnis 1 Aufbau 2 Literatur 3 Siehe auch 4 Einzelnachweise 5 WeblinksAufbau BearbeitenDas Google File System ist an die notwendigen Anforderungen der Websuche angepasst die eine enorme Menge an zu speichernden Daten generiert GFS entstand aus einem fruheren Versuch Googles welcher den Namen BigFiles tragt und von Larry Page sowie Sergey Brin wahrend ihrer Forschungstatigkeit an der Stanford University entwickelt wurde Die Daten werden durchgehend in sehr grossen teilweise sogar mehrere Gigabyte grossen Dateien gespeichert welche nur in extrem seltenen Fallen geloscht uberschrieben oder komprimiert werden Daten werden ublicherweise angehangt oder ausgelesen Das Dateisystem ist auch entworfen und optimiert worden um auf Googles rechnenden Clustern laufen zu konnen deren Netzknoten aus handelsublichen PCs bestehen Dies bedeutet allerdings auch dass man die hohe Ausfallrate und den damit verbundenen Datenverlust individueller Netzknoten als Normalzustand ansehen muss Das aussert sich auch darin dass kein Unterschied zwischen normaler Herunterfahren und abnormaler Beendigung Absturz gemacht wird Serverprozesse werden standardmassig per Killbefehl beendet Andere Designentscheidungen setzen auf hohe Datendurchsatzraten auch wenn dies auf Kosten der Latenzzeit geht Ein GFS Cluster besteht aus einem Master und hunderten oder tausenden Chunkservern Die Chunkserver speichern die Dateien wobei jede Datei in 64 MB grosse Stucke Chunks gespalten ist ahnlich Clustern oder Sektoren in gebrauchlichen Dateisystemen Um Datenverlust zu verhindern wird jede Datei beim GFS standardmassig mindestens dreimal pro Cluster gespeichert Bei Ausfall eines Chunkservers treten nur verschwindend geringe Verzogerungen auf bis die Datei wieder ihre Standardanzahl an Replikas besitzt Je nach Bedarf kann die Anzahl auch hoher liegen etwa bei ausfuhrbaren Dateien Jedem Chunk wird eine eindeutige 64 Bit lange Kennzeichnung zugewiesen logische Mappings der Dateien zu den einzelnen Chunks werden beibehalten Der Master speichert keine Chunks sondern vielmehr deren Metadaten wie etwa Dateinamen Dateigrossen ihren Speicherort sowie den ihrer Kopien welche Prozesse gerade auf welchen Chunk zugreifen etc Die Master erhalten jegliche Anfragen fur eine Datei und liefern als Antwort die dazugehorigen Chunkserver und erteilen entsprechende Sperren an den Prozess Ein Client darf allerdings fur gewisse Zeit die Adresse der Chunkserver cachen Fallt die Anzahl an verfugbaren Replikas unter die Normzahl sind es auch die Master die die Erstellung einer neuen Chunkkopie anstossen Die Metadaten werden aktuell gehalten indem die Master regelmassig Aktualisierungsanfragen an die Chunkserver senden heart beat messages auf Deutsch etwa Herzschlag Nachrichten Design und Implementierung des GFS sehen nur einen Master pro Cluster vor Dies hat den Anschein ein Fehler im System zu sein der dessen Skalierbarkeit und Zuverlassigkeit begrenzt da die maximale Grosse und Uptime von der Leistungsfahigkeit und Uptime des Masters abhangt da dieser die Metadaten katalogisiert und fast alle Anfragen durch ihn laufen Googles Techniker haben allerdings durch Messungen gezeigt dass dies zumindest bis jetzt nicht der Fall und GFS sehr wohl skalierbar ist Der Master ist im Normalfall der leistungsfahigste Netzknoten im Netzwerk Um die Ausfallsicherheit sicherzustellen gibt es mehrere Schatten Master die den Hauptrechner spiegeln und notfalls sollte der Master einmal ausfallen sofort einspringen Zusatzlich stehen die Schattenmaster auch fur reine Leseanfragen die ja den Haupttraffic ausmachen zur Verfugung so dass sich die Skalierbarkeit dadurch weiter erhoht Engstellen gibt es nur selten da Clients nur nach Metadaten fragen die komplett im Arbeitsspeicher als B Baum vorgehalten werden sie sind sehr kompakt pro Megabyte Daten fallen lediglich einige Bytes an Durch den Einsatz nur eines Hauptknotens verringert sich die Softwarekomplexitat drastisch da Schreiboperationen nicht koordiniert werden mussen Literatur BearbeitenMatthew Helmke Ubuntu Unleashed 2015 Edition Pearson Education Inc 2015 ISBN 978 0 672 33837 3 Kuan Ching Li Qing Li Timothy K Shih Hrsg Cloud Computing and Digital Media Taylor amp Francis Group Boca Raton 2014 ISBN 978 1 4665 6917 1 Kenli Li Zheng Xiao Yan Wang Jiayi Du Keqin Li Hrsg Parallel Computational Fluid Dynamics Springer Verlag Berlin Heidelberg 2014 ISBN 978 3 642 53961 9 Yunquan Zhang Kenli Li Zheng Xiao Hrsg High Performance Computing Springer Verlag Berlin Heidelberg 2012 ISBN 978 3 642 41590 6 Siehe auch BearbeitenAmazon DynamoEinzelnachweise Bearbeiten a b S Ghemawat H Gobioff S T Leung Proceedings of the nineteenth ACM Symposium on Operating Systems Principles SOSP 03 2003 ISBN 1 58113 757 5 The Google file system S 29 doi 10 1145 945445 945450 googleusercontent com PDF a b c GFS Evolution on Fast forward Abgerufen am 24 Februar 2021 englisch Weblinks BearbeitenOriginalpaper zum Google File System PDF 276 kB What is a Google File System abgerufen am 31 Juli 2017 GOOGLE FILE SYSTEM GFS abgerufen am 31 Juli 2017 The Google File System abgerufen am 31 Juli 2017 GFS The Google File System abgerufen am 31 Juli 2017 Abgerufen von https de wikipedia org w index php title Google File System amp oldid 239207005