www.wikidata.de-de.nina.az
Das Web ARChive WARC Archivformat spezifiziert ein Verfahren zum Kombinieren mehrerer digitaler Ressourcen in einer aggregierten Archivdatei mit zugehorigen Metadaten Das WARC Format ist eine Uberarbeitung des ARC Dateiformats des Internet Archive das traditionell zum Speichern von Webcrawls als Sequenzen von Inhaltsblocken aus dem World Wide Web verwendet wird Das WARC Format verallgemeinert das altere Format um die Anforderungen von Archivierungsunternehmen fur die Erfassung den Zugriff und den Austausch besser zu unterstutzen Neben dem aktuell aufgezeichneten Primarinhalt berucksichtigt die Revision auch verwandte Sekundarinhalte wie zugewiesene Metadaten Web ARChiveDateiendung warcMIME Type application warcStandard s ISO 28500 2017 2 Website https github com iipc awesome web archivingDie Library of Congress verzeichnet das Format in ihrem Projekt Sustainability of Digital Formats 3 WARC wird heute von den meisten nationalen Bibliothekssystemen als Standard fur die Webarchivierung anerkannt So nutzt es beispielsweise die Bayerische Staatsbibliothek in ihren Archivierungsprojekten 4 und die Deutsche Nationalbibliothek empfiehlt es als Standard 5 Inhaltsverzeichnis 1 Aufbau 2 Software 3 Online Dienste 4 Einzelnachweise 5 WeblinksAufbau BearbeitenEine WARC Datei besteht aus einem oder mehreren Records Ein Record besteht dabei aus Kopfzeile bzw Header in dem verpflichtende Metadatenfelder unter anderem die URL das Datum Typ und Lange des Records eingetragen werden dem Content Block in dem der eigentliche Inhalt steht Hier liegt im sogenannten WARC record payload die gespeicherte Ressource vor Im Standard werden acht verschiedene Record Typen vordefiniert warcinfo Befindet sich in der Regel am Anfang der WARC Datei Der Record enthalt allgemeine Informationen uber die darauffolgenden Records normalerweise also uber die Datei selbst Zu den Metadaten gehoren u a Name und Emailadresse des Erstellers ausserdem Useragent IP Adresse HTTP Header und Software die bei der Archivierung der Daten verwendet wurden response Enthalt die vollstandige Antwort Response nach Client Server Modell eines Webservers inklusiver ausfuhrlicher Netzwerk und Protokollinformationen Folglich befinden sich in dessen Content Blocks meist die zu speichernde Ressource resource Falls es nicht moglich oder nicht erwunscht ist samtliche Protokollinformationen mit zu speichern ist ein Ressource Record fur die einfache Speicherung einer Ressource optimal request Gegenstuck zum Response Record Enthalt Anfrage und zugehorige Informationen die zur Zeit des Crawls an den Webserver gesendet wurden metadata Beliebige Metadaten werden hier abgelegt Fast immer beziehen sich diese auf einen anderen Record welcher uber die Felder WARC Concurrent To oder WARC Refers To revisit Wird typischerweise verwendet falls ein schon archivierter Inhalt nochmals besucht wird Dabei wird relativ zur schon archivierten Ressource nur ein gekurzter Content Block gespeichert Dadurch kann unnotige Redundanz vermieden und Speicherplatz gespart werden conversion Zweck eines Conversion Records ist es die Inhalte eines vorhandenen Records in einem anderen Format zu speichern continuation Der Continuation Record englisch fur Fortsetzung ermoglicht es grosse Datenmengen uber mehrere WARC Dateien zu verteilen Zwar spezifiziert der WARC Standard keine Kompression jedoch kann diese ohne Probleme zur Reduzierung der Speichermenge verwendet werden Empfohlen wird dabei vom IIPC das GZIP Format Deshalb findet man WARC Dateien ofters mit der Dateiendung warc gz vor Software BearbeitenHeritrix in Java wget ab Version 1 14 6 StormCrawler Apache NutchOnline Dienste Bearbeitenreplayweb page zum Laden und Betrachten von WARC Dateien webrecorder io mit 5 GB kostenlosen Speicherplatz von Rhizome org Perma cc 10 freie Links pro Monat und Benutzer von der Harvard Law School Library lil law harvard edu Webpreserver com ist eine Browser Erweiterung fur ChromeEinzelnachweise Bearbeiten application warc Abgerufen am 17 Marz 2018 englisch Information and documentation WARC file format Abgerufen am 16 Marz 2018 englisch Format Description Categories Sustainability of Digital Formats Library of Congress Abgerufen am 6 Juni 2023 Tobias Beinert Webarchivierung an der Bayerischen Staatsbibliothek In Bibliotheksdienst Band 51 Nr 6 1 Juni 2017 ISSN 2194 9646 S 490 499 doi 10 1515 bd 2017 0052 degruyter com abgerufen am 6 Juni 2023 Konstanze Weimer Astrid Schoger Das Dateiformat WARC fur die Webarchivierung Hrsg DNB 26 April 2021 dnb de PDF Giuseppe Scrivano GNU wget 1 14 released In GNU wget 1 14 released Free Software Foundation Inc 6 August 2012 abgerufen am 25 Februar 2016 englisch Weblinks Bearbeitenhttp archive access sourceforge net warc http bibnum bnf fr WARC http www digitalpreservation gov formats fdd fdd000236 shtml https netpreserve org resources WARC Guidelines v1 pdf https iipc github io warc specifications Abgerufen von https de wikipedia org w index php title Web ARChive amp oldid 235764211