www.wikidata.de-de.nina.az
Web Archivierung bezeichnet das Sammeln und dauerhafte Ablegen von Netzpublikationen mit dem Zweck in der Zukunft Offentlichkeit und Wissenschaft einen Blick in die Vergangenheit bieten zu konnen Ergebnis des Vorgangs ist ein Web Archiv Die grosste internationale Einrichtung zur Web Archivierung ist das Internet Archive in San Francisco USA das sich als Archiv des gesamten World Wide Web versteht Staatliche Archive und Bibliotheken in vielen Landern unternehmen Anstrengungen zur Sicherung der Netzuberlieferung in ihrem Bereich Die deutschen Archivgesetze definierten ab 1987 die Archivierung digitaler Unterlagen als Pflichtaufgabe der staatlichen Archive die Umsetzung dieses Auftrags lauft aber erst an Im Jahr 2006 wurde das DNBG Gesetz zur deutschen Nationalbibliothek verabschiedet das den Auftrag der Deutschen Nationalbibliothek auf die Archivierung von Websites ausdehnt Auch die Bundeslander planen ihre Pflichtexemplar Gesetze in diesem Sinne zu andern oder haben die Anderung bereits vollzogen Inhaltsverzeichnis 1 Archivierungsziele 2 Begrifflichkeiten 3 Auswahlverfahren 4 Ubernahmemethoden 4 1 Remote harvesting 4 2 Archivierung des Hidden Web 4 3 Transactional archiving 5 Webarchivierung in Deutschland 6 Siehe auch 7 Umsetzungen 8 Weblinks 9 EinzelnachweiseArchivierungsziele BearbeitenWeb Archivierung verfolgt das Ziel einen definierten Ausschnitt der im Internet vorhandenen Web Prasenzen in systematischer Form abzubilden Hierfur sind eine ubergreifende Sammlungspolitik ein Auswahlverfahren und die Haufigkeit der Archivierung vorab zu klaren Eine archivierte Website sollte mit allen multimedialen Funktionen HTML Code Stylesheets JavaScript Bilder und Video auf Dauer erhalten werden Der spateren Beschreibung Nutzung und Erhaltung dienen Metadaten wie Provenienz Ubernahmezeitpunkt MIME Type und Umfang der Daten Die Metadaten sichern Authentizitat und Integritat der digitalen Archivalien Nach der Ubernahme sind technische und juristische Vorkehrungen zu treffen um eine standige offentliche Zuganglichkeit zu garantieren und eine nachtragliche Veranderung der Archivalien zu verhindern 1 Begrifflichkeiten BearbeitenOriginal Resource Eine originale Quelle die aktuell im Internet vorhanden ist oder vorhanden sein sollte und fur die ein Zugriff auf einen fruheren Zustand benotigt wird 2 3 Memento Ein Memento einer originalen Quelle ist eine Ressource die den originalen Zustand einer Quelle zu einem definierten Zeitpunkt kapselt 2 3 TimeGate Ein TimeGate ist eine Ressource die auf Basis eines vorgegebenen Datums und einer Zeitangabe jenes Memento findet welches dieser zeitlichen Vorgabe am besten entspricht 2 3 TimeMap Eine TimeMap ist eine Ressource welche eine Liste aller Mementos ausgibt die fur die originale Quelle je angelegt wurden 2 3 Auswahlverfahren BearbeitenUnspezifisch Bei diesem Auswahlverfahren wird eine ganze Domain nach und nach in ein Archiv geschrieben Das Verfahren funktioniert wegen des grossen Speicherbedarfs nur bei kleineren Domains netarkivet dk Auswahlliste Eine Liste von Institutionen wird vorab festgelegt Die Stabilitat der mit den Institutionen verbundenen URLs ist regelmassig zu prufen Nutzung von Zugriffsstatistiken In Zukunft ist ein intelligentes Harvesting deutsch Ernten denkbar das aufgrund von Zugriffszahlungen diejenigen Teile des Web oder einer Auswahl archiviert die besonders hohe Zugriffsraten aufweisen Ubernahmemethoden BearbeitenRemote harvesting Bearbeiten Die ublichste Archivierungsmethode ist die Nutzung eines Webcrawlers Ein Web Crawler ruft die Inhalte einer Website wie ein menschlicher Nutzer ab und schreibt die Ergebnisse in ein Archivobjekt Genauer betrachtet bedeutet das ein rekursives Durchsuchen von Webseiten anhand der darauf gefundenen Links ausgehend von einem gewissen Startbereich der entweder eine Webseite oder auch eine Liste an Webseiten die durchsucht werden sollen sein kann Aufgrund mengenmassiger Limitationen etwa wegen Dauer oder Speicherplatz sind diverse Einschrankungen Abbruchbedingungen hinsichtlich Tiefe Domain und der zu archivierenden Dateiarten moglich Bei grosseren Projekten kommt hierbei der Bewertung von Webseiten zur URL Reihung eine besondere Bedeutung zu Im Verlauf eines Crawl Vorganges konnen sich unter Umstanden sehr viele Webadressen ansammeln die dann entweder in einer Liste nach dem FIFO Verfahren oder als Prioritatswarteschlange abgearbeitet werden Fur letzteren Fall kann man sich die Webseiten dabei in einer Heap Struktur vorstellen Jede Webseite an sich bildet einen eigenen Heap und jeder darin gefundene Link zu einer weiteren Webseite bildet wiederum einen Unterheap der ein Element im Heap der vorhergehenden Webseite darstellt Das hat auch den Vorteil dass im Fall einer uberlaufenden URL Liste zuerst diejenigen mit der niedrigsten Prioritat durch neue Eintrage ersetzt werden Die Ausgangsstruktur auf dem Server lasst sich allerdings im Archiv nur selten exakt nachbauen Um bereits im Vorfeld einer Spiegelung eventuell auftretende technische Probleme ausschliessen zu konnen bietet es sich an vorab eine Analyse der Webseite durchzufuhren Dies verdoppelt zwar in den meisten Fallen den Datenverkehr verkurzt aber die aufzuwendende Arbeitszeit im Fehlerfall erheblich 4 Beispiele fur Webcrawler sind Heritrix HTTrack Offline ExplorerArchivierung des Hidden Web Bearbeiten Das Hidden Web oder Deep Web bezieht sich auf Datenbanken die oft die eigentlichen Inhalte einer Website reprasentieren und nur auf Anfrage eines Nutzers ausgegeben werden Auch dadurch andert sich das Web standig und es erscheint als wurde dieses eine unendliche Grosse besitzen Zur Ubernahme dieser Datenbanken ist eine Schnittstelle erforderlich die meist auf XML beruht Fur einen solchen Zugang sind die Tools DeepArc Bibliotheque nationale de France und Xinq National Library of Australia entwickelt worden Transactional archiving Bearbeiten Dieses Verfahren dient der Archivierung der Ergebnisse eines Nutzungsprozesses von Websites Es ist fur Einrichtungen von Bedeutung die aus rechtlichen Grunden einen Nachweis uber ihre Nutzung zu fuhren haben Voraussetzung ist die Installation eines Zusatzprogramms auf dem Webserver Webarchivierung in Deutschland BearbeitenAuf Bundesebene hat die Deutsche Nationalbibliothek DNB seit 2006 den gesetzlichen Auftrag zur Webarchivierung Seit 2012 werden Webseiten thematisch und bei bestimmten Ereignissen archiviert also selektiv und nicht vollumfanglich Die DNB arbeitet dabei mit einem externen Dienstleister zusammen Ausserdem wurden 2014 bisher einmalig alle DE Domains gecrawled Der Zugriff auf das Webarchiv erfolgt hauptsachlich in den Lesesalen 5 Neben der Webarchivierung der DNB gibt es in verschiedenen Bundeslandern Initiativen Baden Wurttemberg Das Baden Wurttembergische Online Archiv BOA sammelte bis 2019 digitale Publikationen und ausgewahlte Webseiten 6 Seit 2020 benutzt das Landesarchiv Baden Wurttemberg das DIMAG Modul DIWI fur die bibliothekarischen Aufgaben hat das Bibliotheksservice Zentrum den Dienst Archive It des Internet Archive beauftragt Bayern Die Bayerische Staatsbibliothek sammelt seit 2010 ausgewahlte Webseiten 7 8 Rheinland Pfalz Die Rheinische Landesbibliothek sammelt seit 2003 im Projekt edoweb ausgewahlte Webseiten 9 Ausserdem gibt es in Deutschland weitere Webarchivierungsinitiativen beispielsweise von parteinahen Stiftungen vom SWR von der Deutschen Post oder vom Biotechnologie Pharmaunternehmen Abbvie Siehe auch BearbeitenCompliant Transaction Recording Content Lifecycle Elektronische Archivierung Langzeitarchivierung Open Archives Initiative Web ARChiveUmsetzungen BearbeitenDie Wayback Machine des Internet Archives Archive is DIMAG WebCite Google Cache Die letzte Version einer Web Adresse in der fur Google Server optimierten Variante wird fur einige Wochen bereit gestellt Weblinks BearbeitenTime Travel Metasuche in ca 25 Internet Archiven Gyo Megalodon Japanische Metasuche in Internet Archiven International Internet Preservation Consortium IIPC Internationales Konsortium mit der Aufgabe Informationen und Wissen aus dem Internet fur kunftige Generationen zu ubernehmen zu erhalten und zuganglich zu machen International Web Archiving Workshop IWAW Jahrlich stattfindender Workshop zur Web Archivierung Digital Collections and Programs Library of Congress Web Archiving Library of Congress Web archiving bibliography tuwien ac at Literaturliste zur Web Archivierung Web archiving discussion list cru fr Diskutiert technische organisatorische und rechtliche Fragen der Web Archivierung Literatur von Michael L Nelson wissenschaftliche Artikel auf dblp uni trier deEinzelnachweise Bearbeiten Steffen Fritz Rewriting History PDF with WARC files Nicht mehr online verfugbar Januar 2016 archiviert vom Original am 9 November 2017 abgerufen am 9 November 2017 englisch a b c d RFC 7089 HTTP Framework for Time Based Access to Resource States Memento englisch a b c d Memento Guide Introduction Abgerufen am 5 Oktober 2018 englisch Steffen Fritz Praxisreport Verfahren zur Evaluierung der Archivierbarkeit von Webobjekten In ABI Technik Nr 2 2015 S 117 120 doi 10 1515 abitech 2015 0015 Tobias Steinke Das deutsche Internet archivieren Zwischen selektivem Ansatz und de Domain Crawl Deutsche Nationalbibliothek 26 Juni 2014 dnb de PDF Felix Geisler Wiebke Dannehl Christian Keitel Stefan Wolf Zum Stand der Webarchivierung in Baden Wurttemberg In Bibliotheksdienst Band 51 Nr 6 1 Juni 2017 ISSN 2194 9646 S 481 489 doi 10 1515 bd 2017 0051 degruyter com abgerufen am 24 Marz 2020 Tobias Beinert Webarchivierung an der Bayerischen Staatsbibliothek In Bibliotheksdienst Band 51 Nr 6 1 Juni 2017 ISSN 2194 9646 S 490 499 doi 10 1515 bd 2017 0052 degruyter com abgerufen am 24 Marz 2020 Workflow Web Archivierung in der Langzeitarchivierung an der Bayerischen Staatsbibliothek BABS Abgerufen am 24 Marz 2020 Edoweb Rheinland pfalzischer Archivserver fur elektronische Dokumente und Websites Abgerufen am 24 Marz 2020 Abgerufen von https de wikipedia org w index php title Web Archivierung amp oldid 237958507