www.wikidata.de-de.nina.az
Deduplikation aus englisch deduplication auch Datendeduplikation oder Deduplizierung ist in der Informationstechnik ein Prozess der redundante Daten identifiziert Duplikaterkennung und eliminiert bevor diese auf einen nichtfluchtigen Datentrager geschrieben werden Der Prozess komprimiert wie andere Verfahren auch die Datenmenge die von einem Sender an einen Empfanger geschickt wird Es ist nahezu unmoglich die Effizienz bei der Verwendung von Deduplikationsalgorithmen vorherzusagen da sie immer von der Datenstruktur und der Anderungsrate abhangig ist Deduplikation kann eine sehr effiziente Methode sein Datenmengen zu reduzieren bei denen eine Mustererkennung moglich ist unverschlusselte Daten Vorrangiges Einsatzgebiet der Deduplikation ist vorerst die Datensicherung Backup bei der sich in der Praxis meistens eine starkere Datenkomprimierung als mit anderen Methoden erzielen lasst Das Verfahren eignet sich grundsatzlich fur jeden Einsatzbereich bei dem Daten wiederholt kopiert werden Inhaltsverzeichnis 1 Funktionsweise 2 Chunking 3 Siehe auch 4 WeblinksFunktionsweise BearbeitenDeduplikationssysteme unterteilen die Dateien in Blocke gleicher Grosse meist Zweierpotenzen und berechnen fur jeden Block eine Prufsumme Hierin liegt auch die Abgrenzung zum Single Instance Storage SIS das identische Dateien eliminieren soll siehe auch inhaltsadressierte Speichersysteme CAS Alle Prufsummen werden anschliessend zusammen mit einem Verweis auf die entsprechende Datei und die Position innerhalb der Datei gespeichert Kommt eine neue Datei hinzu so wird auch ihr Inhalt in Blocke unterteilt und daraus die Prufsummen berechnet Anschliessend wird verglichen ob eine Prufsumme bereits existiert Dieser Vergleich der Prufsummen ist wesentlich schneller als die Dateiinhalte direkt miteinander zu vergleichen Wird eine identische Prufsumme gefunden ist dies ein Hinweis darauf dass moglicherweise ein identischer Datenblock gefunden wurde es muss allerdings noch gepruft werden ob die Inhalte tatsachlich identisch sind da es sich auch um eine Kollision handeln kann Wurde ein identischer Datenblock gefunden wird einer der Blocke entfernt und stattdessen nur ein Verweis auf den anderen Datenblock gespeichert Dieser Verweis benotigt weniger Speicherplatz als der Block selbst Fur die Selektion der Blocke gibt es zwei Methoden Beim Reverse Referencing wird der erste gemeinsame Block gespeichert alle weiteren identischen erhalten einen Verweis auf den ersten Das Forward Referencing legt immer den zuletzt aufgetretenen gemeinsamen Datenblock ab und referenziert die vorher aufgetretenen Elemente Bei diesem Methodenstreit geht es darum ob Daten schneller gespeichert oder schneller wiederhergestellt werden sollen Weitere Vorgehensweisen wie Inband und Outband konkurrieren darum ob der Datenstrom on the fly also im laufenden Betrieb analysiert wird oder erst nachdem dieser am Zielort gespeichert worden ist Im ersten Fall darf nur ein Datenstrom existieren im zweiten konnen die Daten mittels mehrerer Datenstrome parallel untersucht werden BeispielBei der Datensicherung von Festplatten auf Bandmedien ist das Verhaltnis von neuen bzw veranderten zu unveranderten Daten zwischen zwei Vollsicherungen meist nur relativ gering Zwei Vollsicherungen benotigen bei der klassischen Datensicherung aber trotzdem mindestens die doppelte Speicherkapazitat auf dem Band verglichen mit den Originaldaten Die Deduplikation erkennt die identischen Datenbestandteile In einer Liste werden dazu eindeutige Segmente festgehalten und beim erneuten Auftreten dieses Datenteils werden Zeitpunkt und Ort im Datenstrom notiert so dass letztlich die Originaldaten wiederhergestellt werden konnen Allerdings handelt es sich damit nicht mehr um voneinander unabhangige Vollsicherungen d h dass der Verlust eines Versionsstandes zu unwiederbringlichem Datenverlust fuhrt Deduplikation verzichtet somit ahnlich der inkrementellen Sicherungen auf Datensicherheit zugunsten des Speicherbedarfs Chunking BearbeitenDas Ziel ist es die Daten so in Stucke zu zerlegen dass moglichst viele identische Datenblocke entstehen die dedupliziert werden konnen Der Vorgang zur Zerlegung heisst Chunking von englisch chunk Stuck Block Der Vorgang zur eindeutigen Identifikation von Blocken heisst Fingerprinting und kann beispielsweise durch eine kryptographische Hashfunktion erfolgen Je kleinteiliger die Anderungen einer Datei bestimmt werden konnen desto weniger muss redundant gesichert werden Allerdings vergrossert sich dadurch der Index also der Bauplan wie und aus welchen Bestandteilen die Datei beim Aufruf wieder zusammengesetzt wird Dieser Zielkonflikt muss bei der Wahl der Blockgrosse fur das Chunking berucksichtigt werden Siehe auch BearbeitenCopy On Write Datenbereinigung Datenmull Management Green ITWeblinks BearbeitenOliver Kluge Dateisysteme mit Deduplizierung im Test In Linux Magazin Abgerufen am 16 September 2018 Michael Bergler Was ist de dublication oder Deduplikation Abgerufen am 16 September 2018 Remove Duplicate Lines From a List Online Deduplication In text filter com Abgerufen am 16 September 2018 Abgerufen von https de wikipedia org w index php title Deduplikation amp oldid 214497808