www.wikidata.de-de.nina.az
Dieser Artikel oder nachfolgende Abschnitt ist nicht hinreichend mit Belegen beispielsweise Einzelnachweisen ausgestattet Angaben ohne ausreichenden Beleg konnten demnachst entfernt werden Bitte hilf Wikipedia indem du die Angaben recherchierst und gute Belege einfugst Zur Datenbereinigung englisch data cleansing oder data editing gehoren verschiedene Verfahren zum Entfernen und Korrigieren von Datenfehlern in Datenbanken oder anderen Informationssystemen Die Fehler konnen beispielsweise aus inkorrekten ursprunglich falschen oder veralteten redundanten inkonsistenten oder falsch formatierten Daten bestehen Wesentliche Schritte zur Datenbereinigung sind die Duplikaterkennung Erkennen und Zusammenlegen von gleichen Datensatzen und Datenfusion Zusammenfuhren und Vervollstandigen luckenhafter Daten Die Datenbereinigung ist ein Beitrag zur Verbesserung der Datenqualitat Allerdings betrifft dies auch die Eigenschaften von Datenquellen Glaubwurdigkeit Relevanz Verfugbarkeit die sich mittels Datenbereinigung nicht verbessern lassen Inhaltsverzeichnis 1 Prozess zur Datenbereinigung 1 1 Datenqualitat Anforderungen 1 2 Analyse der Daten 1 3 Sicherung 1 4 Standardisierung 1 5 Daten bereinigen 2 Beispiel 3 Siehe auch 4 Literatur 5 EinzelnachweiseProzess zur Datenbereinigung BearbeitenDer Prozess zur Bereinigung der Daten gliedert sich in funf aufeinanderfolgende Schritte 1 Datenqualitat Anforderungen an Daten festlegen Analyse der Daten Sicherungskopie der Datei Tabelle erstellen Standardisierung Bereinigung der DatenDatenqualitat Anforderungen Bearbeiten Hochwertige und verlassliche Daten mussen bestimmte Anforderungen erfullen z B valide Daten gleicher Datentyp vollstandige Daten einheitliche Daten gleiche Einheit z B Wahrung Gewichtsangabe Lange integre Daten Daten mussen vor absichtlicher und oder unabsichtlicher Manipulation geschutzt sein Analyse der Daten Bearbeiten Nachdem die Anforderungen geklart sind mussen die Daten z B mit Hilfe der Checklisten gepruft werden inwieweit sie die geforderte Qualitat aufweisen Daraus ergeben sich z B die jeweiligen Fehlerquoten Sicherung Bearbeiten Bevor man die Daten bereinigt sollte man die originaren fehlerhaften Daten als Kopie speichern und nach der Bereinigung auf keinen Fall einfach loschen Ansonsten waren die Bereinigungen nicht nachvollziehbar Ausserdem ware ein solcher Prozess nicht revisionssicher Eine Alternative zur Archivierung insbesondere bei mehreren Bereinigungslaufen ist die Speicherung des korrigierten Werts in einer zusatzlichen Spalte Eine weitere Moglichkeit ist die Speicherung in einer zusatzlichen Zeile Die letzte Moglichkeit bei einer grossen Anzahl zu korrigierender Spalten und Zeilen ist das Anlegen einer gesonderten Tabelle Die jeweilige Entscheidung hangt auch vom Speicherplatz ab der zur Verfugung steht Standardisierung Bearbeiten Fur eine erfolgreiche Bereinigung mussen die Daten ggf standardisiert werden Dies ist abhangig von den Ergebnissen der Datenanalyse und der Fehlerquote Die Strukturierung bringt die Daten in ein einheitliches bzw verbessertes Format beispielsweise wird dabei ein Datum in ein einheitliches Datenformat gebracht 01 09 2009 Oder zusammengesetzte Daten werden in ihre Bestandteile zerlegt z B der Name eines Kunden in die Namensbestandteile Anrede Titel Vorname und Nachname Meistens sind solche Strukturierungen nicht trivial und werden mit Hilfe von komplexen Parsern durchgefuhrt Bei der Normierung werden die vorhandenen Werte auf eine normierte Werteliste abgebildet Diese Normierung kann z B fur die Anrede den akademischen Titel oder Firmenzusatze durchgefuhrt werden So konnen beispielsweise die Firmenzusatze e Kfr und Kfm durch den normierten Wert e K ersetzt werden wodurch die spatere Bereinigung stark vereinfacht wird Daten bereinigen Bearbeiten Fur die Bereinigung der Daten stehen sechs Methoden zu Auswahl die einzeln oder kombiniert angewendet werden konnen Ableiten aus anderen Daten Aus anderen Daten werden die korrekten Werte abgeleitet z B die Anrede aus dem Geschlecht Ersetzen durch andere Daten Die fehlerhaften Daten werden durch andere Daten z B aus anderen Systemen ersetzt Default Werte verwenden Es werden Default Werte anstelle der fehlerhaften Daten verwendet Fehlerhafte Daten entfernen Die Daten werden herausgefiltert und nicht weiter verarbeitet Duplikate entfernen Duplikate werden uber die Duplikaterkennung identifiziert die nicht redundanten Daten aus den Dubletten konsolidiert und daraus ein einziger Datensatz gebildet Zusammenfassungen auftrennen Im Gegensatz zur Entfernung von Duplikaten werden hierbei fehlerhaft zusammengefasste Daten wieder getrennt Beispiel BearbeitenEin besonders haufiger Fall ist die Datenbereinigung bei Anschriften wobei es unterschiedliche Schreibweise bei den Strassennamen geben kann abgesehen von Strasse und Strasse Auch die Schreibweise bei den Namen kann unterschiedlich sein obwohl es sich im Einzelfall um ein und dieselbe Person handeln kann Dadurch entstehen immer wieder Dubletten Eine sehr umfangreiche Form der Datenbereinigung die jedoch schon eher eine Migration glich war die Umstellung von vierstelligen auf funfstellige Postleitzahlen in Deutschland ab 1990 2 Siehe auch BearbeitenData Mining Knowledge Discovery in DatabasesLiteratur BearbeitenDetlef Apel Wolfgang Behme Rudiger Eberlein Christian Merighi Datenqualitat erfolgreich steuern 2009 Hanser Fachbuch ISBN 978 3 446 42056 4 Einzelnachweise Bearbeiten Apel 2009 S 157 Die Umstellung auf die Funfstelligen In Michel Rundschau 2 1994 Abgerufen von https de wikipedia org w index php title Datenbereinigung amp oldid 214566519