www.wikidata.de-de.nina.az
Datenlinkage bezeichnet die Verknupfung verschiedener Datenquellen Der Begriff Record Linkage wird oft synonym verwendet oft aber auch im engeren Sinne zur Bezeichnung der technischen algorithmischen Verfahren zur Erkennung ob zwei Datensatze zum selben Fall gehoren und gegebenenfalls zu deren Zusammenfuhrung in einem einzelnen Datensatz 1 Datenlinkage ist Teil des Datenmanagements dient zur Verbesserung der Datenqualitat und stellt ein wichtiges Teilgebiet der Data Science dar Inhaltsverzeichnis 1 Szenarien 2 Fehler beim Linkage 3 Verfahren des Record Linkage 4 Datenschutzfreundliche Verfahren PPRL 5 Literatur 6 EinzelnachweiseSzenarien BearbeitenDatenlinkage ist immer dann relevant wenn Daten in einer Datenbank korrigiert oder aus einer anderen Datenquelle erganzt werden sollen Beispiel Die Daten eines Krebsregisters werden durch die Daten eines Melderegisters erganzt die Informationen zu Todesfallen enthalten Bei Krebsregistern ist das Datenlinkage ein Routine Vorgang und durch das Bundeskrebsregisterdatengesetz 2 geregelt Typische Szenarien sind Duplikaterkennung und Deduplikation hier werden in einer Datenbank mehrfach vorhandene Datensatze aufgespurt und das mehrfache Vorkommen bereinigt Zusammenfuhrung zweier sich teilweise uberlappender Datenbanken das Record Linkage im eigentlichen Sinn hier sollen erganzende Daten in der jeweils anderen Datenbank gefunden werden z B im Sinne eines Follow up oder einer Datenfusion iterative Dateneingabe 3 hier sollen einer Datenbank laufend neue Datensatze hinzugefugt oder bereits vorhandene erganzt werden Dabei ist zu prufen ob ein einzugebender Datensatz fruher schon ganz oder teilweise erfasst wurde Wenn die Datensatze oder die zum Vergleich verwendeten Datenfelder vollig identisch sind ist die Aufgabe in allen diesen Szenarien trivial Die eigentlichen Verfahren des Record Linkage betreffen Falle in denen die Datensatze moglicherweise fehlerbehaftet oder luckenhaft sind Fur die Zuordenbarkeit zweier Datensatze werden bei den meisten Verfahren Masszahlen Scores fur die Ahnlichkeit verwendet und ein oder zwei Schwellenwerte definiert Wird der obere Schwellenwert erreicht oder uberschritten werden die Datensatze als zusammengehorig angesehen wird der untere Schwellenwert unterschritten gelten sie als nicht zusammengehorig das kann algorithmisch entschieden werden Im Fall dass sich oberer und unterer Schwellenwert unterscheiden verbleibt dazwischen ein Bereich in dem das algorithmische Verfahren die Entscheidung offen lasst Dann trifft oft ein menschlicher Bearbeiter die abschliessende Entscheidung Clerical Review eventuell unter Hinzuziehung weiterer Informationen Beispiel Ein Adress Datensatz in dem das Datenfeld Familienname einmal mit dem Wert Mueller und einmal mit dem Wert Muller oder das Feld Vorname einmal mit dem Wert Karl und einmal mit dem Wert Karl Josef besetzt ist Schon dieses einfache Beispiel weist darauf hin dass sich das Problem identische Falle zu erkennen algorithmisch nicht immer vollstandig losen lasst Es konnte sich bei den vermeintlichen Duplikaten ja auch um Familienmitglieder im gleichen Haushalt handeln Die Verfahren des Datenlinkage werden meist im Kontext von personenbezogenen oder personenbeziehbaren Daten eingesetzt und mussen dann die Vorgaben des Datenschutzrechts beachten sie sind aber auch fur andere Arten von Daten anwendbar Bei personenbezogenen Daten steht die Verknupfbarkeit im Konflikt mit dem Gewahrleistungsziel der Nicht Verkettbarkeit wie sie etwa im Standard Datenschutzmodell definiert wird Die Entwicklung datenschutzfreundlicher Verfahren zum Datenlinkage Privacy Preserving Record Linkage PPRL siehe unten zielt auf eine Minimierung dieses Konflikts ab Zu beachten ist dass auch pseudonymisierte Daten in der Regel als personenbeziehbar gelten so dass fur das Datenlinkage ein rechtlicher Erlaubnistatbestand vorhanden sein muss z B eine informierte Einwilligung der betroffenen Personen Fur die Durchfuhrung des Record Linkage existieren einige Software Werkzeuge 4 Fehler beim Linkage BearbeitenBei den Verfahren zum Record Linkage konnen zwei Arten von Fehlern vorkommen Ein Synonymfehler tritt auf wenn zwei zusammengehorige Datensatze versehentlich als nicht zusammengehorig deklariert werden mit der Folge dass ein Individuum durch zwei verschiedene Datensatze reprasentiert wird Ein Homonymfehler tritt auf wenn zwei nicht zusammengehorige Datensatze versehentlich als zusammengehorig deklariert werden Wird das Linkage algorithmisch durch einen Score unterstutzt so wird durch Erhohung der Schwellenwerte tendenziell die Rate von Homonymfehlern verringert die von Synonymfehlern erhoht und umgekehrt bei Absenkung der Schwellenwerte Beispiele fur mogliche Fehlerquellen in den einzelnen Datensatzen sind falsche oder unvollstandige Eingaben abweichende Schreibweisen z B bei auslandischen Namen Zahlendreher oder Buchstabendreher Namens oder Adressanderungen Um diese Arten von Fehlern von vornherein zu minimieren werden als Vorbereitung des Linkage oft einzelne Datenfelder standardisiert Entsprechende Massnahmen konnen sein die einheitliche Behandlung von diakritischen Zeichen z B Auflosung von Umlauten Doppelnamen z B Auftrennung in zwei Datenfelder Namenszusatzen wie Titel oder Adelspradikaten Adressangaben Abkurzungen Daruber hinaus werden oft auch phonetische Versionen von Namen verwendet Ubliche Verfahren zu deren Bildung sind Soundex Kolner Phonetik Hannoversche Phonetik 5 Fur die Beschreibung der Verfahren des Record Linkage geht man in der Regel davon aus dass definierte Teile der Datensatze zum Vergleich herangezogen werden Die Datenfelder dieser Teildatensatze werden als Identifikatoren oder Schlusselvariablen bezeichnet daruber hinaus konnen die Datensatze weitere auch unterschiedliche Datenfelder enthalten die oft als Nutzdaten bezeichnet und nicht zum Linkage herangezogen werden Beispiel Bei der Zusammenfuhrung zweier Kunden Datenbanken von zwei Tochtergesellschaften konnten die Felder Name Vorname Geburtsdatum Wohnort und Adresse zusammen als Identifikatoren verwendet werden wahrend die Bestell Historien als Nutzdaten behandelt werden Das Record Linkage Problem wird durch die Vergabe eindeutiger Identifikatoren vereinfacht Beispiel Steuernummer Das Problem der Datensatz Zusammenfuhrung ist dann trivial die Schwierigkeit die mit der Erkennung einer Ubereinstimmung verbunden ist ist in den Prozess der Zuteilung der Identifikatoren ausgelagert Verfahren des Record Linkage BearbeitenFur ein exaktes Record Linkage werden fehlerfreie eindeutige Identifikatoren benotigt schon eine unterschiedliche Schreibweise in einem Datenfeld fuhrt zu einem Synonymfehler Daher muss ein Record Linkage Verfahren bei moglicherweise fehlerbehafteten Daten eine mehr oder weniger ausgepragte Fehlertoleranz aufweisen Man spricht dann von stochastischem Record Linkage Die Verfahren hierfur verwenden z T Methoden aus der Stochastik aber auch aus der Klassifikationstheorie der Mustererkennung und der kunstlichen Intelligenz Hauptsachliche Verfahrensklassen sind regelbasierte Verfahren 6 diese uberprufen Minimalanforderungen an die Ubereinstimmung zweier Datensatze distanzbasierte Verfahren 7 diese verwenden String Metriken wie die Levenshtein Distanz oder andere Ahnlichkeitsmasse die die Ahnlichkeiten von Zeichenketten beschreiben sie konnen auf den Datensatz als Ganzes oder auf einzelne insbesondere textuelle Datenfelder angewendet werden stochastische Verfahren das klassische stochastische Verfahren geht auf Newcombe Fellegi Sunter und Jaro zuruck 8 Hier wird ein Mass fur die Ahnlichkeit zweier Datensatze auf der Basis eines Maximum Likelihood Ansatzes gebildet Als Varianten dieser Verfahren werden verwendet Entscheidungsbaum Methoden eventuell verfeinert durch Boosting und Bagging 9 Support Vector Machines 10 EM Verfahren expectation maximization 11 kunstliche neuronale Netze Diskriminanzanalyse Bei vielen dieser Verfahren konnen lernende Algorithmen eingesetzt werden wobei das Lernverfahren uberwacht oder unuberwacht sein kann Da bei der Zusammenfuhrung zweier umfangreicher Datenbestande sehr viele paarweise Vergleiche durchgefuhrt werden mussten wird zur Verbesserung der Performance oft ein Blocking Verfahren eingesetzt das die Datensatze nach exakter Ubereinstimmung in einigen Datenfeldern vorsortiert und dadurch die Anzahl der notigen Paarvergleiche reduziert 12 Datenschutzfreundliche Verfahren PPRL BearbeitenDas Ziel von PPRL Verfahren des Datenlinkage ist das Record Linkage von personenbeziehbaren Daten ohne die wahre Identitat der betroffenen Personen aufzudecken Dabei geht man von kryptographisch verschlusselten Identifikatoren aus oder allgemeiner von Pseudonymen die die Identifikatoren ersetzen Dies bedeutet fur das exakte Datenlinkage keinerlei Einschrankung Da aber schon minimal unterschiedliche Werte der Identifikatoren bei den gangigen Pseudonymisierungsverfahren zu vollkommen unterschiedlichen Pseudonymen fuhren macht eine Pseudonymisierung die fehlertolerante Duplikaterkennung unmoglich Ansatze zur Auflosung dieses Dilemmas sind Einsatz eines Datentreuhanders der besonderen rechtlichen und vertraglichen Bindungen unterliegt und den Abgleich mithilfe der Identifikatoren im Klartext vornimmt dazu verwaltet er eindeutige Pseudonyme fur die Falle und die Zuordnungstabelle oder regel zwischen Identifikatoren und Pseudonymen Einen Schritt weiter gehen viele Krebsregister indem aus verschiedenen Kombinationen von identifizierenden Merkmalen sogenannte Kontrollnummern erzeugt werden von denen sich bei Datenfehlern nur einige andern und die somit vom Datentreuhander hier Vertrauensstelle genannt fur einen ausreichend zuverlassigen Abgleich verwendet werden konnen 13 Eine weitere Verbesserung dieser Idee besteht in der Verwendung von Bloomfiltern anstelle der Kontrollnummern 14 Noch in der Erprobung befinden sich neuere Ansatze die Methoden des sicheren verteilten Rechnens Secure Multiparty Computation verwenden 15 Literatur BearbeitenHermann Brenner Irene Schmidtmann Determinants of homonym and synonym rates of record linkage in disease registration In Methods of Information in Medicine Band 35 1996 S 19 24 Hermann Brenner Irene Schmidtmann Effects of record linkage errors on disease registration In Methods of Information in Medicine Band 37 1998 S 69 74 Peter Christen Data Matching Concepts and Techniques for Record Linkage Entity Resolution and Duplicate Detection Springer Verlag 2012 ISBN 978 3 642 31163 5 Peter Christen Thilina Ranbaduge Rainer Schnell Linking Sensitive Data Springer Verlag 2020 ISBN 978 3 030 59705 4 Halbert L Dunn Record linkage In American Journal of Public Health Band 36 1946 S 1412 1416 doi 10 2105 AJPH 36 12 1412 Matthew A Jaro Advances in record linkage methodology as applied to matching the 1985 census of Tampa Florida In Journal of the American Statistical Association Band 89 1999 S 414 420 Jutta Glock Ralf Herold Klaus Pommerening Personal identifiers in medical research networks In GMS Medizinische Informatik Biometrie und Epidemiologie Band 2 Nr 2 2006 Doc 06 Stefanie March et al Gute Praxis Datenlinkage GPD In Gesundheitswesen Band 81 2019 S 636 650 Howard B Newcombe Handbook of Record Linkage Oxford University Press 1988 ISBN 978 0 19 261732 3 Dinusha Vatsalan Peter Christen Vassilios S Verykios A taxonomy of privacy preserving record linkage techniques In Information Systems Band 38 2013 S 946 969 doi 10 1016 j is 2012 11 005 Einzelnachweise Bearbeiten Stefanie March et al Quo Vadis Datenlinkage in Deutschland Eine erste Bestandsaufnahme In Gesundheitswesen Band 79 2018 S e20 e31 doi 10 1055 s 0043 125070 Bundeskrebsregisterdatengesetz Bundesministerium fur Gesundheit abgerufen am 7 Mai 2022 Murat Sariyar Andreas Borg Klaus Pommerening Evaluation of record linkage methods for iterative insertions In Methods of Information in Medicine Band 48 2009 S 429 437 Stefanie March et al Quo Vadis Datenlinkage in Deutschland Eine erste Bestandsaufnahme In Gesundheitswesen Band 79 2018 S e20 e31 doi 10 1055 s 0043 125070 Jorg Michael Doppelganger gesucht Ein Programm fur kontextsensitive phonetische Textumwandlung In c t Nr 25 1999 S 52 61 Stefanie March et al Quo Vadis Datenlinkage in Deutschland Eine erste Bestandsaufnahme In Gesundheitswesen Band 79 2018 S e20 e31 doi 10 1055 s 0043 125070 Stefanie March et al Quo Vadis Datenlinkage in Deutschland Eine erste Bestandsaufnahme In Gesundheitswesen Band 79 2018 S e20 e31 doi 10 1055 s 0043 125070 Ivan P Fellegi Alan B Sunter A theory for record linkage In Journal of the American Statistical Association Band 64 1969 S 1183 1210 Leo Breiman Jerome H Friedman Richard A Olshen Charles J Stone Classification and Regression Trees Routledge New York 1984 ISBN 978 1 315 13947 0 doi 10 1201 9781315139470 Christopher J C Burges A tutorial on support vector machines for pattern recognition In Data Mining and Knowledge Discovery Band 2 1998 S 121 167 A P Dempster N M Laird D B Rubin Maximum likelihood from incomplete data via the EM algorithm In Journal of the Royal Statistical Society B Band 39 1977 S 1 38 Stefanie March et al Quo Vadis Datenlinkage in Deutschland Eine erste Bestandsaufnahme In Gesundheitswesen Band 79 2018 S e20 e31 Klaus Pommerening Michael Miller Irene Schmidtmann Jorg Michaelis Pseudonyms for cancer registry In Methods of Information in Medicine Band 35 1996 S 112 121 Rainer Schnell Tobias Bachteler Jorg Reiher Entwicklung einer neuen fehlertoleranten Methode bei der Verknupfung von personenbezogenen Datenbanken unter Gewahrleistung des Datenschutzes In Methoden Daten Analysen Band 3 2009 S 203 217 Rob Hall Stephen E Fienberg Privacy Preserving Record Linkage In J Domingo Ferrer E Magkos Hrsg Privacy in Statistical Databases PSD 2010 Lecture Notes in Computer Science Band 6344 Springer Berlin Heidelberg 2010 S 269 283 doi 10 1007 978 3 642 15838 4 24 Abgerufen von https de wikipedia org w index php title Datenlinkage amp oldid 235049762