www.wikidata.de-de.nina.az
Dieser Artikel oder nachfolgende Abschnitt ist nicht hinreichend mit Belegen beispielsweise Einzelnachweisen ausgestattet Angaben ohne ausreichenden Beleg konnten demnachst entfernt werden Bitte hilf Wikipedia indem du die Angaben recherchierst und gute Belege einfugst Unter dem Begriff Imputation anhoren werden in der Mathematischen Statistik Verfahren zusammengefasst mit denen fehlende Daten in statistischen Erhebungen die sogenannten Antwortausfalle in der Datenmatrix vervollstandigt werden Die Schweigeverzerrung die durch die Antwortausfalle entsteht wird dadurch verringert Inhaltsverzeichnis 1 Allgemeines 2 Ausgewahlte Imputationsverfahren 2 1 Singulare Imputation 2 1 1 Substitution durch Lagemasse 2 1 2 Substitution durch Verhaltnisschatzer 2 1 3 Hot Deck und Cold Deck Techniken 2 1 4 Regressionsverfahren 2 2 Multiple Imputation 3 Siehe auch 4 Literatur 5 Weblinks 6 EinzelnachweiseAllgemeines BearbeitenDie Imputation gehort zu den sogenannten Missing Data Techniken also Verfahren die bei Auswertung unvollstandiger Stichprobendatensatze angewendet werden Dieses Problem tritt in Umfragen und anderen Erhebungen relativ haufig auf beispielsweise wenn einige befragte Personen aufgrund mangelnden Wissens oder unzureichender Antwortmotivation auf bestimmte Fragen bewusst keine Antwort geben denkbar sind aber auch unvollstandige Datensatze aufgrund technischer Pannen oder eines Datenverlustes Neben Imputation zahlen vor allem die sogenannten Eliminierungsverfahren auch Complete case analysis zu den gangigen Missing Data Techniken Dabei werden samtliche Datensatze bei denen eines oder mehrere Erhebungsmerkmale fehlende Werte aufweisen aus der Datenmatrix gestrichen so dass im Endeffekt eine vollstandige Datenmatrix fur Auswertungszwecke verbleibt Dieses Verfahren ist zwar sehr einfach hat aber erhebliche Nachteile Insbesondere bei einer grosseren Anzahl von Item non responses Fehlen einzelner Werte hat es einen erheblichen Informationsverlust zur Folge Ferner kann diese Technik zu einer Verfalschung der verbleibenden Stichprobe fuhren wenn die Systematik des Datenausfalls von den Auspragungen des unvollstandig erhobenen Merkmals abhangt Als haufiges Beispiel gelten Umfragen bezuglich des Einkommens bei denen es durchaus vorkommen kann dass gerade Personen mit einem relativ hohen Einkommen dieses ungerne angeben und es daher in solchen Fallen tendenziell zu Missing Data kommt Um dieses Problem moglichst in den Griff zu bekommen wurden Imputationsverfahren entwickelt bei denen versucht wird fehlende Daten nicht einfach zu ignorieren sondern stattdessen durch plausible Werte zu ersetzen die unter anderem mit Hilfe der beobachteten Werte des gleichen Datensatzes geschatzt werden konnen Ausgewahlte Imputationsverfahren BearbeitenEs existiert eine Vielzahl von Verfahren mit denen fehlende Werte vervollstandigt werden Dabei unterscheidet man grob zwischen der singularen und der multiplen Imputation Bei der ersteren wird ein jeder fehlender Wert durch jeweils einen bestimmten Schatzwert ersetzt wahrend bei der multiplen Imputation fur jedes Item non response gleich mehrere Werte geschatzt werden in der Regel mittels einer Simulation unter Zugrundelegung eines oder mehrerer Verteilungsmodelle Singulare Imputation Bearbeiten Substitution durch Lagemasse Bearbeiten Eines der einfachsten Imputationsverfahren besteht darin samtliche fehlenden Auspragungen eines Erhebungsmerkmals durch das empirische Lagemass der beobachteten Auspragungen meist also den Mittelwert bzw bei nichtquantitativen Merkmalen Median oder Modus zu ersetzen Dieses Verfahren hat jedoch zum Nachteil dass dabei ahnlich wie bei einem Eliminierungsverfahren Verzerrungen auftreten sofern der Datenausfall von der Auspragung des betreffenden Merkmals abhangt Ferner weist die resultierende Stichprobe eine systematisch unterschatzte Standardabweichung auf da die imputierten Werte konstant sind und daher unter sich keine Streuung aufweisen Diese Probleme konnen teilweise entscharft werden wenn das Verfahren nicht einheitlich fur die gesamte Stichprobe sondern getrennt nach bestimmten Merkmalsklassen angewendet wird in welche die Datensatze gemass den Auspragungen eines bestimmten vollstandig erhobenen Merkmals eingeteilt werden Demnach kann fur jede dieser Klassen separat ein Klassenmittel errechnet werden durch den Missing Values innerhalb der Klasse ersetzt werden Substitution durch Verhaltnisschatzer Bearbeiten Die Ersetzung durch einen Verhaltnisschatzer ist ein relativ einfaches Verfahren das bei der Schatzung der Imputationswerte einen eventuell bestehenden funktionalen Zusammenhang zwischen zwei Stichprobenmerkmalen auszunutzen versucht von denen eines vollstandig beobachtet werden konnte Seien X und Y zwei Zufallsvariablen die in einer Stichprobe vom Umfang n erhoben werden wobei X vollstandig erhoben werden konnte und bei n obs X Y displaystyle n text obs X Y nbsp von n Untersuchungsobjekten auch der Y Wert vorliegt Jede der fehlenden Y Auspragungen kann dann durch einen Verhaltnisschatzer geschatzt werden y j Ratio y x x j displaystyle hat y j text Ratio frac overline y overline x cdot x j nbsp fur alle j 1 2 n x j beobachtet y j fehlend displaystyle j in lbrace 1 2 dotsc n rbrace lbrace x j text beobachtet y j text fehlend rbrace nbsp Dabei sind x 1 n obs X Y i x i y i beobachtet x i displaystyle overline x frac 1 n text obs X Y cdot sum i x i y i text beobachtet x i nbsp und y 1 n obs X Y i x i y i beobachtet y i displaystyle overline y frac 1 n text obs X Y cdot sum i x i y i text beobachtet y i nbsp Zu beachten ist dass dieser Schatzer nur in Spezialfallen sinnvoll anwendbar ist in der Regel dann wenn zwischen X und Y eine starke Korrelation angenommen werden kann Hot Deck und Cold Deck Techniken Bearbeiten Die Verfahren die als Hot Deck bzw Cold Deck bezeichnet werden haben allesamt die Besonderheit dass hierbei fehlende Stichprobenwerte durch beobachtete Auspragungen desselben Merkmals ersetzt werden Sie unterscheiden sich nur in Bezug auf das Verfahren mit denen die Imputationswerte bestimmt werden Wahrend bei den Cold Deck Techniken die Schatzwerte aus anderen Erhebungen beispielsweise aus historischen kalten Befragungen verwendet werden nutzen die deutlich gangigeren Hot Deck Verfahren die aktuelle Datenmatrix Ublicherweise werden Deck Techniken innerhalb von Imputationsklassen angewandt also Merkmalsklassen in welche die Datensatze gemass den Auspragungen eines vollstandig erhobenen Merkmals eingeteilt werden konnen Ein bekanntes Hot Deck Verfahren ist das sogenannte sequentielle oder auch traditionelle Hot Deck Die Vorgehensweise ist hierbei die folgende In der unvollstandigen Datenmatrix wird zunachst innerhalb jeder Imputationsklasse fur jede unvollstandig beobachtete Variable jeweils ein Imputationswert als Startwert festgelegt Dabei unterscheiden sich die sequentiellen Verfahren darin wie die Startwerte bestimmt werden denkbar ist z B der Mittelwert der vorhandenen Klassenauspragungen ein Zufallswert aus der jeweiligen Klasse oder auch ein Cold Deck Schatzwert Nachdem die Startwerte festgelegt sind geht man nun alle Elemente der Datenmatrix durch Ist bei einem Objekt die Auspragung vorhanden wird sie zum neuen Imputationswert fur das jeweilige Merkmal in derselben Imputationsklasse andernfalls wird an die Stelle der fehlenden Auspragung der fur dieses Merkmal jeweils aktuelle Imputationswert gesetzt So wird mit allen Elementen der Datenmatrix verfahren bis diese keine Lucken mehr aufweist Regressionsverfahren Bearbeiten Den Imputationsverfahren die auf Regressionsanalyse basieren ist allen gemein dass sie bei der Schatzung der Missing Values etwaige funktionale Zusammenhange zwischen zwei oder mehreren Stichprobenmerkmalen auszunutzen versuchen Bei den oben beschriebenen Imputationen durch den Stichprobenmittelwert oder einen Verhaltnisschatzer handelt es sich ebenfalls um eine vereinfachte Form der Regressionsimputation Im Allgemeinen kommen dabei sowohl verschiedene Anzahlen der einzubeziehenden Merkmale als auch verschiedene Regressionsverfahren in Frage Bei quantitativen Merkmalen bedient man sich oft der linearen Regression nach der Methode der kleinsten Quadrate Seien X und Y zwei Zufallsvariablen die in einer Stichprobe vom Umfang n gemeinsam erhoben werden und sei Y nur n obs X Y displaystyle n text obs X Y nbsp mal erhoben worden Besteht zwischen den beiden Variablen annahmegemass eine Korrelation kann aus den beobachteten x y Wertepaaren eine Regressionsgleichung von Y auf X der folgenden Form errechnet werden y j Reg a Y X b Y X x j displaystyle hat y j text Reg hat alpha YX hat beta YX cdot x j nbsp fur alle j 1 2 n x j beobachtet y j fehlend displaystyle j in lbrace 1 2 dotsc n rbrace lbrace x j text beobachtet y j text fehlend rbrace nbsp Dabei sind Alpha und Beta die Regressionskoeffizienten die aus den beobachteten x y Wertepaaren mittels ihrer Kleinstquadrateschatzer a displaystyle hat alpha nbsp und b displaystyle hat beta nbsp geschatzt werden a Y X y b Y X x displaystyle hat alpha YX overline y hat beta YX cdot overline x nbsp b Y X i x i y i beobachtet x i y i n obs X Y x y i x i y i beobachtet x i 2 n obs X Y x 2 displaystyle hat beta YX frac sum i x i y i text beobachtet x i cdot y i n text obs X Y cdot overline x cdot overline y sum i x i y i text beobachtet x i 2 n text obs X Y cdot overline x 2 nbsp Die Regressionsschatzung mit mehr als einem Regressormerkmal die sogenannte multiple lineare Regression wird analog durchgefuhrt ist allerdings durch die dann vorhandene grossere Datenmenge rechenintensiver Sie ist standardmassig in statistischen Softwarepaketen wie SPSS implementiert Ist ein unvollstandig beobachtetes Merkmal nicht quantitativ lasst sich mittels linearer Regression kein Schatzwert ausrechnen Fur bestimmte kategoriale Variablen existieren jedoch spezielle Regressionsverfahren von denen die logistische Regression das wohl bekannteste ist Multiple Imputation Bearbeiten Bei der multiplen Imputation handelt es sich um ein vergleichsweise anspruchsvolles Missing Data Verfahren 1 Prinzipiell bedeutet multiple dass dieses Verfahren fur jeden fehlenden Wert gleich mehrere Schatzwerte in mehreren Imputationsschritten liefert Diese konnen anschliessend zu einem Schatzwert gemittelt werden oder es kann fur jeden Imputationsschritt jeweils eine neue vervollstandigte Datenmatrix aufgestellt werden Eine haufige Vorgehensweise der Schatzwertbestimmung ist die Simulation aus einem als plausibel erachteten multivariaten Verteilungsmodell Wenn beispielsweise die beiden Zufallsvariablen X und Y als gemeinsam normalverteilt mit festgelegten Parametern unterstellt werden konnen bei Wertepaaren mit beobachtetem X Wert und fehlendem Y Wert jeweils die bedingte Verteilung von Y gegeben den beobachteten X Wert hergeleitet werden in diesem einfachen Fall eine univariate Normalverteilung Anschliessend besteht die Moglichkeit fur jeden fehlenden Y Wert die moglichen Imputationswerte im Zuge der mehrfachen Simulation aus der jeweiligen Verteilung zu generieren Siehe auch BearbeitenEM AlgorithmusLiteratur BearbeitenU Bankhofer Unvollstandige Daten und Distanzmatrizen in der Multivariaten Datenanalyse Dissertation Universitat Augsburg Verlag Josef Eul Bergisch Gladbach 1995 O Ludtke A Robitzsch U Trautwein O Koller Umgang mit fehlenden Werten in der psychologischen Forschung Probleme und Losungen Psycholog Rundschau 58 2 103 117 2007 Dazu Kommentar und Replik J Wuttke Erhohter Dokumentationsbedarf bei Imputation fehlender Daten Psycholog Rundschau 59 3 178 179 2008 O Ludtke et al Steht Transparenz einer adaquaten Datenauswertung im Wege ebda 180 181 2008 J L Schafer Analysis of Incomplete Multivariate Data Chapman amp Hall London 1997 ISBN 0 412 04061 1 D Schunk A Markov Chain Monte Carlo Algorithm for Multiple Imputation in Large Surveys Advances in Statistical Analysis 92 101 114 2008 C FG Schendera Datenqualitat mit SPSS Oldenbourg Verlag Munchen 2007 S 119 161Weblinks Bearbeitenhttp www multiple imputation com englisch Einzelnachweise Bearbeiten Joost R van Ginkel Marielle Linting Ralph C A Rippe Anja van der Voort Rebutting Existing Misconceptions About Multiple Imputation as a Method for Handling Missing Data In Journal of Personality Assessment Band 102 Nr 3 18 Januar 2019 ISSN 0022 3891 S 297 308 doi 10 1080 00223891 2018 1530680 Normdaten Sachbegriff GND 4609617 6 lobid OGND AKS Abgerufen von https de wikipedia org w index php title Imputation Statistik amp oldid 237050337