www.wikidata.de-de.nina.az
Der Mosaik Plot auch Mosaikdiagramm ist ein graphisches Verfahren zur Visualisierung von Datensatzen mit zwei oder mehreren qualitativen Variablen Merkmalen Er gibt einen Uberblick uber die Daten und ermoglicht es Zusammenhange zwischen den verschiedenen Merkmalen zu erkennen Inhaltsverzeichnis 1 Beispiel 1 1 Konstruktion des Mosaik Plots 1 2 Unabhangigkeit im Mosaik Plot 2 Eigenschaften des Mosaik Plots 3 Klarung der verwendeten Begriffe 4 LiteraturBeispiel Bearbeiten nbsp Mosaik Plot der Titanic DatenDer fur dieses Beispiel verwendete Datensatz hat 2201 Beobachtungen und 3 Variablen Die Beobachtungen sind alle Personen die sich am 15 April 1912 auf der Titanic befunden haben Die Variablen sind Das Geschlecht der Person mannlich weiblich Die Klasse 1 2 und 3 Klasse und Besatzung Hat diese Person den Untergang uberlebt Ja Nein In zur Grafik analoger Form ergibt sich folgende Tabelle Geschlecht Uberlebt 1 Klasse 2 Klasse 3 Klasse BesatzungMannlich Nein 118 154 422 670Ja 62 25 88 192Weiblich Nein 4 13 106 3Ja 141 93 90 20Diese Tabelle ist aber eher muhsam zu lesen und schwierig zu interpretieren Konstruktion des Mosaik Plots Bearbeiten Reihenfolge Variable Achse1 Geschlecht Vertikal2 Klasse Horizontal3 Uberlebt VertikalDie kategoriellen Variablen werden zunachst in eine Reihenfolge gebracht Danach wird jede Variable einer Achse zugeordnet In der Tabelle rechts ist Reihenfolge und Zuordnung fur das Beispiel gegeben Eine andere Reihenfolge oder Zuordnung wird auch einen anderen Mosaik Plot ergeben d h wie in allen multivariaten Diagrammen spielt die Reihenfolge der Variablen eine Rolle Am linken Rand ist die erste Variable Geschlecht aufgetragen Die gesamten Daten werden zunachst in zwei Blocke geteilt Der untere Streifen beinhaltet alle weiblichen Personen der obere grossere Block alle mannlichen Man erkennt sofort dass viel weniger ca ein Viertel der Personen am Schiff weiblich waren Am oberen Rand ist die zweite Variable Klasse aufgetragen Die vier senkrechten Spalten stehen also fur die vier Auspragungen dieser Variable 1 2 3 Klasse und Besatzung Diese Spalten sind nicht gleich breit Die Breite einer Spalte gibt die relative Haufigkeit dieser Auspragung wieder Man sieht dass bei den Mannern die Besatzung die grosste Gruppe darstellt bei den Frauen waren die in der 3 Klasse Reisenden die grosste Gruppe Unter den Frauen waren nur wenige Besatzungsmitglieder Die dritte Variable Uberlebt ist auf der rechten Seite dargestellt und ausserdem durch die Farbgebung hervorgehoben Die dunkelgrauen Rechtecke stellen die Personen dar die das Ungluck nicht uberlebt haben Man sieht sofort dass die Frauen in der 1 Klasse die besten Uberlebenschancen hatten Generell war die Wahrscheinlichkeit das Ungluck zu uberleben fur Frauen hoher als fur Manner und fur Reisende der 1 Klasse hoher als fur die ubrigen Reisenden Insgesamt haben ca 1 3 aller Personen uberlebt hellgraue Flachen Unabhangigkeit im Mosaik Plot Bearbeiten Marginale Haufigkeiten Klasse Absolut Relativ1 325 14 8 2 285 12 9 3 706 32 1 Besatzung 885 40 2 Geschlecht Absolut RelativMannlich 1731 78 6 Weiblich 470 21 4 Uberlebt Absolut RelativNein 1490 67 7 Ja 711 32 3 Haufigkeiten bei vollstandiger Unabhangigkeit Geschlecht Uberlebt 1 Klasse 2 Klasse 3 Klasse BesatzungMannlich Nein 173 0 151 7 375 9 471 2Ja 82 6 72 4 179 4 224 8Weiblich Nein 47 0 41 2 102 1 127 9Ja 22 4 19 7 48 7 61 0Mosaik Plots konnen insbesondere uber die Unabhangigkeit der dargestellten Variablen Auskunft geben Eine mogliche Frage ware Hangt die Uberlebenschance davon ab welches Geschlecht man hat ob man in einer bestimmten Klasse reist oder einer Kombination von beiden In diesem Fall waren die drei Variablen nicht unabhangig Sind die drei Variablen Geschlecht Klasse und Uberlebt unabhangig voneinander dann ergibt sich die Haufigkeit in jeder Zelle der obigen Tabelle als Produkt der marginalen relativen Haufigkeiten multipliziert mit der Anzahl der Beobachtungen Fur das Beispiel ergibt sich fur den linken oberen Tabelleneintrag2201 0 786 Mannlich 0 148 1 Klasse 0 677 Nicht uberlebt 173 displaystyle 2201 cdot underbrace 0 786 text Mannlich cdot underbrace 0 148 text 1 Klasse cdot underbrace 0 677 text Nicht uberlebt approx 173 nbsp In der folgenden Grafik sieht man links den Mosaik Plot der Titanic Daten titanic und rechts den Mosaik Plot wenn die drei Variablen unabhangig waren independent Der rechte Mosaik Plot ist also eine Visualisierung der Tabelle Haufigkeiten bei vollstandiger Unabhangigkeit Waren also die drei Variablen unabhangig dann mussten in jeder Spalte des Mosaik Plots alle Rechtecke die gleiche Breite bzw in jeder Zeile des Mosaikplots alle Rechtecke die gleiche Hohe haben Dies ist im titanic Mosaik Plot offensichtlich nicht der Fall und die drei Variablen sind abhangig voneinander D h die Uberlebenschance hangt vom Geschlecht der Klasse oder einer Kombination von beiden ab Auch die Unabhangigkeit von jeweils zwei Variablen kann man so graphisch nachprufen unter Umstanden ist eine Umordnung der Variablen zur leichteren Visualisierung notig nbsp Eigenschaften des Mosaik Plots Bearbeiten nbsp Mosaik Plot der Verteilung von Zeitperioden und Themen der Guardians Liste 1000 songs to hear before you die Die darzustellenden Variablen sind kategoriell oder ordinal skaliert Es werden mindestens zwei Variablen dargestellt Nach oben ist die Anzahl prinzipiell nicht limitiert bei zu vielen Variablen wird die Grafik aber schnell unubersichtlich Die Anzahl der Beobachtungen ist nicht limitiert aber auch nicht in der Grafik ablesbar Die Flachen der rechteckigen Felder die fur eine Merkmalskombination stehen sind proportional zur Anzahl der Beobachtungen die diese Merkmalskombination aufweisen Anders als z B beim Box Plot oder QQ Diagramm ist es beim Mosaik Plot nicht moglich ein Konfidenzintervall einzuzeichnen Die Signifikanz von unterschiedlichen Haufigkeiten der verschiedenen Merkmalsauspragungen kann daher nicht optisch festgestellt werden Allerdings gibt es dafur statistische Tests Die Reihenfolge der Variablen kann im Prinzip beliebig gewahlt werden Allerdings ist jeweils darauf zu achten welche Reihenfolge die Interpretation begunstigt Eventuell konnen auch alle Moglichkeiten durchprobiert werden Klarung der verwendeten Begriffe BearbeitenDer Begriff Variable ist hier im Sinne der multivariaten Statistik zu verstehen nicht im Sinne der Programmierung Eine Variable ist also eines von mehreren Merkmalen die fur jede Beobachtung erhoben wurde Die verschiedenen Variablen eines multivariaten Datensatzes konnen unterschiedlichen Variablentypen angehoren Mit Variablentyp ist die Einteilung in kategorielle ordinale oder metrische quantitative Merkmale gemeint letztere lassen sich noch weiter unterteilen was hier aber nicht notig ist Kategorielle nominelle Variable sind Variablen bei denen die verschiedenen moglichen Auspragungen nicht sinnvoll durch Zahlen reprasentiert werden konnen Sie lassen sich auch nicht in eine sinnvolle Reihenfolge bringen Beispiele aus dem Bereich der demographischen Variablen sind Geschlecht Haarfarbe Muttersprache Ordinale Daten sind Daten bei denen sich die verschiedenen Auspragungen in eine sinnvolle Reihenfolge bringen lassen Beispiele die verschiedenen Buchungs Klassen bei Hotels oder Flugtickets Schulnoten Literatur BearbeitenJohn Hartigan Beat Kleiner Mosaics for contingency tables In Computer Science and Statistics Proceedings of the 13th Symposium on the Interface 1981 S 268 273 Abgerufen von https de wikipedia org w index php title Mosaik Plot amp oldid 231794992