www.wikidata.de-de.nina.az
Dieser Artikel oder nachfolgende Abschnitt ist nicht hinreichend mit Belegen beispielsweise Einzelnachweisen ausgestattet Angaben ohne ausreichenden Beleg konnten demnachst entfernt werden Bitte hilf Wikipedia indem du die Angaben recherchierst und gute Belege einfugst Es fehlen Belege insbesondere zur Ausreisser Interpretation die sich durch den gesamten Artikel zieht Der Box Plot auch Box Whisker Plot oder deutsch Kastengrafik ist ein Diagramm das zur grafischen Darstellung der Verteilung eines mindestens ordinalskalierten Merkmals verwendet wird 1 2 Es fasst dabei verschiedene robuste Streuungs und Lagemasse in einer Darstellung zusammen Ein Box Plot soll schnell einen Eindruck davon vermitteln in welchem Bereich die Daten liegen und wie sie sich uber diesen Bereich verteilen Deshalb werden alle Werte der sogenannten Funf Punkte Zusammenfassung also der Median die zwei Quartile und die beiden Extremwerte dargestellt Ein horizontaler Box Plot uber einem Zahlenstrahl Inhaltsverzeichnis 1 Aufbau 1 1 Box 1 2 Antenne Whisker 1 3 Abwandlungen 1 4 Zusammenfassung der Kennwerte 2 Anwendung 3 Beispiel 4 Siehe auch 5 Literatur 6 Weblinks 7 EinzelnachweiseAufbau BearbeitenEin Box Plot besteht immer aus einem Rechteck genannt Box und zwei Linien die dieses Rechteck verlangern Diese Linien werden als Antenne oder seltener als Fuhler oder Whisker bezeichnet und werden durch einen Strich abgeschlossen In der Regel reprasentiert der Strich in der Box den Median der Verteilung Box Bearbeiten Die Box entspricht dem Bereich in dem die mittleren 50 der Daten liegen Sie wird also durch das obere und das untere Quartil begrenzt und die Lange der Box entspricht dem Interquartilsabstand englisch interquartile range IQR Dieser ist ein Mass der Streuung der Daten welches durch die Differenz des oberen und unteren Quartils bestimmt wird Des Weiteren wird der Median als durchgehender Strich in der Box eingezeichnet Dieser Strich teilt das gesamte Diagramm in zwei Bereiche in denen jeweils 50 der Daten liegen Durch seine Lage innerhalb der Box bekommt man also einen Eindruck von der Schiefe der den Daten zugrunde liegenden Verteilung vermittelt Ist der Median im linken Teil der Box bei waagerechter Darstellung so ist die Verteilung rechtsschief und umgekehrt Antenne Whisker Bearbeiten nbsp Box Plot mit Whiskern der Lange 1 5 IQR nbsp Box Plot derselben Daten mit Whiskern vom Minimum bis zum Maximum der DatenDurch die Antennen werden die ausserhalb der Box liegenden Werte dargestellt Im Gegensatz zur Definition der Box ist die Definition der Antennen nicht einheitlich Eine mogliche Definition die von John W Tukey stammt besteht darin die Lange der Whisker auf maximal das 1 5 Fache des Interquartilsabstands 1 5 IQR zu beschranken Dabei endet der Whisker jedoch nicht genau nach dieser Lange sondern bei dem Wert aus den Daten der noch innerhalb dieser Grenze liegt Die Lange der Whisker wird also durch die Datenwerte und nicht allein durch den Interquartilsabstand bestimmt Dies ist auch der Grund warum die Whisker nicht auf beiden Seiten gleich lang sein mussen Gibt es keine Werte ausserhalb der Grenze von 1 5 IQR wird die Lange des Whiskers durch den maximalen und minimalen Wert festgelegt Andernfalls werden die Werte ausserhalb der Whisker separat in das Diagramm eingetragen Diese Werte konnen dann als ausreisserverdachtig behandelt werden oder werden direkt als Ausreisser bezeichnet Haufig werden Ausreisser die zwischen 1 5 IQR und 3 IQR liegen als milde Ausreisser bezeichnet und Werte die uber 3 IQR liegen als extreme Ausreisser Diese werden dann auch meist unterschiedlich im Diagramm gekennzeichnet Eine weitere mogliche Definition ist diese dass die Whisker bis zum grossten bzw kleinsten Wert aus den Daten reichen In dieser Darstellung sind dann keine Ausreisser mehr erkennbar da die Box inklusive Whisker die gesamte Spannweite der Daten abdeckt In einer anderen Variante erfolgt die Berechnung des unteren Whisker als 2 5 Quantil und die Berechnung des oberen als 97 5 Quantil Innerhalb der Whiskergrenzen liegen somit 95 aller beobachteten Werte In dieser Darstellung gibt es also je nach Quantilsdefinition ab einem bestimmten Stichprobenumfang immer einzeln dargestellte Punkte die man dann nicht automatisch als Ausreisser interpretieren sollte Abwandlungen Bearbeiten nbsp Gekerbter Box Plot fur die Grosse der Bundesstaaten der USA Eine Abwandlung besteht darin das arithmetische Mittel in einen Box Plot mit einzutragen Es wird dabei meist als Stern eingetragen Da der Box Plot ansonsten nur robuste Streuungs und Lagemasse enthalt sollte das arithmetische Mittel als nicht robustes Lagemass eigentlich nicht in einen Box Plot aufgenommen werden Im gekerbten engl notched Box Plot werden auch Konfidenzintervalle fur den Median aufgenommen Zusammenfassung der Kennwerte Bearbeiten Der Vorteil eines Box Plots besteht darin dass gewisse Kennwerte einer Verteilung direkt aus der graphischen Darstellung abgelesen werden konnen Kennwert Beschreibung Lage im Box PlotMinimum Kleinster Datenwert des Datensatzes Ende eines Whiskers oder entferntester AusreisserUnteres Quartil Die kleinsten 25 der Datenwerte sind kleiner als dieser oder gleich diesem Kennwert Beginn der BoxMedian Die kleinsten 50 der Datenwerte sind kleiner als dieser oder gleich diesem Kennwert Strich innerhalb der BoxOberes Quartil Die kleinsten 75 der Datenwerte sind kleiner als dieser oder gleich diesem Kennwert Ende der BoxMaximum Grosster Datenwert des Datensatzes Ende eines Whiskers oder entferntester AusreisserSpannweite Differenz zwischen Maximum und Minimum also Grosse des Wertebereiches Lange des gesamten Box Plots inklusive Ausreisser Interquartilsabstand Wertebereich in dem sich die mittleren 50 der Daten befinden Liegt zwischen dem 0 25 und dem 0 75 Quartil Ausdehnung der BoxAnwendung BearbeitenAufgrund des einfachen Aufbaus von Box Plots werden diese hauptsachlich verwendet wenn man sich schnell einen Uberblick uber bestehende Daten verschaffen will Dabei muss nicht bekannt sein welcher Verteilung diese Daten unterliegen Die Box gibt an in welchem Bereich 50 der Daten liegen und die Box inklusive Whisker gibt an in welchem Bereich der Grossteil der Daten liegt An der Lage des Medians innerhalb dieser Box kann man erkennen ob eine Verteilung symmetrisch oder schief ist Weniger geeignet ist der Box Plot fur bi oder multimodale Verteilungen Um solche Eigenschaften aufzudecken empfiehlt sich die Verwendung von Histogrammen oder die grafische Umsetzung von Kerndichteschatzungen Box Plots mit Whiskern von maximal dem eineinhalbfachen Interquartilsabstand eignen sich auch um eventuelle Ausreisser zu identifizieren oder liefern Hinweise darauf ob die Daten einer bestimmten Verteilung unterliegen Wenn der Box Plot stark asymmetrisch ist eine ungewohnlich hohe Ausreisserzahl oder weit von der Box entfernte Ausreisser enthalt deutet das beispielsweise darauf hin dass die Daten nicht normalverteilt sind Der wesentliche Vorteil des Box Plot besteht im raschen Vergleich der Verteilung in verschiedenen Untergruppen Wahrend ein Histogramm eine zweidimensionale Ausdehnung hat ist ein Box Plot im Wesentlichen eindimensional so dass sich leicht mehrere Datensatze nebeneinander oder untereinander bei waagerechter Darstellung auf derselben Skala darstellen und vergleichen lassen Beispiel Bearbeiten nbsp Beispiel fur einen Box PlotDieses Beispiel beruht auf einer Messreihe mit den folgenden 20 Datenpunkten i displaystyle i nbsp 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20x i displaystyle x i nbsp unsortiert 9 6 7 7 3 9 10 1 8 7 9 9 8 10 5 10 10 9 10 8x i displaystyle x i nbsp sortiert 1 3 5 6 7 7 7 8 8 8 9 9 9 9 9 10 10 10 10 10Ein Box Plot hilft dabei sehr schnell einen Uberblick uber diese Daten zu erhalten So erkennt man direkt dass der Median durchgezogene Linie genau bei 8 5 liegt und dass je 25 der Daten unter 7 und uber 9 5 liegen denn dies sind genau die Abmessungen der Box in der 50 der Messwerte enthalten sind Folglich ist auch der Interquartilsabstand der der Lange der Box entspricht genau 2 5 Dieser Box Plot wurde mit Whiskern bis zu einer Lange des 1 5 fachen Interquartilsabstands erstellt Diese sind also maximal 3 75 Masseinheiten lang Allerdings reichen Whisker stets nur bis zu einem Wert aus den Daten der sich noch innerhalb dieser 3 75 Einheiten befindet Der obere Whisker verlauft also nur bis zu 10 da es keinen grosseren Wert in den Daten gibt und der untere Whisker nur bis 5 da der nachstkleinere Wert weiter als 3 75 vom Anfang der Box entfernt ist Die Werte von 1 und 3 werden im Box Plot als Ausreisser markiert da sie sich nicht innerhalb der Box oder der Whisker befinden Bei diesen Werten sollte untersucht werden ob es sich tatsachlich um Ausreisser oder um Tippfehler oder anderweitig auffallige Werte handelt Da sich der Median innerhalb der Box leicht rechts befindet kann ausserdem auf eine Linksschiefe der zugrundeliegenden Verteilung der Messdaten geschlossen werden Diese Verteilung wird ausserdem vermutlich keine Normalverteilung sein da der Box Plot unsymmetrisch ist und vergleichsweise viele Ausreisser enthalt Siehe auch BearbeitenStreuungsfacher kreisformiges Diagramm das die gleichen Angaben zur Streuung wie ein Box Plot darstellt Literatur BearbeitenJohn W Tukey Exploratory data analysis Addison Wesley 1977 ISBN 0 201 07616 0 Falk et al Foundations of statistical analysis and applications with SAS Birkhauser 2002 Weblinks Bearbeiten nbsp Wikibooks Abschnitt uber Boxplots Lern und Lehrmaterialien nbsp Wikibooks M A T H E m a T R i x displaystyle color BlueViolet begin matrix mathbf MATHE mu alpha T mathbb R ix end matrix nbsp Mathematik fur die Schule nbsp Wiktionary Boxplot Bedeutungserklarungen Wortherkunft Synonyme Ubersetzungen Interaktiver Box Plot Ausfuhrliche Erklarung und Beispiele Erklarung und kostenlose Excel VorlageEinzelnachweise Bearbeiten Franz Kronthaler Statistik angewandt mit dem R Commander Datenanalyse ist k eine Kunst 2 Auflage Springer Berlin Heidelberg 1991 ISBN 978 3 662 63603 9 Abschn 4 7 Der Boxplot S 54 55 doi 10 1007 978 3 662 63604 6 Karl Mosler Friedrich Schmid Beschreibende Statistik und Wirtschaftsstatistik 4 Auflage Springer Berlin Heidelberg 2009 ISBN 978 3 642 01556 4 S 33 Abgerufen von https de wikipedia org w index php title Box Plot amp oldid 237907661