www.wikidata.de-de.nina.az
Die Buchstabenhaufigkeit Graphemhaufigkeit ist eine statistische Grosse die angibt wie oft ein bestimmter Buchstabe in einem Text oder einer Sammlung von Texten Korpus vorkommt Sie kann als absolute Anzahl oder in Relation zur Gesamtzahl der Buchstaben des Textes angegeben werden Die Haufigkeitsverteilung der Buchstaben hangt von der jeweiligen Sprache ab Wahrend fruhere Annahmen pauschal die statistische Verteilung der Buchstabenhaufigkeit durch das Zipfsche Gesetz vorherzusagen glaubten hat die quantitative Linguistik gezeigt dass eine Reihe anderer Wahrscheinlichkeitsverteilungen 1 in Betracht zu ziehen sind Zahlungen zur Haufigkeit von Buchstaben oder Lauten in Texten oder Textkorpora sind spatestens seit dem fruhen 19 Jahrhundert nachweisbar 2 Fur manche Zwecke ist es auch interessant wie haufig ein Buchstabe am Wortanfang oder am Wortende vorkommt Inhaltsverzeichnis 1 Anwendung 2 Weiterfuhrung 3 Buchstabenhaufigkeit in deutschsprachigen Texten 3 1 Anfangsbuchstaben 3 2 Endbuchstaben 3 3 Haufigkeitsdiagramme 4 Buchstabenhaufigkeit in ausgewahlten Sprachen 5 Siehe auch 6 Literatur 7 Weblinks 8 EinzelnachweiseAnwendung BearbeitenDie Buchstabenhaufigkeit wird in der Entschlusselung von Substitutionsverfahren in der Kryptoanalyse sowie in der Datenkompression und kodierung benutzt Bei einfachen Verschlusselungsverfahren wie bei der Casarchiffre kann ein Geheimtext alleine durch Haufigkeitsanalyse entschlusselt werden Dabei werden die Haufigkeiten der einzelnen Zeichen im Geheimtext festgestellt und dann mit der Haufigkeit der Zeichen in einem Klartext der vermuteten Sprache verglichen Nun werden die Buchstaben des Geheimtextes durch die normalen Buchstaben gleicher Haufigkeit ersetzt Der haufigste Buchstabe des Geheimtextes entspricht dann zum Beispiel dem Klartextbuchstaben e Diese Methode ist offensichtlich fur langere zu entschlusselnde Texte besonders gut geeignet weil die statistische Abweichung der gefundenen Buchstabenhaufigkeit von der zu erwartenden Haufigkeit geringer wird Fur den Maschinenschreibunterricht ist es wichtig dass die Lehrkraft uber die Buchstabenhaufigkeit in einer Sprache gut informiert ist und die Unterrichtsinhalte entsprechend darauf abgestimmt werden Haufige Buchstaben wie das E oder das I mussen hinreichend trainiert werden um eine moglichst hohe Anschlagszahl und eine gute Schreibsicherheit zu erzielen Bei der Erstellung ergonomischer Tastaturbelegungen spielt die Buchstabenhaufigkeit ebenfalls eine grosse Rolle Hersteller von Buchstabenspielen wie Boggle oder Scrabble berucksichtigen bei den nationalen Varianten ebenfalls die Haufigkeit und falls vorhanden auch die Wertigkeit der Buchstaben Eine der ersten Anwendungen war das Morse Alphabet das fur haufige Zeichen kurze Codes verwendet zum Beispiel E fur selten gebrauchte Zeichen dagegen langere Codes zum Beispiel Q Siehe auch Shannon Fano KodierungWeiterfuhrung BearbeitenDie Weiterfuhrung der Buchstabenhaufigkeit ist die Haufigkeit von Buchstabenpaaren und tripeln und die Worthaufigkeit sowie von Schrifteinheiten die fur eine systematische Lauteinheit stehen Grapheme fur Phoneme Befasst man sich statt mit der geschriebenen einmal mit der gesprochenen Sprache so kann man ganz entsprechend auch Erhebungen zur Laut oder Phonemhaufigkeit durchfuhren Buchstabenhaufigkeit in deutschsprachigen Texten BearbeitenAus der folgenden Tabelle lasst sich rechnerisch ableiten dass mit den funf haufigsten Buchstaben rund die Halfte und mit den zehn haufigsten Buchstaben dreiviertel der Buchstabenhaufigkeit in deutschsprachigen Texten abgedeckt ist Die Umlaute a o und u wurden wie ae oe und ue gezahlt ss als eigenstandiges Zeichen 3 Platz Buchstabe Relative Haufigkeit1 E 17 40 2 N 9 78 3 I 7 55 4 S 7 27 5 R 7 00 6 A 6 51 7 T 6 15 8 D 5 08 9 H 4 76 10 U 4 35 11 L 3 44 12 C 3 06 13 G 3 01 14 M 2 53 15 O 2 51 16 B 1 89 17 W 1 89 18 F 1 66 19 K 1 21 20 Z 1 13 21 P 0 79 22 V 0 67 23 ẞ 0 31 24 J 0 27 25 Y 0 04 26 X 0 03 27 Q 0 02 Bei einer Gleichverteilung der 27 Buchstaben betruge die relative Haufigkeit jeweils 3 704 Zum Vergleich eine Datei die auf 99 586 Buchstaben eines gemischten Briefkorpus einer Person Korrespondenz mit Amtern Freunden Kollegen Rundfunkanstalten Verlagen immer nur der laufende Text also ohne Briefkopf Anrede und Grussformel Briefe aus den Jahren 1996 2004 beruht Im Unterschied zur vorigen Ubersicht sind die Umlautbuchstaben lt a gt lt o gt und lt u gt je fur sich erhoben 4 Platz Buchstabe Absolute Haufigkeit Relative Haufigkeit1 E 16 040 16 11 2 N 10 288 10 33 3 I 9 011 9 05 4 R 6 693 6 72 5 T 6 312 6 34 6 S 6 203 6 23 7 A 5 577 5 60 8 H 5 177 5 20 9 D 4 156 4 17 10 U 3 680 3 70 11 C 3 384 3 40 12 L 3 226 3 24 13 G 2 924 2 94 14 M 2 784 2 80 15 O 2 312 2 32 16 B 2 176 2 19 17 F 1 701 1 71 18 W 1 383 1 39 19 Z 1 351 1 36 20 K 1 329 1 33 21 V 912 0 92 22 P 841 0 84 23 U 636 0 64 24 A 511 0 51 25 O 363 0 36 26 ẞ 189 0 19 27 J 186 0 19 28 X 112 0 11 29 Q 73 0 07 30 Y 56 0 06 Das Institut fur Deutsche Sprache in Mannheim bietet auf seinen Seiten diverse Zeichen und Buchstabenhaufigkeitslisten zum Download an 5 Den Statistiken liegt eine Textstichprobe von knapp 180 Milliarden Zeichen aus dem Deutschen Referenzkorpus zugrunde Stand 2018 Eine Ubersicht uber die Buchstabenhaufigkeit in Form eines Balkendiagramms bietet Duden auf der Grundlage des Duden Korpus einer Volltextsammlung mit uber 2 Milliarden Wortformen auch in dieser Ubersicht werden die Umlautbuchstaben je fur sich aufgelistet 6 Die Graphik wurde in der 27 Auflage des Rechtschreib Duden uberarbeitet jetzt auf der Grundlage des Duden Korpus mit inzwischen 4 Milliarden Wortformen Stand Fruhjahr 2017 7 Anfangsbuchstaben Bearbeiten Die Haufigkeit von Anfangsbuchstaben gibt an wie oft ein Buchstabe als erster Buchstabe eines Wortes vorkommt Sie hangt relativ stark von der Textart ab Fur Fliesstext sind die funf haufigsten Anfangsbuchstaben 8 Platz Buchstabe Relative Haufigkeit1 D 14 2 2 S 10 8 3 E 0 7 8 4 I 0 7 1 5 W 0 6 8 Fur Lexika ergibt sich eine andere Verteilung Die Buchstaben D E I und W kommen im Vergleich zum Fliesstext wesentlich seltener am Wortanfang vor S kommt mit deutlichem Abstand am haufigsten vor 8 Platz Buchstabe Relative Haufigkeit1 S 11 8 2 K 0 7 3 3 A 0 7 1 4 P 0 7 0 5 B 0 5 7 6 M 0 5 7 Endbuchstaben Bearbeiten Die Haufigkeit von Endbuchstaben gibt an wie haufig ein Buchstabe als letzter Buchstabe eines Wortes vorkommt Als Beispiel Textbasis wurde der Roman Effi Briest von Theodor Fontane ausgewertet wobei ss stets als ss gezahlt wurde Die Textbasis umfasst alle 36 Kapitel dieses Werks mit insgesamt 572 849 Zeichen Platz Buchstabe Relative Haufigkeit1 N 21 0 2 E 15 1 3 R 13 0 4 T 10 3 5 S 0 9 6 Haufigkeitsdiagramme Bearbeiten Diagramm zu der relativen Buchstabenhaufigkeit in deutschsprachigen Texten Monogramm Haufigkeitsgebirge Die Buchstaben Haufigkeitsverteilung eines langeren deutschen Textes Bigramm Haufigkeitsgebirge Verteilung der haufigsten Bigramme in einem deutschen Text Trigramm Haufigkeitsgebirge Verteilung der haufigsten Trigramme in einem deutschen Text Die Tripel ER und EN sind am haufigsten steht fur das Leerzeichen 3D Saulendiagramm Haufigkeit der Vokalbuchstaben in serbokroatischen Texten 3D Saulendiagramm Haufigkeit der Konsonantenbuchstaben in serbokroatischen TextenBuchstabenhaufigkeit in ausgewahlten Sprachen BearbeitenBuchstabe Deutsch Englisch 9 Franzosisch 10 Spanisch 11 Esperanto 12 Italienisch 13 Schwedisch 14 Polnisch 15 a 0 6 51 0 8 167 0 7 636 12 53 12 12 11 74 9 3 8 0 b 0 1 89 0 1 492 0 0 901 0 1 42 0 0 98 0 0 92 1 3 1 3 c 0 3 06 0 2 782 0 3 260 0 4 68 0 0 78 0 4 5 1 3 3 8 d 0 5 08 0 4 253 0 3 669 0 5 86 0 3 04 0 3 73 4 5 3 0 e 17 40 12 702 14 715 13 68 0 8 99 11 79 9 9 6 9 f 0 1 66 0 2 228 0 1 066 0 0 69 0 1 03 0 0 95 2 0 0 1 g 0 3 01 0 2 015 0 0 866 0 1 01 0 1 17 0 1 64 3 3 1 0 h 0 4 76 0 6 094 0 0 737 0 0 70 0 0 38 0 1 54 2 1 1 0 i 0 7 55 0 6 966 0 7 529 0 6 25 10 01 11 28 5 1 7 0 j 0 0 27 0 0 153 0 0 545 0 0 44 0 3 50 0 0 00 0 7 1 9 k 0 1 21 0 0 772 0 0 049 0 0 00 0 4 16 0 0 00 3 2 2 7 l 0 3 44 0 4 025 0 5 456 0 4 97 0 6 14 0 6 51 5 2 3 1 m 0 2 53 0 2 406 0 2 968 0 3 15 0 2 99 0 2 51 3 5 2 4 n 0 9 78 0 6 749 0 7 095 0 6 71 0 7 96 0 6 88 8 8 4 7 o 0 2 51 0 7 507 0 5 378 0 8 68 0 8 78 0 9 83 4 1 7 1 p 0 0 79 0 1 929 0 3 021 0 2 51 0 2 74 0 3 05 1 7 2 4 q 0 0 02 0 0 095 0 1 362 0 0 88 0 0 00 0 0 51 0 007 0 00 r 0 7 00 0 5 987 0 6 553 0 6 87 0 5 91 0 6 37 8 3 3 5 s 0 7 27 0 6 327 0 7 948 0 7 98 0 6 09 0 4 98 6 3 3 8 t 0 6 15 0 9 056 0 7 244 0 4 63 0 5 27 0 5 62 8 7 2 4 u 0 4 35 0 2 758 0 6 311 0 3 93 0 3 18 0 3 01 1 8 1 8 v 0 0 67 0 0 978 0 1 628 0 0 90 0 1 90 0 2 10 2 4 0 00 w 0 1 89 0 2 360 0 0 114 0 0 02 0 0 00 0 0 00 0 03 3 6 x 0 0 03 0 0 150 0 0 387 0 0 22 0 0 00 0 0 00 0 1 0 00 y 0 0 04 0 1 974 0 0 308 0 0 90 0 0 00 0 0 00 0 6 3 2 z 0 1 13 0 0 074 0 0 136 0 0 52 0 0 50 0 0 49 0 02 5 1 œ 0 0 00 0 0 00 0 0 018 0 0 00 0 0 00 0 0 00 0 00 0 00 ss 0 0 31 0 0 00 0 0 000 0 0 00 0 0 00 0 0 00 0 00 0 00 a 0 0 00 0 0 00 0 0 486 0 0 00 0 0 00 siehe a 0 00 0 00 a 0 0 00 0 0 00 0 0 00 0 0 00 0 0 00 0 0 00 0 00 siehe ac 0 0 00 0 0 00 0 0 085 0 0 00 0 0 00 0 0 00 0 00 0 00 ĉ 0 0 00 0 0 00 0 0 000 0 0 00 0 0 66 0 0 00 0 00 0 00 c 0 0 00 0 0 00 0 0 000 0 0 00 0 0 00 0 0 00 0 00 siehe ce 0 0 00 0 0 00 0 0 271 0 0 00 0 0 00 siehe e 0 00 0 00 e 0 0 01 0 0 00 0 1 904 0 0 00 0 0 00 siehe e 0 00 0 00 e 0 0 00 0 0 00 0 0 225 0 0 00 0 0 00 0 0 00 0 00 0 00 e 0 0 00 0 0 00 0 0 000 0 0 00 0 0 00 0 0 00 0 00 0 00 e 0 0 00 0 0 00 0 0 000 0 0 00 0 0 00 0 0 00 0 00 siehe eĝ 0 0 00 0 0 00 0 0 000 0 0 00 0 0 69 0 0 00 0 00 0 00 ĥ 0 0 00 0 0 00 0 0 000 0 0 00 0 0 02 0 0 00 0 00 0 00 i 0 0 00 0 0 00 0 0 045 0 0 00 0 0 00 0 0 00 0 00 0 00 i 0 0 00 0 0 00 0 0 000 0 0 00 0 0 00 siehe i 0 00 0 00 i 0 0 00 0 0 01 0 0 005 0 0 00 0 0 00 0 0 00 0 00 0 00 ĵ 0 0 00 0 0 00 0 0 000 0 0 00 0 0 12 0 0 00 0 00 0 00 l 0 0 00 0 0 00 0 0 000 0 0 00 0 0 00 0 0 00 0 00 siehe ln 0 0 00 0 0 00 0 0 000 0 0 00 0 0 00 0 0 00 0 00 siehe no 0 0 00 0 0 00 0 0 000 0 0 00 0 0 00 0 0 00 0 00 siehe oo 0 0 00 0 0 00 0 0 000 0 0 00 0 0 00 siehe o 0 00 0 00 ŝ 0 0 00 0 0 00 0 0 000 0 0 00 0 0 38 0 0 00 0 00 0 00 s 0 0 00 0 0 00 0 0 000 0 0 00 0 0 00 0 0 00 0 00 siehe su 0 0 00 0 0 00 0 0 058 0 0 00 0 0 00 siehe u 0 00 0 00 ŭ 0 0 00 0 0 00 0 0 000 0 0 00 0 0 52 0 0 00 0 00 0 00 z 0 0 00 0 0 00 0 0 000 0 0 00 0 0 00 0 0 00 0 00 siehe zz 0 0 00 0 0 00 0 0 000 0 0 00 0 0 00 0 0 00 0 00 0 7 Besonders bemerkenswert in der Tabelle ist dass im Deutschen der Buchstabe E deutlich haufiger und der Buchstabe O deutlich seltener angewendet werden als in romanischen und slawischen Sprachen Die Tabelle stellt nur die Haufigkeiten von Buchstaben in Texten Korpora von Sprachen dar fur die die lateinische Schrift verwendet wird Zur Buchstabenhaufigkeit in Sprachen mit der kyrillischen Schrift kann auf die Darstellung von Kempgen 1995 zum Russischen 16 und die Untersuchung von Grzybek amp Kehlich 2005 zum Ukrainischen verwiesen werden 17 Siehe auch BearbeitenBenfordsches Gesetz Ziffernhaufigkeit Haufigkeitsklasse Lauthaufigkeit Phonemhaufigkeit Worthaufigkeit N GrammLiteratur BearbeitenFriedrich L Bauer Entzifferte Geheimnisse Methoden und Maximen der Kryptologie Springer Berlin u a 1995 ISBN 3 540 58118 9 Enthalt Buchstabenhaufigkeiten im Deutschen und Englischen mit Prozentangaben auf Seite 223 Karl Heinz Best Zur Haufigkeit von Buchstaben Leerzeichen und anderen Schriftzeichen in deutschen Texten In Glottometrics 11 2005 S 9 31 ram verlag eu PDF 1 6 MB ISSN 1617 8351 gibt neben den Buchstabenhaufigkeiten auch die Anteile anderer Zeichen in deutschen Texten an Erich Mater Deutsche Verben 1 Alphabetisches Verzeichnis Bibliographisches Institut Leipzig 1966 Enthalt im Anfangskapitel eine Ubersicht uber die Haufigkeit von Anfangsbuchstaben in 6 verschiedenen Worterbuchern sowie eine Gesamtubersicht Leider keine Seitenzahlung Helmut Meier Deutsche Sprachstatistik Olms Paperbacks 31 2 erweiterte und verbesserte Auflage Olms Hildesheim 1967 Buchstabenstatistik des Deutschen Englischen und Spanischen auf S 334 Gustav Muthmann Rucklaufiges deutsches Worterbuch Handbuch der Wortausgange im Deutschen mit Beachtung der Wort und Lautstruktur Reihe germanistische Linguistik 78 Niemeyer Tubingen 1988 ISBN 3 484 31078 2 Enthalt auf Seite 36 eine Zusammenstellung der Haufigkeiten von Anfangsbuchstaben sowie Seite 65 der Endbuchstaben Gustav Muthmann Phonologisches Worterbuch der deutschen Sprache Reihe Germanistische Linguistik 163 Niemeyer Tubingen 1996 ISBN 3 484 31163 0 Seite 35 37 Haufigkeit von Graphemen und Phonemen Wolfgang Schonpflug n Gramm Haufigkeit in der deutschen Sprache I Monogramme und Digramme In Zeitschrift fur experimentelle und angewandte Psychologie 16 1969 ISSN 0044 2712 Seite 157 183 Enthalt auf Seite 162f eine Ubersicht uber die Haufigkeit von Buchstaben in einem Textkorpus von uber 100 000 Wortern getrennt nach der Position im Wort Katja Siekmann Gunther Thome Der orthographische Fehler 2 aktualisierte Aufl Oldenburg 2018 ISBN 978 3 942122 07 8 enthalt auf den Seiten 239 bis 247 ausfuhrliche Ubersichten uber die Haufigkeit von Buchstaben und Buchstabenverbindungen aus einer neueren 100 000 er Auszahlung von Phonem Graphem Korrespondenzen im Deutschen isb Verlag Oldenburg Dorothea Thome Gunther Thome Phoneme und Grapheme im Deutschen drei Schaubilder 1 Die Laute des Deutschen nach der Standardlautung 2 Basisgrapheme grundlegende Schriftzeichen fur Phoneme 3 Alle Basis und Orthographeme Was ist wie haufig isb Fachverlag Oldenburg 2014 ISBN 978 3 942122 15 3 Gunther Thome Dorothea Thome Deutsche Worter nach Laut und Schrifteinheiten gegliedert isb Fachverlag Oldenburg 2016 ISBN 978 3 942122 21 4 Leseproben unter isb Verlag Oldenburg Mit zahlreichen Tabellen uber die Haufigkeit der Laut und Schrifteinheiten im Deutschen Weblinks BearbeitenKorpusbasierte Zeichenhaufigkeitslisten am Institut fur Deutsche Sprache Mannheim Grazer Projekt zur Quantitativen Textanalyse QuanTA Bibliographien und weitere Informationen zum Gottinger Projekt Quantitative Linguistik Portables Freeware Tool um die Haufigkeiten von Buchstaben und oder Silben aus beliebig langen Texten zu bestimmenEinzelnachweise Bearbeiten S dazu lql uni trier de Memento vom 7 April 2015 im Internet Archive Buchstaben Laute und Phoneme folgen im Prinzip den gleichen Verteilungen Karl Heinz Best Laut und Buchstabenzahlungen im fruhen 19 Jahrhundert In Glottometrics 20 2010 S 110 114 ram verlag eu PDF 1 8 MB Albrecht Beutelspacher Kryptologie 7 Auflage Vieweg Verlagsgesellschaft Wiesbaden 2005 ISBN 3 8348 0014 7 Seite 10 Karl Heinz Best Buchstabenhaufigkeiten im Deutschen und Englischen In Naukovyj Visnyk Cernivec koho Universitetu Vypusk 231 2005 ZDB ID 2390772 1 S 119 127 Korpuslinguistik Korpusbasierte Zeichen und Buchstabenhaufigkeitslisten Institut fur Deutsche Sprache abgerufen am 20 Marz 2018 deutsch Duden Deutsches Universalworterbuch 7 uberarbeitete und erweiterte Auflage Dudenverlag Mannheim Zurich 2011 ISBN 978 3 411 05507 4 Seite 2110 Duden Die deutsche Rechtschreibung 27 vollig neu bearbeitete und erweiterte Auflage Dudenverlag Berlin 2017 ISBN 978 3 411 04017 9 Seite 148 158 a b Peter Vogelgesang Haufigkeit von Buchstaben Memento vom 9 Februar 2006 im Internet Archive 2003 Robert Edward Lewand Relative Frequencies of Letters in General English Plain text CorpusDeThomasTempe Memento vom 13 Februar 2008 im Internet Archive Fletcher Pratt Secret and Urgent the Story of Codes and Ciphers Blue Ribbon Books 1939 Seite 254 255 La Oftecoj de la Esperantaj Literoj Abgerufen am 14 September 2007 Simon Singh Codici e Segreti RCS 1999 ISBN 88 17 12539 3 Simon Singh Brogren Margareta Kodboken konsten att skapa sekretess fran det gamla Egypten till kvantkryptering Norstedt Stockholm 1999 ISBN 91 1 300708 4 Wstep do kryptologii MS Word 300 kB Abgerufen am 30 April 2012 Sebastian Kempgen Russische Sprachstatistik Systematischer Uberblick und Bibliographie Verlag Otto Sagner Munchen 1995 ISBN 3 87690 617 2 S 19 22 Peter Grzybek Emmerich Kelih Graphemhaufigkeiten im Ukrainischen Teil I Ohne Apostroph In Gabriel Altmann Viktor Levickij amp Valentina Perebyinis Hrsg Problemy kvantytatyvnoi linhvistyky Problems of Quantitative Linguistics zbirnyk naukovych prac Ruta Cernivci 2005 ISBN 966 568 783 2 S 159 179 Lateinisches Grundalphabet Aa Bb Cc Dd Ee Ff Gg Hh Ii Jj Kk Ll Mm Nn Oo Pp Qq Rr Ss Tt Uu Vv Ww Xx Yy Zz Siehe auch Lateinisches Schriftsystem und Liste lateinischer Alphabete Abgerufen von https de wikipedia org w index php title Buchstabenhaufigkeit amp oldid 233960328