www.wikidata.de-de.nina.az
Ein N Gramm manchmal auch Q Gramm genannt 1 ist das Ergebnis der Zerlegung eines Textes in Fragmente Der Text wird dabei zerlegt und jeweils N displaystyle N aufeinanderfolgende Fragmente werden als N Gramm zusammengefasst Die Fragmente konnen Buchstaben Phoneme Worter und Ahnliches sein N Gramme finden Anwendung in der Kryptologie und Korpuslinguistik speziell auch in der Computerlinguistik Quantitativen Linguistik und Computerforensik Einzelne Worter ganze Satze oder komplette Texte werden hierbei zur Analyse oder statistischen Auswertung in N Gramme zerlegt 2 und in Datensatzen zusammengefasst Drei Datensatze von N Grammen aus Google Books mit den Stichtagen Juli 2009 Juli 2012 und Februar 2020 wurden mit einer Weboberflache und grafischer Auswertung in Form von Diagrammen versehen und unter dem Namen Google Books Ngram Viewer ins Netz gestellt Inhaltsverzeichnis 1 Arten von N Grammen 2 Formale Definition 3 Analyse 3 1 Google Korpus 3 1 1 Web Indexierung 3 1 2 Google Books Korpus 3 2 Dice Koeffizient 3 2 1 Beispiel 3 2 2 Anwendungsgebiete 4 Statistik 5 Literatur 6 Weblinks 7 EinzelnachweiseArten von N Grammen Bearbeiten nbsp Bigramm Haufigkeitsgebirge Verteilung der Bigramme in einem deutschen Text Die Werte fur N R und D gelten jeweils fur das aus diesem Buchstaben und einem folgenden Leerzeichen bestehende Bigramm nbsp Trigramm Haufigkeitsgebirge Verteilung der Trigramme in einem deutschen Text Die Tripel ER und EN sind am haufigsten steht fur das Leerzeichen Wichtige N Gramme sind das Monogramm das Bigramm manchmal auch als Digramm bezeichnet und das Trigramm Das Monogramm besteht aus einem Fragment beispielsweise nur aus einem einzelnen Buchstaben das Bigramm aus zwei und das Trigramm aus drei Fragmenten Allgemein kann man auch von Multigrammen sprechen wenn es sich um eine Gruppe von vielen Fragmenten handelt Die Prafixe wissenschaftlicher Bezeichnungen werden haufig unter Zuhilfenahme griechischer Zahlworter gebildet Beispiele sind mono fur allein oder einzig tri fur drei tetra fur vier penta fur funf hexa fur sechs hepta fur sieben okto fur acht und so weiter Bi und multi sind Vorsilben lateinischen Ursprungs und stehen fur zwei beziehungsweise viele Die folgende Tabelle gibt eine Ubersicht uber die Bezeichnungen der N Gramme sortiert nach der Anzahl der Zeichen N displaystyle N nbsp und versehen mit jeweils einem Beispiel das Buchstaben des lateinischen Alphabets verwendet N Gramm Name N BeispielMonogramm 1 ABigramm Digramm 2 ABTrigramm 3 UNOTetragramm 4 HAUSPentagramm 5 HEUTEHexagramm 6 SCHIRMHeptagramm 7 TELEFONOktogramm 8 COMPUTER Multigramm 17 BEOBACHTUNGSLISTEFormale Definition BearbeitenSei S displaystyle Sigma nbsp ein endliches Alphabet und sei n displaystyle n nbsp eine positive ganze Zahl Dann ist ein n displaystyle n nbsp Gramm ein Wort w displaystyle w nbsp der Lange n displaystyle n nbsp uber dem Alphabet S displaystyle Sigma nbsp das heisst w w 1 w n S n displaystyle w w 1 ldots w n in Sigma n nbsp Analyse BearbeitenDie N Gramm Analyse wird verwendet um die Frage zu beantworten wie wahrscheinlich auf eine bestimmte Buchstaben oder Wortfolge ein bestimmter Buchstabe oder ein bestimmtes Wort folgen wird Die bedingten Wahrscheinlichkeiten fur den nachsten Buchstaben der Folge for ex betragen fur eine bestimmte Stichprobe aus dem Englischen in absteigender Rangreihenfolge etwa a 0 4 b 0 00001 c 0 mit einer Gesamtsumme von 1 Auf der Grundlage der N Gramm Haufigkeiten erscheint also eine Fortsetzung des Fragmentes mit a for exa mple deutlich wahrscheinlicher als die Alternativen Die verwendete Sprache ist fur die Analyse nicht von Bedeutung wohl aber ihre Statistik Die N Gramm Analyse funktioniert in jeder Sprache und jedem Alphabet Daher hat sich die Analyse in den Feldern der Sprachtechnologie bewahrt Zahlreiche Ansatze der maschinellen Ubersetzung bauen auf den Daten auf die mit dieser Methode gewonnen wurden Besondere Bedeutung kommt der N Gramm Analyse dann zu wenn grosse Datenmengen beispielsweise E Mails auf ein bestimmtes Themengebiet hin untersucht werden sollen Durch die Ahnlichkeit mit einem Referenzdokument etwa einem technischen Bericht uber Atombomben oder Polonium lassen sich Cluster bilden Je naher die Worthaufigkeiten in einer Mail an denen im Referenzdokument liegen umso wahrscheinlicher ist dass sich der Inhalt um dessen Thema dreht und unter bestimmten Umstanden in diesem Beispiel eventuell Terrorismus relevant sein konnte selbst wenn Schlusselworter die eindeutig auf Terrorismus hinweisen selbst nicht auftauchen Kommerziell verfugbare Programme die diese fehlertolerante und ausserst schnelle Methode ausnutzen sind Rechtschreibprufungen und Forensik Werkzeuge In der Programmiersprache Java verfugt die Bibliothek Apache OpenNLP uber Werkzeuge zur N Gramm Analyse 3 in Python steht NLTK zur Verfugung 4 Google Korpus Bearbeiten Web Indexierung Bearbeiten Google veroffentlichte im Jahr 2006 sechs DVDs 5 mit englischsprachigen N Grammen von einem bis funf Wortern die bei der Indexierung des Webs entstanden Nachfolgend einige Beispiele aus dem Google Korpus fur 3 Gramme und 4 Gramme auf Wortebene d h n entspricht der Anzahl der Worter und die Haufigkeiten mit denen diese auftreten 6 3 Gramme ceramics collectables collectibles 55 ceramics collectables fine 130 ceramics collected by 52 ceramics collectible pottery 50 ceramics collectibles cooking 45 4 Gramme serve as the incoming 92 serve as the incubator 99 serve as the independent 794 serve as the index 223 serve as the indication 72 serve as the indicator 120 Beispiel Eine zu durchsuchende Zeichenkette lautets displaystyle s nbsp Welcome to come n 2 displaystyle n 2 nbsp sog Bigramm Die Haufigkeit des Vorkommens der einzelnen Buchstaben Bigramme wird bestimmt Somit lautet der Frequenzvektor f displaystyle f nbsp fur die Zeichenkette s displaystyle s nbsp W 1 We 1 el 1 lc 1 co 2 om 2 me 2 e 2 t 1 to 1 o 1 c 1 dd Das heisst f 1 1 1 1 2 2 2 2 1 1 1 1 displaystyle f 1 1 1 1 2 2 2 2 1 1 1 1 nbsp Der Unterstrich steht fur die Wortgrenze Die Lange des Vektors ist dabei durch s 2 n 1 n displaystyle tbinom s 2 n 1 n nbsp nach oben beschrankt wobei s displaystyle s nbsp die Lange von s displaystyle s nbsp und a b displaystyle tbinom a b nbsp der Binomialkoeffizient ist Google Books Korpus Bearbeiten Ein Datensatz aus Google Books mit Stichtag Juli 2009 wurde mit einer Weboberflache und grafischer Auswertung in Form von Diagrammen versehen und unter dem Namen Google Books Ngram Viewer ins Netz gestellt 7 Standardmassig zeigt sie die normalisierte Haufigkeit relativ zur Anzahl der bis zu diesem Jahr vorhandenen Bucher fur bis zu 5 Gramme Mit Operatoren lassen sich mehrere Begriffe zu einem Graphen zusammenfassen ein Multiplikator fur sehr unterschiedlich vorkommende Begriffe einbauen das Verhaltnis zwischen zwei Begriffen darstellen oder verschiedene Korpora vergleichen Die Grafiken konnen frei verwendet werden freely used for any purpose 8 wobei die Angabe der Quelle und ein Link erwunscht sind Die Grunddaten sind fur eigene Auswertungen in einzelne Pakete gesplittet downloadbar und stehen unter Creative Commons Attribution Lizenz Neben einer Auswertungsmoglichkeit fur Englisch allgemein gibt es spezielle Abfragen fur American English und British English differenziert anhand der Veroffentlichungsorte sowie fur English Fiction anhand der Einstufung der Bibliotheken und English One Million Bei letzterem wurden proportional zur Anzahl veroffentlichter und gescannter Bucher von 1500 bis 2008 bis zu 6000 Bucher pro Jahr zufallig ausgewahlt Zusatzlich gibt es auch Korpora fur Deutsch vereinfachtes Chinesisch Franzosisch Hebraisch Russisch und Spanisch Zur Tokenisierung wurden einfach die Leerzeichen herangezogen Die N Gramm Bildung geschah uber Satzgrenzen hinweg aber nicht uber Seitengrenzen Es wurden nur Worter aufgenommen die mindestens 40 mal im Korpus vorkommen Ein neues Korpus mit Stichtag Juli 2012 wurde Ende des Jahres zuganglich gemacht Als neue Sprache kam Italienisch hinzu English One Million wurde nicht wieder gebildet Grundlegend basiert das Korpus auf einer grosseren Anzahl von Buchern verbesserter OCR Technik und verbesserten Metadaten Die Tokenisierung geschah hier nach einem Set handgeschriebener Regeln ausser fur Chinesisch wo eine statistische Methode zur Segmentierung genutzt wurde Die N Gramm Bildung endet nun bei Satzgrenzen geht aber dabei nun uber Seitengrenzen hinweg Mit den nun beachteten Satzgrenzen sind neue Funktionen fur das 2012er Korpus eingefuhrt worden die bei 1 2 und 3 Grammen auch mit hoher Wahrscheinlichkeit die Stellung im Satz auswerten lassen und so beispielsweise auch im Englischen homographe gleich geschriebene Substantive und Verben unterscheiden lassen wobei dies in moderner Sprache besser funktioniert 8 9 Mit Stichtag Februar 2020 wurde nunmehr ein drittes Korpus mit dem Nennjahr 2019 ins Netz gestellt dessen Features denen der Version 2012 entsprechen Dice Koeffizient Bearbeiten Der Dice Koeffizient ist eins von mehreren Ahnlichkeitsmassen fur Terme Er ermittelt den Anteil der N Gramme die in zwei Termen a displaystyle a nbsp und b displaystyle b nbsp vorhanden sind Die Formel ist d a b 2 T a T b T a T b displaystyle d a b frac 2 T a cap T b T a T b nbsp wobei T x displaystyle T x nbsp die Menge der N Gramme des Terms x displaystyle x nbsp ist d liegt dabei immer zwischen 0 und 1 Siehe auch Distanzfunktion Beispiel Bearbeiten Term a wirk Term b work Bei Verwendung von Trigrammen sieht die Zerlegung folgendermassen aus T a w wi wir irk rk k T b w wo wor ork rk k T a displaystyle cap nbsp T b w k rk Das heisst d wirk work 2 3 6 6 1 2 displaystyle tfrac 2 cdot 3 6 6 tfrac 1 2 nbsp Der Dice Koeffizient betragt also 0 5 50 Anwendungsgebiete Bearbeiten Aufgrund der weitgehenden Sprachneutralitat kann dieser Algorithmus auf folgenden Gebieten angewandt werden Rechtschreibkorrektur fur Korrekturvorschlage Suche nach ahnlichen Schlusselwortern Uberwachung Spracherkennung Grundwortreduktion Stemming im Information RetrievalStatistik BearbeitenAls N Gramm Statistik bezeichnet man eine Statistik uber die Haufigkeit von N Grammen manchmal auch von Wortkombinationen aus N Wortern Spezialfalle sind die Bigrammstatistik und die Trigrammstatistik Anwendungen finden N Gramm Statistiken in der Kryptoanalyse und in der Linguistik dort vor allem bei Spracherkennungssystemen Dabei pruft das System wahrend der Erkennung die verschiedenen Hypothesen zusammen mit dem Kontext und kann dadurch Homophone gleich klingende Worter unterscheiden In der Quantitativen Linguistik interessiert unter anderem die Rangordnung der N Gramme nach Haufigkeit sowie die Frage welchen Gesetzen sie folgt Eine Statistik von Digrammen und Trigrammen im Deutschen Englischen und Spanischen findet man bei Meier 10 und Beutelspacher 11 Fur aussagefahige Statistiken sollten ausreichend grosse Textbasen von mehreren Millionen Buchstaben oder Wortern benutzt werden Als Beispiel ergibt die statistische Auswertung einer deutschen Textbasis von etwa acht Millionen Buchstaben ICH als das haufigste Trigramm mit einer relativen Haufigkeit von 1 15 Prozent Die folgende Tabelle gibt eine Ubersicht uber die zehn in dieser Textbasis als haufigste ermittelten Trigramme Trigramm HaufigkeitICH 1 15 EIN 1 08 UND 1 05 DER 0 97 NDE 0 83 SCH 0 65 DIE 0 64 DEN 0 62 END 0 60 CHT 0 60 Literatur BearbeitenWolfgang Schonpflug N Gramm Haufigkeiten in der deutschen Sprache I Monogramme und Digramme In Zeitschrift fur experimentelle und angewandte Psychologie XVI 1969 S 157 183 Weblinks BearbeitenTool zum Zahlen von Mono Di und Trigrammen mit Haufigkeitstabellen von N Grammen aus 20 Sprachen Google Ngram Viewer am Beispiel Wikipedia Lexikon Nachschlagewerk Google Ngram Viewer im Wiki Literatur Rechnen Neue Wege der Textanalyse LitRe Wiki der Universitat Gottingen nbsp Wiktionary N Gramm Bedeutungserklarungen Wortherkunft Synonyme UbersetzungenEinzelnachweise Bearbeiten Stefan Patrick Selbach Hybride bitparallele Volltextsuche PDF 3 5 MB In Dissertation Universitat Wurzburg Fakultat fur Mathematik und Informatik 2011 S 20 abgerufen am 8 Oktober 2021 Dan Jurafsky Stanford University and James H Martin University of Colorado Boulder Speech and Language Processing An Introduction to Natural Language Processing Computational Linguistics and Speech Recognition In 3 Language Modeling with N Grams Abgerufen am 3 April 2020 englisch How to use NGram features for Document Classification in OpenNLP In TutorialKart Abgerufen am 3 April 2020 amerikanisches Englisch Generate the N grams for the given sentence In Python Programming 3 Mai 2019 abgerufen am 4 April 2020 englisch Web 1T 5 gram Version 1 Memento vom 29 September 2013 im Internet Archive Alex Franz and Thorsten Brants All Our N gram are Belong to You In Google Research Blog 2006 abgerufen am 16 Dezember 2011 Google Books Ngram Viewer a b Google Books Ngram Viewer Info Google Books Ngram Viewer Datasets Helmut Meier Deutsche Sprachstatistik Zweite erweiterte und verbesserte Auflage Olms Hildesheim 1967 S 336 339 Albrecht Beutelspacher Kryptologie 7 Aufl Vieweg Wiesbaden 2005 ISBN 3 8348 0014 7 Seite 230 236 dabei auch Trigramme Abgerufen von https de wikipedia org w index php title N Gramm amp oldid 238632804 Google Books Korpus