www.wikidata.de-de.nina.az
Den Koinzidenzindex engl Index of coincidence Abkurzung IC erhalt man durch statistische Auswertung der Haufigkeit von Einzelzeichen also meist der einzelnen Buchstaben eines oder auch zweier Texte Mit seiner Hilfe konnen verschlusselte oder unverstandliche Texte auf sprachliche Eigenschaften untersucht werden Er wird speziell bei der Entzifferung historischer Schriftdokumente und allgemein in der Kryptanalyse benutzt Die Methode wurde vom amerikanischen Kryptoanalytiker William F Friedman fur kryptologische Zwecke entwickelt und im Jahr 1922 in seiner bahnbrechenden Arbeit The index of coincidence and its applications in cryptography deutsch Der Koinzidenzindex und seine Anwendungen in der Kryptographie publiziert I C i A Z n i n i 1 N N 1 displaystyle mathbf IC frac sum i A Z n i n i 1 N N 1 In seiner grundlegenden Form wird der Koinzidenzindex ermittelt indem man die Einzelanzahlen n i displaystyle n i der unterschiedlichen Einzelzeichen eines Geheimtextes zahlt also beispielsweise wie oft der Buchstabe A auftritt wie oft B und so weiter Diese werden nach oben angegebener Formel mit den um 1 verminderten Einzelanzahlen multipliziert und fur alle Buchstaben beispielsweise von A bis Z aufsummiert Die Summe wird schliesslich dividiert durch die Gesamtanzahl N der Buchstaben des Textes also der Textlange sowie die um 1 verminderte Textlange Das Ergebnis ist der Friedmansche Koinzidenzindex IC Naturliche Sprachen haben ihren jeweils typischen Koinzidenzindex Inhaltsverzeichnis 1 Definitionen 2 Bedeutung 3 Anwendung zur Kryptanalyse 4 Literatur 5 WeblinksDefinitionen BearbeitenIn allgemeiner Form sind unter dem Begriff Koinzidenzindex vier Funktionen zusammengefasst die meist mit den griechischen Buchstaben k x ps displaystyle kappa chi psi nbsp und ϕ displaystyle phi nbsp Kappa Chi Psi und Phi bezeichnet werden Oft wird ϕ displaystyle phi nbsp als der Koinzidenzindex bezeichnet wobei vom historischen Standpunkt wohl eher k displaystyle kappa nbsp das Anrecht auf diesen Namen hat Gegeben seien zwei gleich lange Texte T x 1 x 2 x k T x 1 x 2 x k displaystyle T x 1 x 2 ldots x k T x 1 x 2 ldots x k nbsp uber demselben Alphabet Dann ist das k displaystyle kappa nbsp der beiden Texte k T T i 1 k d x i x i k displaystyle kappa T T sum i 1 k frac delta x i x i k nbsp wobei d displaystyle delta nbsp das Kronecker Delta bezeichnet also d x i x i 1 displaystyle delta x i x i 1 nbsp falls x i x i displaystyle x i x i nbsp und 0 displaystyle 0 nbsp sonst Damit ist k displaystyle kappa nbsp eine Zahl zwischen 0 und 1 wobei 1 genau dann auftritt wenn beide Texte gleich sind Werden die Zeichen zufallig mit gleicher Wahrscheinlichkeit aus einem Alphabet mit n displaystyle n nbsp Zeichen gewahlt so ist der Erwartungswert fur k displaystyle kappa nbsp gleich 1 n displaystyle tfrac 1 n nbsp da jeder Summand mit Wahrscheinlichkeit 1 n displaystyle tfrac 1 n nbsp gleich 1 k displaystyle tfrac 1 k nbsp ist und sonst gleich 0 Da man in der Kryptanalyse oft aus kurzen Texten viel Information herauspressen mochte ist die Funktion x displaystyle chi nbsp die wie die folgenden Funktionen auf Friedmans Mitarbeiter Solomon Kullback 1935 zuruckgeht gelegentlich aussagekraftiger x T T i 1 k j 1 k d x i x j k 2 ℓ 1 n m ℓ m ℓ k 2 displaystyle chi T T sum i 1 k sum j 1 k frac delta x i x j k 2 sum ell 1 n frac m ell cdot m ell k 2 nbsp wobei m ℓ m ℓ displaystyle m ell m ell nbsp angibt wie oft das ℓ displaystyle ell nbsp te Zeichen des Alphabets im Text T displaystyle T nbsp bzw T displaystyle T nbsp auftritt Die Funktion x displaystyle chi nbsp hangt also allein von den Buchstabenhaufigkeiten der beiden Texte ab Nun ist ps T x T T displaystyle psi T chi T T nbsp Wahrend x displaystyle chi nbsp angewandt auf zwei Texte aus zufalligen gleichverteilten Zeichen wie k displaystyle kappa nbsp den Erwartungswert 1 n displaystyle tfrac 1 n nbsp hat ist das fur ps displaystyle psi nbsp nicht mehr der Fall da d x i x i displaystyle delta x i x i nbsp immer gleich 1 ist Deshalb schliesst man sinnvollerweise bei der Summation die Zeichen an derselben Position aus und definiert ϕ T 1 i j k d x i x j k k 1 ℓ 1 n m ℓ m ℓ 1 k k 1 displaystyle phi T sum 1 leq i neq j leq k frac delta x i x j k k 1 sum ell 1 n frac m ell m ell 1 k k 1 nbsp Ebenso wie ps displaystyle psi nbsp kann ϕ displaystyle phi nbsp allein aus den Buchstabenhaufigkeiten der beiden Texte berechnet werden jedoch ist fur einen Text aus Zufallszeichen der Erwartungswert fur ϕ displaystyle phi nbsp gleich 1 n displaystyle tfrac 1 n nbsp wahrend er fur ps displaystyle psi nbsp grosser ist namlich n k 1 n k displaystyle tfrac n k 1 nk nbsp Insbesondere fur kurze Texte ist der Unterschied markant Bedeutung BearbeitenGeht man von Texten aus mehr oder weniger gleichverteilten Zufallszeichen uber zu Texten die in einer bestimmten naturlichen Sprache verfasst sind so andert sich der Wert des Koinzidenzindexes erheblich Eine Faustregel besagt dass er etwa doppelt so gross wird Dies gilt nicht nur fur Klartexte sondern gleichermassen auch fur monoalphabetisch verschlusselte Geheimtexte da sich bei diesen Verfahren die Haufigkeiten der einzelnen Buchstaben nicht andern Das heisst der Koinzidenzindex ist invariant gegenuber diesen Arten der Verschlusselung Nimmt man beispielsweise die 26 Buchstaben unseres gewohnten lateinischen Alphabets Umlaute werden durch ae oe ue ersetzt ss durch Doppel s oder sz Leerzeichen und Satzzeichen werden ignoriert so liegt der Wert fur deutschsprachige Texte k x displaystyle kappa chi nbsp und ϕ displaystyle phi nbsp bei rund 0 078 oder 7 8 wahrend man fur englischsprachige Texte etwa 6 6 erhalt Dies ist in beiden Fallen und auch fur alle anderen Sprachen deutlich hoher als im Fall der Gleichverteilung der Buchstaben Treten samtliche Buchstaben des Alphabets gleich haufig auf wie es fur zufallig generierte Buchstabenfolgen Zufallstexte oder fur stark verschlusselte Geheimtexte der Fall ist dann ergibt sich ein Wert von etwa 1 26 also rund 3 8 Der hohere Wert des Koinzidenzindexes fur die deutsche Sprache gegenuber der englischen Sprache spiegelt vor allem die grossere Haufigkeit des dominanten Buchstabens E im Deutschen etwa 18 gegenuber dem Englischen etwa 12 wider Der Erwartungswert E S displaystyle E S nbsp des Koinzidenzindexes fur eine Sprache S displaystyle S nbsp lasst sich aus den Buchstabenhaufigkeiten nach der Formel E S i 1 n p i 2 displaystyle E S sum i 1 n p i 2 nbsp berechnen wobei p i displaystyle p i nbsp die Wahrscheinlichkeit des i displaystyle i nbsp ten Zeichens des Alphabets in Texten der entsprechenden Sprache angibt In verwandten Sprachen ahneln sich oft die Erwartungswerte E S displaystyle E S nbsp so dass bei unbekannten Texten anhand des Koinzidenzindex Vermutungen auf den zugehorigen Sprachraum angestellt werden konnen Anwendung zur Kryptanalyse BearbeitenDie wesentliche Eigenschaft ist hier dass sich bei einer einfachen monoalphabetischen Substitutionsverschlusselung weder k x ps displaystyle kappa chi psi nbsp noch ϕ displaystyle phi nbsp andern sofern die beteiligten Texte auf die gleiche Art verschlusselt sind Eine sprachliche Zuordnung hinreichend langer Texte wird somit allein auf statistischer Basis moglich Bei einer periodischen polyalphabetischen Substitutionsverschlusselung ist der Koinzidenzindex noch wertvoller denn die Schlussellange der Verschlusselung kann mit folgender Formel abgeschatzt werden Friedman Test Fur die Sprache S displaystyle S nbsp lautet die Formel fur die Schlussellange h displaystyle h nbsp h E S 1 n k k 1 ϕ T k 1 n E S displaystyle h approx frac E S frac 1 n k k 1 phi T k frac 1 n E S nbsp Diese Formel lasst sich theoretisch herleiten unter der Annahme dass alle Schlusselzeichen verschieden sind Der Wert ist also vor allem bei mit kurzen Schlusseln verschlusselten kurzen Texten aufschlussreich insbesondere in Kombination mit dem Kasiski Test Hat man mit langeren Schlusselwortern verschlusselte langere Texte zur Verfugung so ist das folgende Vorgehen praziser Entfernt man vom Text T displaystyle T nbsp einmal die ersten r displaystyle r nbsp Zeichen und einmal die letzten r displaystyle r nbsp Zeichen so erhalt man zwei Texte deren k displaystyle kappa nbsp bestimmt werden kann Ist r displaystyle r nbsp ein Vielfaches der Schlussellange so sollte k E S displaystyle kappa approx E S nbsp sein da die verglichenen Einzelzeichen mit demselben Schlussel verschlusselt sind Ist r displaystyle r nbsp jedoch kein Vielfaches der Schlussellange so ist mit einem deutlich niedrigeren Wert fur k displaystyle kappa nbsp zu rechnen da die verglichenen Zeichen nur selten gleich verschlusselt sind Wiederholte Sequenzen im Schlusselwort mit denen man den Kasiski Test und den Friedman Test uberlisten kann beeinflussen die Ergebnisse hier nur ansatzweise und sollten in der Regel erkannt werden Auch bei nicht periodischen polyalphabetischen Verschlusselungen lassen sich diese Methoden gewinnbringend nutzen Insbesondere erkennt man bei zwei mit dem gleichen One Time Pad verschlusselten Texten T T displaystyle T T nbsp durch Berechnung von k T T displaystyle kappa T T nbsp sofort diese kryptographische Sunde und kann zum Beispiel durch die Methode des wahrscheinlichen Wortes angewandt auf einen der Texte versuchen Klartextsequenzen im anderen Text zu erzeugen Der Koinzidenzindex eignet sich also fur sogenannte Ciphertext only Angriffe wo uber den Inhalt des verschlusselten Textes nichts bekannt sein muss auf Substitutionsverschlusselungen wodurch diese Verfahren naturlich ausser einem korrekt angewendeten One Time Pad als ausgesprochen unsicher angesehen werden mussen Literatur BearbeitenFriedrich L Bauer Entzifferte Geheimnisse Methoden und Maximen der Kryptologie 3 uberarbeitete und erweiterte Auflage Springer Berlin u a 2000 ISBN 3 540 67931 6 William F Friedman The index of coincidence and its applications in cryptology Riverbank Laboratories Department of Ciphers Geneva IL 1922 Nachdruck Aegean Park Press Laguna Hills CA 1987 ISBN 0 89412 137 5 A Cryptographic Series 49 Weblinks BearbeitenWilliam Frederick Friedman The index of coincidence and its applications in cryptology WorldCat englisch von Abgerufen von https de wikipedia org w index php title Koinzidenzindex amp oldid 214348646