www.wikidata.de-de.nina.az
Dieser Artikel behandelt den Begriff in der Informationstheorie fur den in der Wissenschaftstheorie siehe Informationsgehalt Wissenschaftstheorie Der Informationsgehalt oder auch Uberraschungswert einer Nachricht ist eine logarithmische Grosse die angibt wie viel Information in dieser Nachricht ubertragen wurde Dieser Begriff wurde von Claude Shannon erstmals in seiner Informationstheorie formalisiert Der Informationsgehalt eines Zeichens ist seine statistische Signifikanz Er bezeichnet also die minimale Anzahl von Bits die benotigt werden um ein Zeichen also eine Information darzustellen oder zu ubertragen Wichtig ist dabei dass dies nicht unbedingt der Anzahl der tatsachlich empfangenen Bits der Datenmenge entspricht da der Informationsgehalt vom semantischen Kontext abhangig ist Inhaltsverzeichnis 1 Definition 2 Allgemeines 3 Informationsgehalt statistisch unabhangiger Ereignisse 4 Informationsgehalt statistisch abhangiger Ereignisse 4 1 Verbundwahrscheinlichkeit H X Y 5 Informationsgehalt bei analogen Signalen 6 Beispiele fur statistisch unabhangige Ereignisse 6 1 Beispiel 1 6 2 Beispiel 2 6 3 Beispiel 3 7 Siehe auch 8 Literatur 9 Weblinks 10 EinzelnachweiseDefinition BearbeitenDer Informationsgehalt eines Zeichens x mit einer Auftrittswahrscheinlichkeit px ist definiert als I x log a 1 p x log a 1 log a p x log a p x displaystyle I x log a left frac 1 p x right log a 1 log a p x log a p x nbsp a entspricht dabei der Machtigkeit des Alphabets d h der Anzahl der moglichen Zustande einer Nachrichtenquelle Abhangig von der gewahlten Basis a andert sich auch die Einheit des Informationsgehaltes Dies stellte schon Shannon in A Mathematical Theory of Communication fest 1 Im Allgemeinen kann die Einheit des Informationsgehaltes als Shannon sh bezeichnet werden aber diese Einheitsbezeichnung hat sich nicht durchgesetzt Im wohl haufigsten Fall dass fur das Alphabet mit der Machtigkeit a das Binaralphabet gewahlt wird entspricht die Einheit des Informationsgehaltes dem Bit Im folgenden Text sei a 2 das Binarsystem angenommen wodurch man als Ergebnis die Anzahl der Binarziffern in Bit erhalt Stattdessen konnte auch jedes andere Zahlensystem verwendet werden Allgemeines BearbeitenDer Begriff der Information wie er in der Informationstheorie nach Shannon 2 verwendet wird ist streng von dem gewohnlichen Gebrauch dieses Begriffes zu unterscheiden Insbesondere darf er nicht mit dem Begriff der Bedeutung gleichgesetzt werden In Shannons Theorie konnen z B zwei Nachrichten von denen eine von besonderer Bedeutung ist wahrend die andere nur Unsinn darstellt genau die gleiche Menge an Information enthalten Fur den einfachen Fall in dem nur zwischen zwei moglichen Nachrichten zu wahlen ist wird dabei willkurlich festgelegt dass die Information die mit dieser Situation verbunden ist gleich 1 ist Die beiden Nachrichten zwischen denen bei einer solchen Auswahl entschieden werden soll konnen dabei vollig beliebig sein Eine Nachricht konnte z B der Text des Telefonbuches sein und die andere Nachricht der einzelne Buchstabe A Diese beiden Nachrichten konnten dann beispielsweise durch die Symbole 0 und 1 codiert werden Allgemeiner wird durch eine beliebige Nachrichtenquelle eine Folge von Auswahlvorgangen aus einer Menge von elementaren Zeichen vorgenommen wobei diese ausgewahlte Folge dann die eigentliche Nachricht darstellt Hierbei ist leicht einzusehen dass die Wahrscheinlichkeiten der Zeichen bei der Erzeugung der Nachricht von besonderer Wichtigkeit sind Denn wenn die aufeinanderfolgenden Zeichen ausgewahlt werden ist diese Auswahl zumindest vom Standpunkt des Kommunikationssystems aus von dieser Wahrscheinlichkeit bestimmt Diese Wahrscheinlichkeiten sind in den meisten Fallen sogar voneinander abhangig d h sie hangen von den vorangegangenen Auswahlereignissen ab Ist z B das letzte Wort einer Wortfolge der Artikel die dann ist die Wahrscheinlichkeit dafur dass als nachstes Wort wieder ein Artikel oder ein Verb auftritt sehr gering Ein Mass welches in besonderer Weise den naturlichen Anforderungen genugt die man an dieses Informationsmass stellt entspricht genau dem welches in der statistischen Physik als Entropie bekannt geworden ist Wie dieses Informationsmass von den entsprechenden Wahrscheinlichkeiten abhangt wird im folgenden Abschnitt erklart Formal werden die zu ubertragenden Informationen als Zeichen bezeichnet Dabei steht nur ein endlicher Zeichenvorrat zur Verfugung Zeichen konnen aber beliebig kombiniert werden Die minimale Anzahl von Bits die fur die Darstellung oder Ubertragung eines Zeichens benotigt werden hangt nun von der Wahrscheinlichkeit ab mit der ein Zeichen auftritt Fur Zeichen die haufig auftreten verwendet man weniger Bits als fur Zeichen die selten verwendet werden Datenkompressionstechniken machen sich das zu Nutze insbesondere Entropiekodierungen wie die Arithmetische Kodierung und die Huffman Kodierung Ein ahnliches Verfahren wird zum Ausbalancieren von Binarbaumen verwendet nbsp Je kleiner die Auftretenswahrscheinlichkeit eines Zeichens ist desto hoher ist sein Informationsgehalt Andersherum ist der Informationsgehalt eines Zeichens sehr gering wenn es sehr oft vorkommt Grundsatzlich wird der Informationsgehalt fur statistisch unabhangige Ereignisse und statistisch abhangige Ereignisse unterschiedlich berechnet Man konnte auch sagen dass der Informationsgehalt eines Zeichens proportional zum negativen Logarithmus der Wahrscheinlichkeit ist mit der man es erraten kann Der Informationsgehalt ist also ein Mass fur die maximale Effizienz mit der eine Information ubertragen werden kann Ein alternatives Mass fur den Informationsgehalt einer Zeichenkette ist die Kolmogorov Komplexitat bzw der algorithmische Informationsgehalt er ist definiert als die Lange des kurzesten Programms das diese Zeichenkette erzeugen kann Ein weiterer Ansatz ist die sogenannte Algorithmische Tiefe die besagt wie aufwandig es ist eine bestimmte Nachricht zu erzeugen Gregory Chaitin ist ebenfalls uber die Shannonsche Definition der Entropie einer Information hinausgegangen siehe Algorithmische Informationstheorie In diesem Zusammenhang spielen auch die Kreuzentropie sowie die Kullback Leibler Divergenz als Masse fur die durch eine schlechte Kodierung ausgelosten Verschwendungen von Bits eine Rolle Informationsgehalt statistisch unabhangiger Ereignisse BearbeitenSei x 1 x 2 x n displaystyle x 1 x 2 dots x n nbsp eine Folge von n statistisch unabhangig aufeinanderfolgenden Ereignissen Der Informationsgehalt I g e s displaystyle I mathrm ges nbsp ist dann die Summe der Informationsgehalte aller Ereignisse I g e s I x 1 I x 2 I x 3 I x n k 1 n I x k displaystyle I mathrm ges I x 1 I x 2 I x 3 dots I x n sum k 1 n I x k nbsp Ebenso lasst sich der Informationsgehalt mit der Entropie H X displaystyle H X nbsp mittlerer Informationsgehalt eines Zeichens berechnen I g e s n H X displaystyle I mathrm ges n cdot H X nbsp Bei einer Gleichverteilung der Wahrscheinlichkeiten p x i p 1 Z displaystyle p x i p 1 Z nbsp fur alle Zeichen x i displaystyle x i nbsp aus dem Alphabet Z displaystyle Z nbsp lasst sich die Gesamtinformation auch uber die maximale Entropie beziehungsweise die Alphabetsgrosse Z displaystyle Z nbsp berechnen I g e s n H m a x X n log 2 Z displaystyle I mathrm ges n cdot H mathrm max X n cdot log 2 Z nbsp bzw n I p displaystyle n cdot I p nbsp Der Informationsgehalt der beiden Quellen 01010101 und 10010110 ist aus der Betrachtung von statistisch unabhangigen Ereignissen nach obiger Formel gleich Zu erkennen ist dass die Zeichen der ersten Quelle durch eine sich wiederholende Struktur geordnet sind Deshalb wurde man intuitiv in der ersten Kette weniger Information als in der zweiten Kette vermuten Bei der Betrachtung als statistisch unabhangiges Ereignis wird aber jedes Zeichen einzeln betrachtet und nicht der eventuelle Zusammenhang mehrerer Zeichen berucksichtigt Eine andere Definition der Information eines Zeichens liefert die bedingte Entropie Bei ihr wird das Auftreten vorangegangener Zeichen berucksichtigt Die aufeinanderfolgenden Zeichen werden in diesem Fall als statistisch abhangige Ereignisse betrachtet Informationsgehalt statistisch abhangiger Ereignisse BearbeitenBei statistisch abhangigen Ereignissen kennt man den Kontext der Ereignisse genauer und kann daraus Schlussfolgerungen ziehen die den Informationsgehalt beeinflussen Dabei konnen meistens die folgenden Ereignisse durch Ausschlussverfahren und Bindungen erraten werden Ein Beispiel fur statistisch abhangige Ereignisse ist ein Text in der deutschen Sprache das c tritt meistens paarweise mit einem h oder k auf Andere Buchstaben unterliegen ebenfalls solchen paarweisen Bindungen Hierzu wird ahnlich wie bei statistisch unabhangigen Ereignissen der durchschnittliche und kontextsensitive Informationsgehalt eines Zeichens mit der Anzahl der vorhandenen Zeichen multipliziert I g e s n H X Y displaystyle I mathrm ges n cdot H X Y nbsp Die bedingte Entropie berechnet sich folgend H X Y y p y H X Y y x y p x y log 2 p x y displaystyle H X Y sum y p y cdot H X Y y sum x sum y p x y cdot log 2 p x y nbsp Bedingte Entropie als Differenz von Quell Information und Transinformation H X Y H X I X Y displaystyle H X Y H X I X Y nbsp Interpretation Seien X und Y zwei stationar abhangige Quellen H X sei die stationar betrachtete Quell Entropie I X Y ist die Transinformation die Information die von X nach Y fliesst also die Menge an Information von der man von X auf Y schliessen kann Ist diese Information hoch so ist auch die Abhangigkeit von X und Y hoch Dementsprechend ist die uber X nach einer Beobachtung Y nicht so hoch da man nicht sehr viel neue Information uber Y erhalt Bedingte Entropie als Gesamtinformation abzuglich der Entropie von H Y H X Y H X Y H Y H X Y I X Y H Y X displaystyle H X Y H X Y H Y H X Y I X Y H Y X nbsp Interpretation Im statistisch abhangigen Fall zieht man von der Gesamtinformation Verbundentropie die gemeinsame Information I X Y von X und Y ab Ausserdem soll auch die neue Information die Y mit sich bringt nicht mit eingerechnet werden denn man mochte am Ende nur die Menge an Information von X herausbekommen die X alleine beinhaltet Deshalb rechnet man H X Y H X Y I X Y H Y X Bemerkung Die Information von statistisch abhangigen Ereignissen ist immer kleiner oder gleich der von statistisch unabhangigen Ereignissen da wie folgt gilt H X Y H X Verbundwahrscheinlichkeit H X Y Bearbeiten Gibt es n displaystyle n nbsp mogliche Ereignisse x displaystyle x nbsp und m displaystyle m nbsp mogliche Ereignisse y displaystyle y nbsp so ist die Verbundwahrscheinlichkeit p x i y j displaystyle p x i y j nbsp die Wahrscheinlichkeit dafur dass je ein Ereignis x i displaystyle x i nbsp paarweise mit einem Ereignis y j displaystyle y j nbsp auftritt Die Wahrscheinlichkeit p x i displaystyle p x i nbsp dass das Ereignis x i displaystyle x i nbsp auftritt ist die Gesamtwahrscheinlichkeit dass x i displaystyle x i nbsp paarweise mit dem Ereignis y j displaystyle y j nbsp auftritt p x i j 1 m p x i y j displaystyle p x i sum j 1 m p x i y j nbsp Mit der bedingten Wahrscheinlichkeit ergibt sich die Verbundwahrscheinlichkeit dann zu p x i y j p x i p y j x i p y j p x i y j displaystyle p x i y j p x i cdot p y j x i p y j cdot p x i y j nbsp Der mittlere Informationsgehalt der Verbundentropie je Ereignispaar statistisch abhangiger Ereignisse ist somit definiert durch H X Y i 1 n j 1 m p x i y j log 2 p x i y j displaystyle H X Y sum i 1 n sum j 1 m p x i y j cdot log 2 p x i y j nbsp Informationsgehalt bei analogen Signalen BearbeitenDer Informationsgehalt eines einzelnen Werts aus einem analogen Signal ist grundsatzlich unendlich da die Auftrittswahrscheinlichkeit eines Wertes bei einer kontinuierlichen Wahrscheinlichkeitsverteilung gleich Null ist Fur den mittleren Informationsgehalt eines reellen kontinuierlichen Signals kann statt der Entropie nach Shannon die differentielle Entropie berechnet werden Alternativ kann das Signal mit Hilfe eines Analog Digital Umsetzers in ein digitales umgewandelt werden dabei geht jedoch Information verloren Da nach der Umsetzung nur noch diskrete Werte vorkommen kann deren Informationsgehalt wieder bestimmt werden Beispiele fur statistisch unabhangige Ereignisse BearbeitenBeispiel 1 Bearbeiten An einer Quelle tritt ein Zeichen x mit der Wahrscheinlichkeit p x 0 0625 auf Fur die maximale Effizienz zur Ubertragung in einem Kanal ist eine Information von I x I 0 062 5 4 bit displaystyle I x I 0 0625 4 text bit nbsp fur jedes Zeichen x notwendig Beispiel 2 Bearbeiten Gegeben sei eine Zeichenkette Mississippi Sie besteht aus n 11 Zeichen Das Alphabet Z i M p s displaystyle Z i M p s nbsp mit den Auftrittswahrscheinlichkeiten p i 4 11 p M 1 11 p p 2 11 p s 4 11 displaystyle p mathit i frac 4 11 p mathit M frac 1 11 p mathit p frac 2 11 p mathit s frac 4 11 nbsp Die Gesamtinformation betragt I ges i 1 4 n i I z i 4 I i 1 I M 2 I p 4 I s 4 1 46 b i t 1 3 46 b i t 2 2 46 b i t 4 1 46 b i t 5 84 b i t 3 46 b i t 4 92 b i t 5 84 b i t 20 06 b i t displaystyle begin aligned I text ges amp sum i 1 4 n i cdot I z i amp 4 cdot I i 1 cdot I M 2 cdot I p 4 cdot I s amp 4 cdot 1 46 mathrm bit 1 cdot 3 46 mathrm bit 2 cdot 2 46 mathrm bit 4 cdot 1 46 mathrm bit amp 5 84 mathrm bit 3 46 mathrm bit 4 92 mathrm bit 5 84 mathrm bit amp 20 06 mathrm bit end aligned nbsp Daraus folgt die Gesamtanzahl von 21 Bit die notwendig ist um die einzelnen Buchstaben des Wortes Mississippi binar optimal zu kodieren Beispiel 3 Bearbeiten Alphabet Z a b mit p a 0 01 und p b 0 99 Die Zeichenkette bestehe aus 100 Zeichen I a 6 643 9 bit displaystyle I a 6 6439 text bit nbsp seltenes Auftreten hohe Information im Falle des Auftretens I b 0 014 5 bit displaystyle I b 0 0145 text bit nbsp haufiges Auftreten wenig Information im Falle des Auftretens Gesamtinformation I ges 1 I a 99 I b 8 08 bit displaystyle I text ges 1 cdot I a 99 cdot I b approx 8 08 text bit nbsp Damit folgt eine Gesamtinformation von 9 bit Siehe auch BearbeitenAlgorithmische Informationstheorie Auffalligkeit Blockentropie Entropieschatzung NegentropieLiteratur BearbeitenSebastian Dworatschek Grundlagen der Datenverarbeitung 8 Auflage Walter de Gruyter Berlin 1989 ISBN 3 11 012025 9 eingeschrankte Vorschau in der Google Buchsuche Martin Werner Information und Codierung Grundlagen und Anwendungen 2 Auflage Vieweg Teubner Wiesbaden 2008 ISBN 978 3 8348 0232 3 eingeschrankte Vorschau in der Google Buchsuche Werner Heise Pasquale Quattrocchi Informations und Codierungstheorie Mathematische Grundlagen der Daten Kompression und Sicherung in diskreten Kommunikationssystemen 3 Auflage Springer Berlin Heidelberg 1995 ISBN 3 540 57477 8 eingeschrankte Vorschau in der Google Buchsuche Weblinks BearbeitenGrundlagen der Informationstheorie PDF 47 5 kB Abgerufen am 16 Februar 2018 Informationsgehalt einer Nachricht PDF 243 kB Abgerufen am 16 Februar 2018 Informationstheorie PDF 1 1 MB Archiviert vom Original am 15 Juni 2016 abgerufen am 16 Februar 2018 Codierungstheorie PDF 347 kB Abgerufen am 16 Februar 2018 Informationsgehalt und Komplexitat von Zeitreihen PDF 3 0 MB Archiviert vom Original am 16 Juli 2007 abgerufen am 16 Februar 2018 Einzelnachweise Bearbeiten Claude Elwood Shannon A Mathematical Theory of Communication In Bell Labs Hrsg The Bell System Technical Journal Band 27 Nr 3 Juli 1948 ISSN 0005 8580 S 379 423 doi 10 1002 j 1538 7305 1948 tb01338 x englisch harvard edu PDF 358 kB abgerufen am 1 August 2023 Claude Elwood Shannon Prediction and Entropy of Printed English In Bell Labs Hrsg The Bell System Technical Journal Band 30 Nr 1 Januar 1951 ISSN 0005 8580 S 50 64 doi 10 1002 j 1538 7305 1951 tb01366 x englisch uci edu PDF 5 4 MB abgerufen am 1 August 2023 Abgerufen von https de wikipedia org w index php title Informationsgehalt amp oldid 236798885