Kreuzentropie Die ist in der Informationstheorie und der mathematischen Statistik ein Maß für die Qualität eines Modells

Kreuzentropie

Die Kreuzentropie ist in der Informationstheorie und der mathematischen Statistik ein Maß für die Qualität eines Modells für eine Wahrscheinlichkeitsverteilung. Eine Minimierung der Kreuzentropie in Bezug auf die Modellparameter kommt einer Maximierung der Log-Likelihood-Funktion gleich.

Definition Bearbeiten

Sei eine Zufallsvariable mit Zielmenge , die gemäß verteilt ist. Es sei weiter eine Verteilung auf demselben Ereignisraum.

Dann ist die Kreuzentropie definiert durch:

Hierbei bezeichne die Entropie von und die Kullback-Leibler-Divergenz der beiden Verteilungen.

Äquivalente Formulierung Bearbeiten

Durch Einsetzen der beiden Definitionsgleichungen und ergibt sich nach Vereinfachung im diskreten Fall

und im stetigen Fall (mit Dichtefunktionen und )

Schätzung Bearbeiten

Zwar hat die Kreuzentropie eine vergleichbare Aussagekraft wie die reine Kullback-Leibler-Divergenz, erstere lässt sich jedoch auch ohne genaue Kenntnis von schätzen. In der praktischen Anwendung ist daher meist eine Approximation einer unbekannten Verteilung .

Nach obiger Gleichung gilt:

wobei den Erwartungswert gemäß der Verteilung bezeichnet.

Sind nun Realisierungen von , d. h. eine unabhängig und identisch gemäß verteilte Stichprobe. Dann ist der Stichprobenmittelwert ein erwartungstreuer Schätzer für die Kreuzentropie, welcher nach dem Gesetz der großen Zahlen konvergiert und seine Realisierung ist

Zusammenhang mit Log-Likelihood-Funktion Bearbeiten

Gegeben sei ein Modell mit Parametern und (Ausgabe-)Wahrscheinlichkeitsdichte welches die Wahrscheinlichkeitsdichte annähern soll. Der wahre Wert der Parameter maximiert die erwartete Log-Likelihood-Funktion

Diese Gleichungen können mithilfe von Stichproben genähert werden: , wobei die Näherung wie unter Stichprobenmittelwert dargestellt folgt. Beachte, das Auftreten der Log-Likelihood-Funktion in der Näherung, wobei die Skalierung die Lage des Maximums nicht verändert.

Abgeleitete Größen Bearbeiten

Die Größe beziehungsweise wird auch als Perplexität bezeichnet. Sie wird vor allem in der Spracherkennung verwendet.

Siehe auch Bearbeiten

Scoring rule

Literatur Bearbeiten

Reuven Y. Rubinstein, Dirk P. Kroese: The Cross-Entropy Method – A Unified Approach to Combinatorial Optimization, Monte-Carlo Simulation and Machine Learning. Springer, 2004, ISBN 978-0-387-21240-1, doi:10.1007/978-1-4757-4321-0.

Weblinks Bearbeiten

Statistische Sprachmodelle Universität München (PDF; 531 kB)

Einzelnachweise Bearbeiten

Denis Conniffe: Expected Maximum Log Likelihood Estimation. In: The Statistician. Band 36, Nr. 4, 1987, ISSN 0039-0526, S. 317, doi:10.2307/2348828.

wikipedia, wiki, deutsches, deutschland, buch, bücher, bibliothek artikel lesen, herunterladen kostenlos kostenloser herunterladen, MP3, Video, MP4, 3GP, JPG, JPEG, GIF, PNG, Bild, Musik, Lied, Film, Buch, Spiel, Spiele

Veröffentlichungsdatum: November 30, 2023, 22:22 pm

Die Kreuzentropie ist in der Informationstheorie und der mathematischen Statistik ein Mass fur die Qualitat eines Modells fur eine Wahrscheinlichkeitsverteilung Eine Minimierung der Kreuzentropie in Bezug auf die Modellparameter kommt einer Maximierung der Log Likelihood Funktion gleich Inhaltsverzeichnis 1 Definition 2 Aquivalente Formulierung 3 Schatzung 4 Zusammenhang mit Log Likelihood Funktion 5 Abgeleitete Grossen 6 Siehe auch 7 Literatur 8 Weblinks 9 EinzelnachweiseDefinition BearbeitenSei X displaystyle X nbsp eine Zufallsvariable mit Zielmenge W displaystyle Omega nbsp die gemass P displaystyle P nbsp verteilt ist Es sei weiter Q displaystyle Q nbsp eine Verteilung auf demselben Ereignisraum Dann ist die Kreuzentropie definiert durch H X P Q H X D P Q displaystyle H X P Q H X D P Vert Q nbsp Hierbei bezeichne H X displaystyle H X nbsp die Entropie von X displaystyle X nbsp und D P Q displaystyle D P Q nbsp die Kullback Leibler Divergenz der beiden Verteilungen Aquivalente Formulierung BearbeitenDurch Einsetzen der beiden Definitionsgleichungen H X x X P x log P x displaystyle H X sum x in X P x log P x nbsp und D P Q x X P x log P x Q x displaystyle D P Q sum x in X P x cdot log frac P x Q x nbsp ergibt sich nach Vereinfachung im diskreten Fall H X P Q x W P X x log Q X x displaystyle H X P Q sum x in Omega P X x cdot log Q X x nbsp und im stetigen Fall mit Dichtefunktionen p displaystyle p nbsp und q displaystyle q nbsp H X P Q W p x log q x d x displaystyle H X P Q int Omega p x cdot log q x mathrm d x nbsp Schatzung BearbeitenZwar hat die Kreuzentropie eine vergleichbare Aussagekraft wie die reine Kullback Leibler Divergenz erstere lasst sich jedoch auch ohne genaue Kenntnis von P displaystyle P nbsp schatzen In der praktischen Anwendung ist daher Q displaystyle Q nbsp meist eine Approximation einer unbekannten Verteilung P displaystyle P nbsp Nach obiger Gleichung gilt H X P Q E P log Q X displaystyle H X P Q E P log Q X nbsp wobei E displaystyle E nbsp den Erwartungswert gemass der Verteilung P displaystyle P nbsp bezeichnet Sind nun x 1 x n W displaystyle x 1 dots x n in Omega nbsp Realisierungen von X P displaystyle X sim P nbsp d h eine unabhangig und identisch gemass P displaystyle P nbsp verteilte Stichprobe Dann ist der Stichprobenmittelwert ein erwartungstreuer Schatzer fur die Kreuzentropie welcher nach dem Gesetz der grossen Zahlen konvergiert und seine Realisierung ist H Q n 1 n i 1 n log Q x i displaystyle hat H Q n frac 1 n sum i 1 n log Q x i nbsp Zusammenhang mit Log Likelihood Funktion BearbeitenSiehe auch Multinomiale logistische Regression Gegeben sei ein Modell mit Parametern 8 displaystyle theta nbsp und Ausgabe Wahrscheinlichkeitsdichte q 8 displaystyle q theta nbsp welches die Wahrscheinlichkeitsdichte p d a t a displaystyle p mathrm data nbsp annahern soll Der wahre Wert der Parameter 1 8 displaystyle theta nbsp maximiert die erwarteteLog Likelihood Funktion E log q 8 x W d x p d a t a x log q 8 x H X p d a t a q 8 displaystyle E log q theta x int Omega dxp mathrm data x log q theta x H X p mathrm data q theta nbsp Diese Gleichungen konnen mithilfe von Stichproben genahert werden E log q 8 x E n log q 8 x p d a t a 1 n i 1 n log q 8 x i H X p d a t a q 8 displaystyle E log q theta x approx widehat mathbf E n log q theta x p mathrm data frac 1 n sum i 1 n log q theta x i hat H X p mathrm data q theta nbsp wobei die Naherung wie unter Stichprobenmittelwert dargestellt folgt Beachte das Auftreten der Log Likelihood Funktion l i log q 8 x i displaystyle l sum i log q theta x i nbsp in der Naherung wobei die Skalierung 1 n displaystyle frac 1 n nbsp die Lage des Maximums nicht verandert Abgeleitete Grossen BearbeitenDie Grosse 2 H X P Q displaystyle 2 H X P Q nbsp beziehungsweise 2 H X displaystyle 2 H X nbsp wird auch als Perplexitat bezeichnet Sie wird vor allem in der Spracherkennung verwendet Siehe auch BearbeitenScoring ruleLiteratur BearbeitenReuven Y Rubinstein Dirk P Kroese The Cross Entropy Method A Unified Approach to Combinatorial Optimization Monte Carlo Simulation and Machine Learning Springer 2004 ISBN 978 0 387 21240 1 doi 10 1007 978 1 4757 4321 0 Weblinks BearbeitenStatistische Sprachmodelle Universitat Munchen PDF 531 kB Einzelnachweise Bearbeiten Denis Conniffe Expected Maximum Log Likelihood Estimation In The Statistician Band 36 Nr 4 1987 ISSN 0039 0526 S 317 doi 10 2307 2348828 Abgerufen von https de wikipedia org w index php title Kreuzentropie amp oldid 238189096