[{"@context":"http:\/\/schema.org\/","@type":"BlogPosting","@id":"https:\/\/wiki.edu.vn\/wiki13\/2020\/12\/26\/kreuzentropie-wikipedia\/#BlogPosting","mainEntityOfPage":"https:\/\/wiki.edu.vn\/wiki13\/2020\/12\/26\/kreuzentropie-wikipedia\/","headline":"Kreuzentropie – Wikipedia","name":"Kreuzentropie – Wikipedia","description":"before-content-x4 In der Informationstheorie ist die Kreuzentropie zwischen zwei Wahrscheinlichkeitsverteilungen p{ displaystyle p} und q{ displaystyle q} \u00dcber denselben zugrunde","datePublished":"2020-12-26","dateModified":"2020-12-26","author":{"@type":"Person","@id":"https:\/\/wiki.edu.vn\/wiki13\/author\/lordneo\/#Person","name":"lordneo","url":"https:\/\/wiki.edu.vn\/wiki13\/author\/lordneo\/","image":{"@type":"ImageObject","@id":"https:\/\/secure.gravatar.com\/avatar\/44a4cee54c4c053e967fe3e7d054edd4?s=96&d=mm&r=g","url":"https:\/\/secure.gravatar.com\/avatar\/44a4cee54c4c053e967fe3e7d054edd4?s=96&d=mm&r=g","height":96,"width":96}},"publisher":{"@type":"Organization","name":"Enzyklop\u00e4die","logo":{"@type":"ImageObject","@id":"https:\/\/wiki.edu.vn\/wiki4\/wp-content\/uploads\/2023\/08\/download.jpg","url":"https:\/\/wiki.edu.vn\/wiki4\/wp-content\/uploads\/2023\/08\/download.jpg","width":600,"height":60}},"image":{"@type":"ImageObject","@id":"https:\/\/wikimedia.org\/api\/rest_v1\/media\/math\/render\/svg\/81eac1e205430d1f40810df36a0edffdc367af36","url":"https:\/\/wikimedia.org\/api\/rest_v1\/media\/math\/render\/svg\/81eac1e205430d1f40810df36a0edffdc367af36","height":"","width":""},"url":"https:\/\/wiki.edu.vn\/wiki13\/2020\/12\/26\/kreuzentropie-wikipedia\/","wordCount":17152,"articleBody":" (adsbygoogle = window.adsbygoogle || []).push({});before-content-x4In der Informationstheorie ist die Kreuzentropie zwischen zwei Wahrscheinlichkeitsverteilungen p{ displaystyle p} und q{ displaystyle q} \u00dcber denselben zugrunde liegenden Satz von Ereignissen wird die durchschnittliche Anzahl von Bits gemessen, die zum Identifizieren eines aus dem Satz gezogenen Ereignisses erforderlich sind, wenn ein f\u00fcr den Satz verwendetes Codierungsschema f\u00fcr eine gesch\u00e4tzte Wahrscheinlichkeitsverteilung optimiert ist q{ displaystyle q}eher als die wahre Verteilung p{ displaystyle p}.Table of ContentsDefinition[edit]Motivation[edit]Einsch\u00e4tzung[edit]Beziehung zur Log-Wahrscheinlichkeit[edit]Kreuzentropieminimierung[edit]Entropie\u00fcbergreifende Verlustfunktion und logistische Regression[edit]Siehe auch[edit]Verweise[edit]Externe Links[edit]Definition[edit]Die Kreuzentropie der Verteilung q{ displaystyle q} relativ zu einer Verteilung p{ displaystyle p} \u00fcber einen gegebenen Satz ist wie folgt definiert:H.((p,q)=– –E.p\u2061[log\u2061q]{ displaystyle H (p, q) = – operatorname {E} _ {p}[log q]}},wo E.p[\u22c5]{ displaystyle E_ {p}[cdot ]}} ist der Erwartungswertoperator in Bezug auf die Verteilung p{ displaystyle p}. Die Definition kann unter Verwendung der Kullback-Leibler-Divergenz formuliert werden D.K.L.((p\u2016q){ displaystyle D _ { mathrm {KL}} (p | q)} von p{ displaystyle p} von q{ displaystyle q} (auch bekannt als die relative Entropie von q{ displaystyle q} in Gedenken an p{ displaystyle p}).H.((p,q)=H.((p)+D.K.L.((p\u2016q){ Anzeigestil H (p, q) = H (p) + D _ { mathrm {KL}} (p | q)},wo H.((p){ displaystyle H (p)} ist die Entropie von p{ displaystyle p}.F\u00fcr diskrete Wahrscheinlichkeitsverteilungen p{ displaystyle p} und q{ displaystyle q} mit der gleichen Unterst\u00fctzung X.{ displaystyle { mathcal {X}}} das heisstH.((p,q)=– –\u2211x\u2208X.p((x)Log\u2061q((x){ displaystyle H (p, q) = – sum _ {x in { mathcal {X}}} p (x) , log q (x)}((Gl.1)Die Situation f\u00fcr kontinuierliche Verteilungen ist analog. Das m\u00fcssen wir annehmen p{ displaystyle p} und q{ displaystyle q} sind in Bezug auf ein Referenzma\u00df absolut kontinuierlich r{ displaystyle r} (meistens r{ displaystyle r} ist ein Lebesgue-Ma\u00df f\u00fcr eine Borel-\u03c3-Algebra). Lassen P.{ displaystyle P} und Q.{ displaystyle Q} Wahrscheinlichkeitsdichtefunktionen von sein p{ displaystyle p} und q{ displaystyle q} in Gedenken an r{ displaystyle r}. Dann– –\u222bX.P.((x)Log\u2061Q.((x)dr((x)=E.p\u2061[\u2212log\u2061Q]{ displaystyle – int _ { mathcal {X}} P (x) , log Q (x) , dr (x) = operatorname {E} _ {p}[-log Q]}}und deshalbH.((p,q)=– –\u222bX.P.((x)Log\u2061Q.((x)dr((x){ displaystyle H (p, q) = – int _ { mathcal {X}} P (x) , log Q (x) , dr (x)}((Gl.2)NB: Die Notation H.((p,q){ displaystyle H (p, q)} wird auch f\u00fcr ein anderes Konzept verwendet, die gemeinsame Entropie von p{ displaystyle p} und q{ displaystyle q}.Motivation[edit]In der Informationstheorie legt das Kraft-McMillan-Theorem fest, dass jedes direkt decodierbare Codierungsschema zum Codieren einer Nachricht zur Identifizierung eines Werts xich{ displaystyle x_ {i}} aus einer Reihe von M\u00f6glichkeiten {x1,...,xn}}{ displaystyle {x_ {1}, …, x_ {n} }} kann als eine implizite Wahrscheinlichkeitsverteilung angesehen werden q((xich)=((12)lich{ displaystyle q (x_ {i}) = left ({ frac {1} {2}} right) ^ {l_ {i}}} \u00dcber {x1,...,xn}}{ displaystyle {x_ {1}, …, x_ {n} }}, wo lich{ displaystyle l_ {i}} ist die L\u00e4nge des Codes f\u00fcr xich{ displaystyle x_ {i}} in Bits. Daher kann die Kreuzentropie als die erwartete Nachrichtenl\u00e4nge pro Datum interpretiert werden, wenn eine falsche Verteilung vorliegt q{ displaystyle q} wird angenommen, w\u00e4hrend die Daten tats\u00e4chlich einer Verteilung folgen p{ displaystyle p}. Deshalb wird die Erwartung \u00fcber die wahre Wahrscheinlichkeitsverteilung \u00fcbernommen p{ displaystyle p} und nicht q{ displaystyle q}. In der Tat die erwartete Nachrichtenl\u00e4nge unter der wahren Verteilung p{ displaystyle p} ist,E.p\u2061[l]=– –E.p\u2061[ln\u2061q(x)ln\u2061(2)]=– –E.p\u2061[log2\u2061q(x)]=– –\u2211xichp((xich)Log2\u2061q((xich)=– –\u2211xp((x)Log2\u2061q((x)=H.((p,q){ displaystyle operatorname {E} _ {p}[l]= – operatorname {E} _ {p} left[{frac {ln {q(x)}}{ln(2)}}right]= – operatorname {E} _ {p} left[log _{2}{q(x)}right]= – sum _ {x_ {i}} p (x_ {i}) , log _ {2} {q (x_ {i})} = – sum _ {x} p (x) , log _ {2} q (x) = H (p, q)}Einsch\u00e4tzung[edit]Es gibt viele Situationen, in denen die Kreuzentropie gemessen werden muss, aber die Verteilung von p{ displaystyle p} ist unbekannt. Ein Beispiel ist die Sprachmodellierung, bei der ein Modell basierend auf einem Trainingssatz erstellt wird T.{ displaystyle T}und dann wird seine Kreuzentropie an einem Testsatz gemessen, um zu bewerten, wie genau das Modell die Testdaten vorhersagt. In diesem Beispiel p{ displaystyle p} ist die wahre Verteilung von W\u00f6rtern in jedem Korpus, und q{ displaystyle q} ist die vom Modell vorhergesagte Verteilung von W\u00f6rtern. Da die wahre Verteilung unbekannt ist, kann die Kreuzentropie nicht direkt berechnet werden. In diesen F\u00e4llen wird eine Sch\u00e4tzung der Kreuzentropie unter Verwendung der folgenden Formel berechnet:H.((T.,q)=– –\u2211ich=1N.1N.Log2\u2061q((xich){ displaystyle H (T, q) = – sum _ {i = 1} ^ {N} { frac {1} {N}} log _ {2} q (x_ {i})}wo N.{ displaystyle N} ist die Gr\u00f6\u00dfe des Testsatzes und q((x){ displaystyle q (x)} ist die Wahrscheinlichkeit eines Ereignisses x{ displaystyle x} gesch\u00e4tzt aus dem Trainingssatz. Die Summe wird \u00fcber berechnet N.{ displaystyle N}. Dies ist eine Monte-Carlo-Sch\u00e4tzung der tats\u00e4chlichen Kreuzentropie, bei der der Testsatz als Proben aus behandelt wird p((x){ displaystyle p (x)}[citation needed].Beziehung zur Log-Wahrscheinlichkeit[edit]Bei Klassifizierungsproblemen wollen wir die Wahrscheinlichkeit unterschiedlicher Ergebnisse absch\u00e4tzen. Wenn die gesch\u00e4tzte Wahrscheinlichkeit des Ergebnisses ich{ displaystyle i} ist qich{ displaystyle q_ {i}}, w\u00e4hrend die H\u00e4ufigkeit (empirische Wahrscheinlichkeit) des Ergebnisses ich{ displaystyle i} im Trainingsset ist pich{ displaystyle p_ {i}}und es gibt N bedingt unabh\u00e4ngige Stichproben im Trainingssatz, dann ist die Wahrscheinlichkeit des Trainingssatzes\u220fich((Wahrscheinlichkeit von ich)Anzahl der Vorkommen von ich=\u220fichqichN.pich{ displaystyle prod _ {i} ({ mbox {Wahrscheinlichkeit von}} i) ^ {{ mbox {Anzahl der Vorkommen von}} i} = prod _ {i} q_ {i} ^ {Np_ {i }}}also die log-Wahrscheinlichkeit geteilt durch N.{ displaystyle N} ist1N.Log\u2061\u220fichqichN.pich=\u2211ichpichLog\u2061qich=– –H.((p,q){ displaystyle { frac {1} {N}} log prod _ {i} q_ {i} ^ {Np_ {i}} = sum _ {i} p_ {i} log q_ {i} = -H (p, q)}Das Maximieren der Wahrscheinlichkeit entspricht dem Minimieren der Kreuzentropie.Kreuzentropieminimierung[edit]Die Kreuzentropieminimierung wird h\u00e4ufig bei der Optimierung und der Wahrscheinlichkeitssch\u00e4tzung f\u00fcr seltene Ereignisse verwendet. Beim Vergleich einer Verteilung q{ displaystyle q} gegen eine feste Referenzverteilung p{ displaystyle p}Kreuzentropie und KL-Divergenz sind bis zu einer additiven Konstante identisch (seit p{ displaystyle p} ist fest): beide nehmen ihre Minimalwerte an, wenn p=q{ displaystyle p = q}, welches ist 0{ displaystyle 0} f\u00fcr KL-Divergenz und H.((p){ displaystyle mathrm {H} (p)} f\u00fcr Kreuzentropie.[1] In der technischen Literatur wird das Prinzip der Minimierung der KL-Divergenz (Kullbacks “Prinzip der minimalen Diskriminierungsinformation”) h\u00e4ufig als das bezeichnet Prinzip der minimalen Kreuzentropie (MCE) oder Minxent.Wie im Artikel beschrieben Kullback-Leibler-Divergenz, manchmal die Verteilung q{ displaystyle q} ist die feste vorherige Referenzverteilung und die Verteilung p{ displaystyle p} ist optimiert, um so nah wie m\u00f6glich zu sein q{ displaystyle q} m\u00f6glichst vorbehaltlich einiger Einschr\u00e4nkungen. In diesem Fall sind die beiden Minimierungen nicht \u00c4quivalent. Dies hat zu einigen Unklarheiten in der Literatur gef\u00fchrt, wobei einige Autoren versuchten, die Inkonsistenz durch Neudefinition der Kreuzentropie zu l\u00f6sen D.K.L.((p\u2016q){ displaystyle D _ { mathrm {KL}} (p | q)}, eher, als H.((p,q){ displaystyle H (p, q)}.Entropie\u00fcbergreifende Verlustfunktion und logistische Regression[edit]Cross-Entropy kann verwendet werden, um eine Verlustfunktion beim maschinellen Lernen und Optimieren zu definieren. Die wahre Wahrscheinlichkeit pich{ displaystyle p_ {i}} ist das wahre Etikett und die gegebene Verteilung qich{ displaystyle q_ {i}} ist der vorhergesagte Wert des aktuellen Modells.Betrachten Sie insbesondere die logistische Regression, mit der (unter anderem) Beobachtungen in zwei m\u00f6gliche Klassen eingeteilt werden k\u00f6nnen (h\u00e4ufig einfach gekennzeichnet) 0{ displaystyle 0} und 1{ displaystyle 1}). Die Ausgabe des Modells f\u00fcr eine bestimmte Beobachtung bei einem Vektor von Eingabemerkmalen x{ displaystyle x}kann als Wahrscheinlichkeit interpretiert werden, die als Grundlage f\u00fcr die Klassifizierung der Beobachtung dient. Die Wahrscheinlichkeit wird mithilfe der Logistikfunktion modelliert G((z)=1\/.((1+e– –z){ displaystyle g (z) = 1 \/ (1 + e ^ {- z})} wo z{ displaystyle z} ist eine Funktion des Eingabevektors x{ displaystyle x}, \u00fcblicherweise nur eine lineare Funktion. Die Wahrscheinlichkeit der Ausgabe y=1{ displaystyle y = 1} ist gegeben durchqy=1 = y^ \u2261 G((w\u22c5x) =1\/.((1+e– –w\u22c5x),{ displaystyle q_ {y = 1} = { hat {y}} equiv g ( mathbf {w} cdot mathbf {x}) = 1 \/ (1 + e ^ {- mathbf {w} cdot mathbf {x}}),}wo der Vektor der Gewichte w{ displaystyle mathbf {w}} wird durch einen geeigneten Algorithmus wie den Gradientenabstieg optimiert. Ebenso die komplement\u00e4re Wahrscheinlichkeit, die Ausgabe zu finden y=0{ displaystyle y = 0} ist einfach gegeben durchqy=0 = 1– –y^{ displaystyle q_ {y = 0} = 1 – { hat {y}}}Nachdem wir unsere Notation eingerichtet haben, p\u2208{y,1– –y}}{ displaystyle p in {y, 1-y }} und q\u2208{y^,1– –y^}}{ displaystyle q in {{ hat {y}}, 1 – { hat {y}} }}k\u00f6nnen wir Kreuzentropie verwenden, um ein Ma\u00df f\u00fcr die Un\u00e4hnlichkeit zwischen zu erhalten p{ displaystyle p} und q{ displaystyle q}::H.((p,q) = – –\u2211ichpichLog\u2061qich = – –yLog\u2061y^– –((1– –y)Log\u2061((1– –y^){ displaystyle H (p, q) = – sum _ {i} p_ {i} log q_ {i} = -y log { hat {y}} – (1-y) log (1 – { hat {y}})}Die logistische Regression optimiert normalerweise den logarithmischen Verlust f\u00fcr alle Beobachtungen, auf die er trainiert wird. Dies entspricht der Optimierung der durchschnittlichen Kreuzentropie in der Stichprobe. Nehmen wir zum Beispiel an, wir haben N.{ displaystyle N} Proben mit jeder Probe indiziert durch n=1,\u2026,N.{ displaystyle n = 1, dots, N}. Das durchschnittlich der Verlustfunktion ist dann gegeben durch:J.((w) = 1N.\u2211n=1N.H.((pn,qn) = – –1N.\u2211n=1N. [ynlog\u2061y^n+(1\u2212yn)log\u2061(1\u2212y^n)],{ displaystyle { begin {align} J ( mathbf {w}) & = { frac {1} {N}} sum _ {n = 1} ^ {N} H (p_ {n}, q_ {n}) = – { frac {1} {N}} sum _ {n = 1} ^ {N} { bigg [}y_{n}log {hat {y}}_{n}+(1-y_{n})log(1-{hat {y}}_{n}){bigg ]} ,, end {align}}}wo y^n\u2261G((w\u22c5xn)=1\/.((1+e– –w\u22c5xn){ displaystyle { hat {y}} _ {n} equiv g ( mathbf {w} cdot mathbf {x} _ {n}) = 1 \/ (1 + e ^ {- mathbf {w} cdot mathbf {x} _ {n}})}mit G((z){ displaystyle g (z)} die logistische Funktion wie zuvor.Der logistische Verlust wird manchmal als Kreuzentropieverlust bezeichnet. Dies wird auch als Protokollverlust bezeichnet (in diesem Fall wird die bin\u00e4re Bezeichnung h\u00e4ufig mit {-1, + 1} bezeichnet).[2]Anmerkung: Der Gradient des Kreuzentropieverlusts f\u00fcr die logistische Regression ist der gleiche wie der Gradient des quadratischen Fehlerverlusts f\u00fcr die lineare Regression. Das hei\u00dft, definierenX.T.=((1x11\u2026x1p1x21\u2026x2p\u20261xn1\u2026xnp)\u2208R.n\u00d7((p+1){ displaystyle X ^ {T} = { begin {pmatrix} 1 & x_ {11} & dots & x_ {1p} \\ 1 & x_ {21} & dots & x_ {2p} \\ && dots \\ 1 & x_ {n1} & dots & x_ {np} \\ end {pmatrix}} in mathbb {R} ^ {n times (p + 1)}}yich^=f^((xich1,\u2026,xichp)=11+exp((– –\u03b20– –\u03b21xich1– –\u22ef– –\u03b2pxichp){ displaystyle { hat {y_ {i}}} = { hat {f}} (x_ {i1}, dots, x_ {ip}) = { frac {1} {1 + exp (- beta _ {0} – beta _ {1} x_ {i1} – dots – beta _ {p} x_ {ip})}}L.((\u03b2\u2192)=– –\u2211ich=1N.[yilog\u2061y^i+(1\u2212yi)log\u2061(1\u2212y^i)]{ displaystyle L ({ overrightarrow { beta}}) = – sum _ {i = 1} ^ {N}[y^{i}log {hat {y}}^{i}+(1-y^{i})log(1-{hat {y}}^{i})]}}Dann haben wir das Ergebnis\u2202\u2202\u03b2\u2192L.((\u03b2\u2192)=X.((Y.^– –Y.){ displaystyle { frac { partiell} { partiell { overrightarrow { beta}}}} L ({ overrightarrow { beta}}) = X ({ hat {Y}} – Y)}Der Beweis ist wie folgt. F\u00fcr jeden y^ich{ displaystyle { hat {y}} ^ {i}}, wir haben\u2202\u2202\u03b20ln\u206111+e– –\u03b20+k0=e– –\u03b20+k01+e– –\u03b20+k0{ displaystyle { frac { partiell} { partiell beta _ {0}}} ln { frac {1} {1 + e ^ {- beta _ {0} + k_ {0}}}} = { frac {e ^ {- beta _ {0} + k_ {0}}} {1 + e ^ {- beta _ {0} + k_ {0}}}}\u2202\u2202\u03b20ln\u2061((1– –11+e– –\u03b20+k0)=– –11+e– –\u03b20+k0{ displaystyle { frac { partiell} { partiell beta _ {0}} ln left (1 – { frac {1} {1 + e ^ {- beta _ {0} + k_ { 0}}}} right) = { frac {-1} {1 + e ^ {- beta _ {0} + k_ {0}}}}\u2202\u2202\u03b20L.((\u03b2\u2192)=– –\u2211ich=1N.[yi\u22c5e\u2212\u03b20+k01+e\u2212\u03b20+k0\u2212(1\u2212yi)11+e\u2212\u03b20+k0]=– –\u2211ich=1N.[yi\u2212y^i]=\u2211ich=1N.((y^ich– –yich){ displaystyle { begin {align} { frac { teilweise} { teilweise beta _ {0}}} L ({ overrightarrow { beta}}) & = – sum _ {i = 1} ^ {N} left[{frac {y^{i}cdot e^{-beta _{0}+k_{0}}}{1+e^{-beta _{0}+k_{0}}}}-(1-y^{i}){frac {1}{1+e^{-beta _{0}+k_{0}}}}right]\\ & = – sum _ {i = 1} ^ {N}[y^{i}-{hat {y}}^{i}]= sum _ {i = 1} ^ {N} ({ hat {y}} ^ {i} -y ^ {i}) end {align}}}\u2202\u2202\u03b21ln\u206111+e– –\u03b21xich1+k1=xich1ek1e\u03b21xich1+ek1{ displaystyle { frac { partiell} { partiell beta _ {1}} ln { frac {1} {1 + e ^ {- beta _ {1} x_ {i1} + k_ {1 }}}} = { frac {x_ {i1} e ^ {k_ {1}}} {e ^ { beta _ {1} x_ {i1}} + e ^ {k_ {1}}}}\u2202\u2202\u03b21ln\u2061[1\u221211+e\u2212\u03b21xi1+k1]=– –xich1e\u03b21xich1e\u03b21xich1+ek1{ displaystyle { frac { teilweise} { teilweise beta _ {1}}} ln left[1-{frac {1}{1+e^{-beta _{1}x_{i1}+k_{1}}}}right]= { frac {-x_ {i1} e ^ { beta _ {1} x_ {i1}}} {e ^ { beta _ {1} x_ {i1}} + e ^ {k_ {1}}} }}\u2202\u2202\u03b21L.((\u03b2\u2192)=– –\u2211ich=1N.xich1((yich– –y^ich)=\u2211ich=1N.xich1((y^ich– –yich){ displaystyle { frac { partiell} { partiell beta _ {1}}} L ({ overrightarrow { beta}}) = – sum _ {i = 1} ^ {N} x_ {i1} (y ^ {i} – { hat {y}} ^ {i}) = sum _ {i = 1} ^ {N} x_ {i1} ({ hat {y}} ^ {i} -y ^ {i})}In \u00e4hnlicher Weise erhalten wir schlie\u00dflich das gew\u00fcnschte Ergebnis.Siehe auch[edit]Verweise[edit]^ Ian Goodfellow, Yoshua Bengio und Aaron Courville (2016). Tiefes Lernen. MIT Press. Online^ Murphy, Kevin (2012). Maschinelles Lernen: Eine probabilistische Perspektive. MIT. ISBN 978-0262018029.Externe Links[edit] (adsbygoogle = window.adsbygoogle || []).push({});after-content-x4"},{"@context":"http:\/\/schema.org\/","@type":"BreadcrumbList","itemListElement":[{"@type":"ListItem","position":1,"item":{"@id":"https:\/\/wiki.edu.vn\/wiki13\/#breadcrumbitem","name":"Enzyklop\u00e4die"}},{"@type":"ListItem","position":2,"item":{"@id":"https:\/\/wiki.edu.vn\/wiki13\/2020\/12\/26\/kreuzentropie-wikipedia\/#breadcrumbitem","name":"Kreuzentropie – Wikipedia"}}]}]