[{"@context":"http:\/\/schema.org\/","@type":"BlogPosting","@id":"https:\/\/wiki.edu.vn\/wiki11\/2020\/12\/24\/verstarkungslernen-wikipedia\/#BlogPosting","mainEntityOfPage":"https:\/\/wiki.edu.vn\/wiki11\/2020\/12\/24\/verstarkungslernen-wikipedia\/","headline":"Verst\u00e4rkungslernen &#8211; Wikipedia","name":"Verst\u00e4rkungslernen &#8211; Wikipedia","description":"before-content-x4 Verst\u00e4rkungslernen ((RL) ist ein Bereich des maschinellen Lernens, in dem es darum geht, wie Software-Agenten in einer Umgebung Ma\u00dfnahmen","datePublished":"2020-12-24","dateModified":"2020-12-24","author":{"@type":"Person","@id":"https:\/\/wiki.edu.vn\/wiki11\/author\/lordneo\/#Person","name":"lordneo","url":"https:\/\/wiki.edu.vn\/wiki11\/author\/lordneo\/","image":{"@type":"ImageObject","@id":"https:\/\/secure.gravatar.com\/avatar\/44a4cee54c4c053e967fe3e7d054edd4?s=96&d=mm&r=g","url":"https:\/\/secure.gravatar.com\/avatar\/44a4cee54c4c053e967fe3e7d054edd4?s=96&d=mm&r=g","height":96,"width":96}},"publisher":{"@type":"Organization","name":"Enzyklop\u00e4die","logo":{"@type":"ImageObject","@id":"https:\/\/wiki.edu.vn\/wiki4\/wp-content\/uploads\/2023\/08\/download.jpg","url":"https:\/\/wiki.edu.vn\/wiki4\/wp-content\/uploads\/2023\/08\/download.jpg","width":600,"height":60}},"image":{"@type":"ImageObject","@id":"https:\/\/upload.wikimedia.org\/wikipedia\/commons\/thumb\/1\/1b\/Reinforcement_learning_diagram.svg\/250px-Reinforcement_learning_diagram.svg.png","url":"https:\/\/upload.wikimedia.org\/wikipedia\/commons\/thumb\/1\/1b\/Reinforcement_learning_diagram.svg\/250px-Reinforcement_learning_diagram.svg.png","height":"242","width":"250"},"url":"https:\/\/wiki.edu.vn\/wiki11\/2020\/12\/24\/verstarkungslernen-wikipedia\/","wordCount":18974,"articleBody":"     (adsbygoogle = window.adsbygoogle || []).push({});before-content-x4Verst\u00e4rkungslernen ((RL) ist ein Bereich des maschinellen Lernens, in dem es darum geht, wie Software-Agenten in einer Umgebung Ma\u00dfnahmen ergreifen sollten, um den Begriff der kumulativen Belohnung zu maximieren.  Reinforcement Learning ist neben \u00fcberwachtem und unbeaufsichtigtem Lernen eines von drei grundlegenden Paradigmen des maschinellen Lernens.       (adsbygoogle = window.adsbygoogle || []).push({});after-content-x4Das Reinforcement-Lernen unterscheidet sich vom \u00fcberwachten Lernen darin, dass keine gekennzeichneten Eingabe \/ Ausgabe-Paare pr\u00e4sentiert werden m\u00fcssen und keine suboptimalen Aktionen explizit korrigiert werden m\u00fcssen.  Stattdessen liegt der Schwerpunkt auf der Suche nach einem Gleichgewicht zwischen Exploration (Neuland) und Ausbeutung (nach aktuellem Kenntnisstand).[1]Die Umgebung wird typischerweise in Form eines Markov-Entscheidungsprozesses (MDP) angegeben, da viele Verst\u00e4rkungslernalgorithmen f\u00fcr diesen Kontext dynamische Programmiertechniken verwenden.[2]  Der Hauptunterschied zwischen den klassischen dynamischen Programmiermethoden und den Verst\u00e4rkungslernalgorithmen besteht darin, dass letztere keine Kenntnis eines genauen mathematischen Modells des MDP voraussetzen und auf gro\u00dfe MDPs abzielen, bei denen genaue Methoden nicht mehr durchf\u00fchrbar sind.Table of Contents       (adsbygoogle = window.adsbygoogle || []).push({});after-content-x4Einf\u00fchrung[edit]Erkundung[edit]Algorithmen zum Kontrolllernen[edit]Kriterium der Optimalit\u00e4t[edit]Politik[edit]Zustandswertfunktion[edit]Brute force[edit]Wertfunktion[edit]Monte-Carlo-Methoden[edit]Zeitliche Differenzmethoden[edit]Direkte Richtliniensuche[edit]Forschung[edit]Vergleich von Verst\u00e4rkungslernalgorithmen[edit]Assoziatives Verst\u00e4rkungslernen[edit]Tiefes Verst\u00e4rkungslernen[edit]Inverses Verst\u00e4rkungslernen[edit]Sicheres Verst\u00e4rkungslernen[edit]Siehe auch[edit]Verweise[edit]Weiterf\u00fchrende Literatur[edit]Externe Links[edit]Einf\u00fchrung[edit]  Der typische Rahmen eines RL-Szenarios (Reinforcement Learning): Ein Agent f\u00fchrt Aktionen in einer Umgebung aus, die als Belohnung und Darstellung des Zustands interpretiert werden und an den Agenten zur\u00fcckgemeldet werden.Aufgrund seiner Allgemeinheit wird das verst\u00e4rkte Lernen in vielen Disziplinen untersucht, wie z. B. Spieltheorie, Steuerungstheorie, Operationsforschung, Informationstheorie, simulationsbasierte Optimierung, Multiagentensysteme, Schwarmintelligenz und Statistik.  In der Literatur zu Operations Research und Control wird das Lernen der Verst\u00e4rkung genannt ungef\u00e4hre dynamische Programmierung, oder neurodynamische Programmierung. Die Probleme, die f\u00fcr das verst\u00e4rkte Lernen von Interesse sind, wurden auch in der Theorie der optimalen Steuerung untersucht, die sich haupts\u00e4chlich mit der Existenz und Charakterisierung optimaler L\u00f6sungen und Algorithmen f\u00fcr ihre genaue Berechnung befasst, und weniger mit dem Lernen oder der Ann\u00e4herung, insbesondere in Abwesenheit von ein mathematisches Modell der Umwelt.  In der Wirtschafts- und Spieltheorie kann das verst\u00e4rkte Lernen verwendet werden, um zu erkl\u00e4ren, wie unter begrenzter Rationalit\u00e4t ein Gleichgewicht entstehen kann.Die grundlegende Verst\u00e4rkung wird als Markov-Entscheidungsprozess (MDP) modelliert:Ein Verst\u00e4rkungslernmittel interagiert in diskreten Zeitschritten mit seiner Umgebung.  Zu jeder Zeit terh\u00e4lt der Agent den aktuellen Status        (adsbygoogle = window.adsbygoogle || []).push({});after-content-x4st{ displaystyle s_ {t}}  und belohnen rt{ displaystyle r_ {t}}.  Anschlie\u00dfend wird eine Aktion ausgew\u00e4hlt eint{ displaystyle a_ {t}}  aus dem Satz verf\u00fcgbarer Aktionen, die anschlie\u00dfend an die Umgebung gesendet werden.  Die Umgebung bewegt sich in einen neuen Zustand st+1{ displaystyle s_ {t + 1}}  und die Belohnung rt+1{ displaystyle r_ {t + 1}}  in Verbindung mit \u00dcberleitung ((st,eint,st+1){ displaystyle (s_ {t}, a_ {t}, s_ {t + 1})}  festgestellt wird.  Das Ziel eines Verst\u00e4rkungslernagenten ist es, a zu lernen Politik:: \u03c0::EIN\u00d7S.\u2192[0,1]{ displaystyle  pi: A  times S  rightarrow [0,1]}}, \u03c0((ein,s)=Pr((eint=ein\u2223st=s){ displaystyle  pi (a, s) =  Pr (a_ {t} = a  mid s_ {t} = s)}  Dies maximiert die erwartete kumulative Belohnung.Bei der Formulierung des Problems als MDP wird davon ausgegangen, dass der Agent den aktuellen Umgebungszustand direkt beobachtet.  in diesem Fall soll das Problem haben volle Beobachtbarkeit.  Wenn der Agent nur Zugriff auf eine Teilmenge von Zust\u00e4nden hat oder wenn die beobachteten Zust\u00e4nde durch Rauschen verf\u00e4lscht sind, wird der Agent als solche bezeichnet teilweise Beobachtbarkeitund formal muss das Problem als teilweise beobachtbarer Markov-Entscheidungsprozess formuliert werden.  In beiden F\u00e4llen kann der dem Agenten zur Verf\u00fcgung stehende Aktionssatz eingeschr\u00e4nkt werden.  Beispielsweise k\u00f6nnte der Status eines Kontostands auf positiv beschr\u00e4nkt werden.  Wenn der aktuelle Wert des Zustands 3 ist und der Zustands\u00fcbergang versucht, den Wert um 4 zu verringern, ist der \u00dcbergang nicht zul\u00e4ssig.Wenn die Leistung des Agenten mit der eines Agenten verglichen wird, der optimal handelt, f\u00fchrt der Leistungsunterschied zu der Vorstellung von Bedauern.  Um nahezu optimal zu handeln, muss der Agent \u00fcber die langfristigen Konsequenzen seiner Handlungen nachdenken (dh das zuk\u00fcnftige Einkommen maximieren), obwohl die damit verbundene unmittelbare Belohnung negativ sein kann.Daher ist das verst\u00e4rkte Lernen besonders gut f\u00fcr Probleme geeignet, die einen langfristigen oder einen kurzfristigen Kompromiss zwischen Belohnungen beinhalten.  Es wurde erfolgreich auf verschiedene Probleme angewendet, einschlie\u00dflich Robotersteuerung, Aufzugsplanung, Telekommunikation, Backgammon, Kontrolleure und Go (AlphaGo).Zwei Elemente machen das Lernen zur Verst\u00e4rkung leistungsf\u00e4hig: die Verwendung von Stichproben zur Optimierung der Leistung und die Verwendung der Funktionsn\u00e4herung zur Bew\u00e4ltigung gro\u00dfer Umgebungen.  Dank dieser beiden Schl\u00fcsselkomponenten kann das verst\u00e4rkte Lernen in gro\u00dfen Umgebungen in den folgenden Situationen eingesetzt werden:Ein Modell der Umgebung ist bekannt, eine analytische L\u00f6sung ist jedoch nicht verf\u00fcgbar.Es wird nur ein Simulationsmodell der Umgebung angegeben (Gegenstand der simulationsbasierten Optimierung).[4]Die einzige M\u00f6glichkeit, Informationen \u00fcber die Umgebung zu sammeln, besteht darin, mit ihr zu interagieren.Die ersten beiden dieser Probleme k\u00f6nnten als Planungsprobleme angesehen werden (da irgendeine Form von Modell verf\u00fcgbar ist), w\u00e4hrend das letzte als echtes Lernproblem angesehen werden k\u00f6nnte.  Durch das verst\u00e4rkte Lernen werden jedoch beide Planungsprobleme in Probleme des maschinellen Lernens umgewandelt.Erkundung[edit]Der Kompromiss zwischen Exploration und Exploitation wurde am gr\u00fcndlichsten anhand des Problems der mehrarmigen Banditen und f\u00fcr MDPs im endlichen Staatsraum in Burnetas und Katehakis (1997) untersucht.[5]Verst\u00e4rkungslernen erfordert clevere Erkundungsmechanismen.  Die zuf\u00e4llige Auswahl von Aktionen ohne Bezugnahme auf eine gesch\u00e4tzte Wahrscheinlichkeitsverteilung zeigt eine schlechte Leistung.  Der Fall von (kleinen) endlichen Markov-Entscheidungsprozessen ist relativ gut verstanden.  Aufgrund des Fehlens von Algorithmen, die sich gut mit der Anzahl der Zust\u00e4nde skalieren lassen (oder auf Probleme mit unendlichen Zustandsr\u00e4umen skalieren lassen), sind einfache Erkundungsmethoden am praktischsten.Eine solche Methode ist \u03b5{ displaystyle  varepsilon}-greedy, wo 0\u03b5{ displaystyle 1-  varepsilon}wird die Ausbeutung ausgew\u00e4hlt, und der Agent w\u00e4hlt die Aktion aus, von der er glaubt, dass sie den besten langfristigen Effekt hat (die Verbindungen zwischen den Aktionen werden nach dem Zufallsprinzip gleichm\u00e4\u00dfig unterbrochen).  Alternativ mit Wahrscheinlichkeit \u03b5{ displaystyle  varepsilon}wird die Erkundung ausgew\u00e4hlt und die Aktion wird gleichm\u00e4\u00dfig zuf\u00e4llig ausgew\u00e4hlt. \u03b5{ displaystyle  varepsilon}  ist normalerweise ein fester Parameter, kann jedoch entweder nach einem Zeitplan (wodurch der Agent zunehmend weniger erforscht) oder adaptiv basierend auf Heuristiken angepasst werden.[6]Algorithmen zum Kontrolllernen[edit]Selbst wenn das Thema Exploration nicht ber\u00fccksichtigt wird und selbst wenn der Staat beobachtbar war (im Folgenden angenommen), bleibt das Problem, die Erfahrungen der Vergangenheit zu nutzen, um herauszufinden, welche Ma\u00dfnahmen zu h\u00f6heren kumulativen Belohnungen f\u00fchren.Kriterium der Optimalit\u00e4t[edit]Politik[edit]Die Aktionsauswahl des Agenten wird als aufgerufene Karte modelliert Politik::\u03c0::EIN\u00d7S.\u2192[0,1]{ displaystyle  pi: A  times S  rightarrow [0,1]}}\u03c0((ein,s)=Pr((eint=ein\u2223st=s){ displaystyle  pi (a, s) =  Pr (a_ {t} = a  mid s_ {t} = s)}Die Richtlinien\u00fcbersicht gibt die Wahrscheinlichkeit an, Ma\u00dfnahmen zu ergreifen ein{ displaystyle a}  wenn im Zustand s{ displaystyle s}.[7]::61  Es gibt auch nicht-probabilistische Richtlinien.Zustandswertfunktion[edit]Wertfunktion V.\u03c0((s){ displaystyle V _ { pi} (s)}  ist definiert als die erwartete R\u00fcckkehr beginnend mit Zustand s{ displaystyle s}dh s0=s{ displaystyle s_ {0} = s}und nacheinander Politik folgen \u03c0{ displaystyle  pi}.  Grob gesagt sch\u00e4tzt die Wertfunktion, &#8220;wie gut&#8221; es ist, in einem bestimmten Zustand zu sein.[7]::60V.\u03c0((s)=E.\u2061[R]=E.\u2061[\u2211t=0\u221e\u03b3trt\u2223s0=s],{ displaystyle V _ { pi} (s) =  operatorname {E} [R]=  operatorname {E}  left[sum _{t=0}^{infty }gamma ^{t}r_{t}mid s_{0}=sright],}wo die Zufallsvariable R.{ displaystyle R}  bezeichnet die R\u00fcckkehrund ist definiert als die Summe zuk\u00fcnftiger diskontierter Belohnungen (Gamma ist kleiner als 1, wenn ein bestimmter Zustand \u00e4lter wird, wird seine Auswirkung auf die sp\u00e4teren Zust\u00e4nde immer geringer. Daher diskontieren wir seine Wirkung).R.=\u2211t=0\u221e\u03b3trt,{ displaystyle R =  sum _ {t = 0} ^ { infty}  gamma ^ {t} r_ {t},}wo rt{ displaystyle r_ {t}}  ist die Belohnung im Schritt t{ displaystyle t}, \u03b3\u2208[0,1){displaystyle gamma in [0,1)} is the discount-rate.The algorithm must find a policy with maximum expected return. From the theory of MDPs it is known that, without loss of generality, the search can be restricted to the set of so-called stationary policies. A policy is stationary if the action-distribution returned by it depends only on the last state visited (from the observation agent&#8217;s history). The search can be further restricted to deterministic stationary policies. A deterministic stationary policy deterministically selects actions based on the current state. Since any such policy can be identified with a mapping from the set of states to the set of actions, these policies can be identified with such mappings with no loss of generality.Brute force[edit]Der Brute-Force-Ansatz umfasst zwei Schritte:F\u00fcr jede m\u00f6gliche Richtlinie wird ein Beispiel zur\u00fcckgegeben, w\u00e4hrend sie befolgt wirdW\u00e4hlen Sie die Richtlinie mit der gr\u00f6\u00dften erwarteten RenditeEin Problem dabei ist, dass die Anzahl der Richtlinien gro\u00df oder sogar unendlich sein kann.  Ein weiterer Grund ist, dass die Varianz der Renditen gro\u00df sein kann, was viele Stichproben erfordert, um die Rendite jeder Police genau abzusch\u00e4tzen.Diese Probleme k\u00f6nnen behoben werden, wenn wir eine bestimmte Struktur annehmen und zulassen, dass aus einer Richtlinie generierte Stichproben die f\u00fcr andere vorgenommenen Sch\u00e4tzungen beeinflussen.  Die beiden Hauptans\u00e4tze, um dies zu erreichen, sind die Sch\u00e4tzung der Wertfunktionen und die direkte Suche nach Richtlinien.Wertfunktion[edit]Wertfunktionsans\u00e4tze versuchen, eine Richtlinie zu finden, die die Rendite maximiert, indem eine Reihe von Sch\u00e4tzungen der erwarteten Renditen f\u00fcr einige Richtlinien (normalerweise entweder die &#8220;aktuelle&#8221;) beibehalten werden. [on-policy] oder das Optimum [off-policy] einer).Diese Methoden st\u00fctzen sich auf die Theorie der MDPs, bei der die Optimalit\u00e4t in einem Sinne definiert wird, der st\u00e4rker ist als der oben genannte: Eine Richtlinie wird als optimal bezeichnet, wenn sie die bestm\u00f6gliche Rendite erzielt irgendein Anfangszustand (dh Anfangsverteilungen spielen in dieser Definition keine Rolle).  Auch hier kann immer eine optimale Richtlinie unter den station\u00e4ren Richtlinien gefunden werden.Um die Optimalit\u00e4t auf formale Weise zu definieren, definieren Sie den Wert einer Richtlinie \u03c0{ displaystyle  pi}  durchV.\u03c0((s)=E.[R\u2223s,\u03c0],{ displaystyle V ^ { pi} (s) = E.[Rmid s,pi ],}wo R.{ displaystyle R}  steht f\u00fcr die mit folgendem Ergebnis verbundene R\u00fcckgabe \u03c0{ displaystyle  pi}  vom Ausgangszustand s{ displaystyle s}.  Definieren V.\u2217((s){ displaystyle V ^ {*} (s)}  als maximal m\u00f6glicher Wert von V.\u03c0((s){ displaystyle V ^ { pi} (s)}, wo \u03c0{ displaystyle  pi}  darf sich \u00e4ndern,V.\u2217((s)=max\u03c0V.\u03c0((s).{ displaystyle V ^ {*} (s) =  max _ { pi} V ^ { pi} (s).}Eine Richtlinie, die diese optimalen Werte in jedem Zustand erreicht, wird aufgerufen optimal.  Nat\u00fcrlich ist eine Politik, die in diesem starken Sinne optimal ist, auch in dem Sinne optimal, dass sie die erwartete Rendite maximiert \u03c1\u03c0{ displaystyle  rho ^ { pi}}, schon seit \u03c1\u03c0=E.[V\u03c0(S)]{ displaystyle  rho ^ { pi} = E.[V^{pi }(S)]}}, wo S.{ displaystyle S}  ist ein Zustand, der zuf\u00e4llig aus der Verteilung ausgew\u00e4hlt wurde \u03bc{ displaystyle  mu}[clarification needed].Obwohl Zustandswerte ausreichen, um die Optimalit\u00e4t zu definieren, ist es n\u00fctzlich, Aktionswerte zu definieren.  Gegeben ein Zustand s{ displaystyle s}, eine Handlung ein{ displaystyle a}  und eine Politik \u03c0{ displaystyle  pi}, der Aktionswert des Paares ((s,ein){ displaystyle (s, a)}  unter \u03c0{ displaystyle  pi}  ist definiert durchQ.\u03c0((s,ein)=E.\u2061[R\u2223s,a,\u03c0],{ displaystyle Q ^ { pi} (s, a) =  operatorname {E} [Rmid s,a,pi ], ,}wo R.{ displaystyle R}  steht nun f\u00fcr die zuf\u00e4llige R\u00fcckgabe, die mit dem ersten Ergreifen von Ma\u00dfnahmen verbunden ist ein{ displaystyle a}  im Zustand s{ displaystyle s}  und folgende \u03c0{ displaystyle  pi}, danach.Die Theorie der MDPs besagt, dass wenn \u03c0\u2217{ displaystyle  pi ^ {*}}  ist eine optimale Politik, wir handeln optimal (ergreifen die optimale Aktion), indem wir die Aktion aus ausw\u00e4hlen Q.\u03c0\u2217((s,\u22c5){ displaystyle Q ^ { pi ^ {*}} (s,  cdot)}  mit dem h\u00f6chsten Wert in jedem Zustand, s{ displaystyle s}.  Das Aktionswertfunktion einer solchen optimalen Politik (Q.\u03c0\u2217{ displaystyle Q ^ { pi ^ {*}}}) hei\u00dft das optimale Aktionswertfunktion und wird allgemein mit bezeichnet Q.\u2217{ displaystyle Q ^ {*}}.  Zusammenfassend reicht die Kenntnis der optimalen Aktionswertfunktion allein aus, um zu wissen, wie man optimal handelt.Unter der Annahme, dass das MDP vollst\u00e4ndig bekannt ist, sind die beiden grundlegenden Ans\u00e4tze zur Berechnung der optimalen Aktionswertfunktion die Wertiteration und die Richtlinieniteration.  Beide Algorithmen berechnen eine Folge von Funktionen Q.k{ displaystyle Q_ {k}}  ((k=0,1,2,\u2026{ displaystyle k = 0,1,2,  ldots}), die zu konvergieren Q.\u2217{ displaystyle Q ^ {*}}.  Das Berechnen dieser Funktionen beinhaltet das Berechnen von Erwartungen \u00fcber den gesamten Zustandsraum, was f\u00fcr alle au\u00dfer den kleinsten (endlichen) MDPs unpraktisch ist.  Bei Verst\u00e4rkungslernmethoden werden die Erwartungen durch Mittelung \u00fcber Stichproben und Verwendung von Funktionsn\u00e4herungstechniken angen\u00e4hert, um die Notwendigkeit zu bew\u00e4ltigen, Wertfunktionen \u00fcber gro\u00dfe Zustandsaktionsr\u00e4ume darzustellen.Monte-Carlo-Methoden[edit]Monte-Carlo-Methoden k\u00f6nnen in einem Algorithmus verwendet werden, der die Richtlinieniteration nachahmt.  Die Richtlinieniteration besteht aus zwei Schritten: Politikevaluierung und Verbesserung der Politik.Monte Carlo wird im Schritt der Politikbewertung verwendet.  In diesem Schritt gegeben eine station\u00e4re, deterministische Politik \u03c0{ displaystyle  pi}Ziel ist es, die Funktionswerte zu berechnen Q.\u03c0((s,ein){ displaystyle Q ^ { pi} (s, a)}  (oder eine gute Ann\u00e4herung an sie) f\u00fcr alle State-Action-Paare ((s,ein){ displaystyle (s, a)}.  Angenommen (der Einfachheit halber), dass der MDP endlich ist, dass gen\u00fcgend Speicher verf\u00fcgbar ist, um die Aktionswerte aufzunehmen, und dass das Problem episodisch ist und nach jeder Episode eine neue von einem zuf\u00e4lligen Anfangszustand ausgeht.  Dann die Sch\u00e4tzung des Wertes eines gegebenen Zustands-Aktions-Paares ((s,ein){ displaystyle (s, a)}  kann berechnet werden, indem die Stichprobenrenditen gemittelt werden, aus denen sie stammen ((s,ein){ displaystyle (s, a)}  im Laufe der Zeit.  Bei ausreichender Zeit kann dieses Verfahren somit eine genaue Sch\u00e4tzung erstellen Q.{ displaystyle Q}  der Aktionswertfunktion Q.\u03c0{ displaystyle Q ^ { pi}}.  Damit ist die Beschreibung des Richtlinienbewertungsschritts abgeschlossen.Im Schritt der Richtlinienverbesserung wird die n\u00e4chste Richtlinie durch Berechnen von a erhalten gierig Politik in Bezug auf Q.{ displaystyle Q}: Gegeben ein Zustand s{ displaystyle s}Diese neue Richtlinie gibt eine Aktion zur\u00fcck, die maximiert wird Q.((s,\u22c5){ displaystyle Q (s,  cdot)}.  In der Praxis kann eine verz\u00f6gerte Bewertung die Berechnung der Maximierungsaktionen auf den Zeitpunkt verschieben, zu dem sie ben\u00f6tigt werden.Probleme mit diesem Verfahren umfassen:Das Verfahren ben\u00f6tigt m\u00f6glicherweise zu viel Zeit f\u00fcr die Bewertung einer suboptimalen Richtlinie.Es verwendet Stichproben ineffizient, da eine lange Flugbahn nur die Sch\u00e4tzung der Daten verbessert Single State-Action-Paar, das die Flugbahn gestartet hat.Wenn die Renditen entlang der Trajektorien haben hohe VarianzKonvergenz ist langsam.Es funktioniert in episodische Probleme nur;Es funktioniert nur in kleinen, endlichen MDPs.Zeitliche Differenzmethoden[edit]Das erste Problem wird behoben, indem das Verfahren die Richtlinie (in einigen oder allen Zust\u00e4nden) \u00e4ndern kann, bevor sich die Werte einstellen.  Auch dies kann problematisch sein, da es die Konvergenz verhindern kann.  Die meisten aktuellen Algorithmen tun dies, wodurch die Klasse von entsteht verallgemeinerte Richtlinieniteration Algorithmen.  Viele Schauspieler Kritiker Methoden geh\u00f6ren zu dieser Kategorie.Das zweite Problem kann behoben werden, indem Trajektorien zu jedem Status-Aktions-Paar in ihnen beitragen k\u00f6nnen.  Dies kann in gewissem Ma\u00dfe auch beim dritten Problem helfen, obwohl eine bessere L\u00f6sung bei hoher Varianz der Ergebnisse die zeitlichen Differenzmethoden (TD) von Sutton sind, die auf der rekursiven Bellman-Gleichung basieren.[8]  Die Berechnung in TD-Methoden kann inkrementell (wenn nach jedem \u00dcbergang der Speicher ge\u00e4ndert und der \u00dcbergang weggeworfen wird) oder stapelweise (wenn die \u00dcberg\u00e4nge gestapelt und die Sch\u00e4tzungen einmal basierend auf dem Stapel berechnet werden) sein.  Batch-Methoden, wie die Methode der zeitlichen Differenz der kleinsten Quadrate,[10]  kann die Informationen in den Beispielen besser verwenden, w\u00e4hrend inkrementelle Methoden die einzige Wahl sind, wenn Batch-Methoden aufgrund ihrer hohen Rechen- oder Speicherkomplexit\u00e4t nicht durchf\u00fchrbar sind.  Einige Methoden versuchen, die beiden Ans\u00e4tze zu kombinieren.  Methoden, die auf zeitlichen Unterschieden beruhen, \u00fcberwinden auch das vierte Problem.Um das f\u00fcnfte Problem anzugehen, Funktionsn\u00e4herungsmethoden werden verwendet. Lineare Funktionsn\u00e4herung beginnt mit einem Mapping \u03d5{ displaystyle  phi}  das weist jedem Zustands-Aktions-Paar einen endlichdimensionalen Vektor zu.  Dann die Aktionswerte eines State-Action-Paares ((s,ein){ displaystyle (s, a)}  werden durch lineares Kombinieren der Komponenten von erhalten \u03d5((s,ein){ displaystyle  phi (s, a)}  mit etwas Gewichte \u03b8{ displaystyle  theta}::Q.((s,ein)=\u2211ich=1d\u03b8ich\u03d5ich((s,ein).{ displaystyle Q (s, a) =  sum _ {i = 1} ^ {d}  theta _ {i}  phi _ {i} (s, a).}Die Algorithmen passen dann die Gewichte an, anstatt die Werte anzupassen, die den einzelnen Zustands-Aktions-Paaren zugeordnet sind.  Es wurden Methoden untersucht, die auf Ideen aus nichtparametrischen Statistiken basieren (von denen gesehen werden kann, dass sie ihre eigenen Merkmale konstruieren).Die Wertiteration kann auch als Ausgangspunkt verwendet werden, wodurch der Q-Learning-Algorithmus und seine vielen Varianten entstehen.[11]Das Problem bei der Verwendung von Aktionswerten besteht darin, dass sie m\u00f6glicherweise hochpr\u00e4zise Sch\u00e4tzungen der konkurrierenden Aktionswerte ben\u00f6tigen, die bei verrauschten R\u00fcckgaben nur schwer zu erhalten sind, obwohl dieses Problem durch zeitliche Differenzmethoden in gewissem Ma\u00dfe gemindert wird.  Die Verwendung der sogenannten kompatiblen Funktionsn\u00e4herungsmethode beeintr\u00e4chtigt die Allgemeinheit und Effizienz.  Ein weiteres spezifisches Problem f\u00fcr TD ergibt sich aus der Abh\u00e4ngigkeit von der rekursiven Bellman-Gleichung.  Die meisten TD-Methoden haben eine sogenannte \u03bb{ displaystyle  lambda}  Parameter ((0\u2264\u03bb\u22641){ displaystyle (0  leq  lambda  leq 1)}  Dies kann kontinuierlich zwischen Monte-Carlo-Methoden interpolieren, die nicht auf den Bellman-Gleichungen beruhen, und den grundlegenden TD-Methoden, die vollst\u00e4ndig auf den Bellman-Gleichungen beruhen.  Dies kann bei der Linderung dieses Problems wirksam sein.Direkte Richtliniensuche[edit]Eine alternative Methode besteht darin, direkt im Richtlinienbereich (in einem Teil davon) zu suchen. In diesem Fall wird das Problem zu einem Fall stochastischer Optimierung.  Die beiden verf\u00fcgbaren Ans\u00e4tze sind gradientenbasierte und gradientenfreie Methoden.Gradientenbasierte Methoden (Richtliniengradientenmethoden) Beginnen Sie mit einer Zuordnung von einem endlichdimensionalen (Parameter-) Raum zum Raum der Richtlinien: unter Ber\u00fccksichtigung des Parametervektors \u03b8{ displaystyle  theta}, Lassen \u03c0\u03b8{ displaystyle  pi _ { theta}}  bezeichnen die damit verbundene Richtlinie \u03b8{ displaystyle  theta}.  Definieren der Leistungsfunktion durch\u03c1((\u03b8)=\u03c1\u03c0\u03b8,{ displaystyle  rho ( theta) =  rho ^ { pi _ { theta}},}Unter milden Bedingungen ist diese Funktion in Abh\u00e4ngigkeit vom Parametervektor differenzierbar \u03b8{ displaystyle  theta}.  Wenn der Gradient von \u03c1{ displaystyle  rho}  war bekannt, man k\u00f6nnte Gradientenaufstieg nutzen.  Da kein analytischer Ausdruck f\u00fcr den Gradienten verf\u00fcgbar ist, ist nur eine verrauschte Sch\u00e4tzung verf\u00fcgbar.  Eine solche Sch\u00e4tzung kann auf viele Arten erstellt werden, wodurch Algorithmen wie die REINFORCE-Methode von Williams entstehen[12]  (Dies ist in der simulationsbasierten Optimierungsliteratur als Likelihood-Ratio-Methode bekannt).[13]  Richtliniensuchmethoden wurden im Robotikkontext verwendet.[14]  Viele Richtliniensuchmethoden k\u00f6nnen in lokalen Optima stecken bleiben (da sie auf lokaler Suche basieren).Eine gro\u00dfe Klasse von Methoden vermeidet es, sich auf Gradienteninformationen zu verlassen.  Dazu geh\u00f6ren simuliertes Tempern, Kreuzentropiesuche oder Methoden der evolution\u00e4ren Berechnung.  Viele gradientenfreie Methoden k\u00f6nnen (theoretisch und im Grenzbereich) ein globales Optimum erreichen.Richtliniensuchmethoden k\u00f6nnen bei verrauschten Daten langsam konvergieren.  Dies tritt beispielsweise bei episodischen Problemen auf, wenn die Flugbahnen lang sind und die Varianz der Renditen gro\u00df ist.  In diesem Fall k\u00f6nnen wertfunktionsbasierte Methoden hilfreich sein, die auf zeitlichen Unterschieden beruhen.  In den vergangenen Jahren, Schauspieler-Kritiker-Methoden wurden vorgeschlagen und bei verschiedenen Problemen gut durchgef\u00fchrt.[15]Sowohl das asymptotische als auch das Finite-Sample-Verhalten der meisten Algorithmen ist gut bekannt.  Es sind Algorithmen mit nachweislich guter Online-Leistung (die das Explorationsproblem angehen) bekannt.Eine effiziente Erforschung von MDPs findet sich in Burnetas und Katehakis (1997).[5]  Endliche Leistungsgrenzen sind auch f\u00fcr viele Algorithmen aufgetreten, aber es wird erwartet, dass diese Grenzen ziemlich locker sind und daher mehr Arbeit erforderlich ist, um die relativen Vor- und Nachteile besser zu verstehen.F\u00fcr inkrementelle Algorithmen wurden asymptotische Konvergenzprobleme gel\u00f6st[clarification needed].  Zeitdifferenzbasierte Algorithmen konvergieren unter einem breiteren Satz von Bedingungen als bisher m\u00f6glich (z. B. bei Verwendung mit willk\u00fcrlicher, glatter Funktionsn\u00e4herung).Forschung[edit]Forschungsthemen umfassenadaptive Methoden, die unter einer Vielzahl von Bedingungen mit weniger (oder keinen) Parametern arbeitenL\u00f6sung des Explorationsproblems in gro\u00dfen MDPsKombinationen mit logikbasierten Frameworks[16]gro\u00df angelegte empirische BewertungenLernen und Handeln unter Teilinformationen (z. B. unter Verwendung einer pr\u00e4diktiven Zustandsdarstellung)modulares und hierarchisches Verst\u00e4rkungslernen[17]Verbesserung bestehender Wertfunktions- und RichtliniensuchmethodenAlgorithmen, die gut mit gro\u00dfen (oder kontinuierlichen) Aktionsr\u00e4umen funktionierenLernen \u00fcbertragen[18]lebenslanges Lerneneffiziente stichprobenbasierte Planung (z. B. basierend auf der Monte-Carlo-Baumsuche).Fehlererkennung in Softwareprojekten[19]Intrinsische Motivation, die informationssuchendes, neugieriges Verhalten von aufgabenabh\u00e4ngigem zielgerichtetem Verhalten (normalerweise) unterscheidet, indem eine Belohnungsfunktion eingef\u00fchrt wird, die auf der Maximierung neuartiger Informationen basiert[20][21][22]Die kognitive Modellierung unter Verwendung von verst\u00e4rkendem Lernen wurde in der Computerpsychologie aktiv betrieben [23]Multiagent oder verteiltes Verst\u00e4rkungslernen ist ein Thema von Interesse.  Die Anwendungen werden erweitert.[24]Schauspieler-Kritiker-Verst\u00e4rkung lernenVerst\u00e4rkungslernalgorithmen wie das TD-Lernen werden derzeit als Modell f\u00fcr das Dopamin-basierte Lernen im Gehirn untersucht.  In diesem Modell fungieren die dopaminergen Projektionen von der Substantia nigra zu den Basalganglien als Vorhersagefehler.  Das verst\u00e4rkte Lernen wurde als Teil des Modells f\u00fcr das Erlernen menschlicher F\u00e4higkeiten verwendet, insbesondere in Bezug auf die Wechselwirkung zwischen implizitem und explizitem Lernen beim Erwerb von F\u00e4higkeiten (die erste Ver\u00f6ffentlichung zu dieser Anwendung erfolgte 1995\u20131996).[25]Insassenzentrierte SteuerungVergleich von Verst\u00e4rkungslernalgorithmen[edit]AlgorithmusBeschreibungModellPolitikAktionsraumZustandsraumOperatorMonte CarloJeder Besuch in Monte CarloModellfreiEntwederDiskretDiskretProbenmittelQ-LearningZustand-Aktion-Belohnung-ZustandModellfreiOff-PolicyDiskretDiskretQ-WertSARSAZustand-Aktion-Belohnung-Zustand-AktionModellfreiOn-PolicyDiskretDiskretQ-WertQ-Learning &#8211; LambdaStaat-Aktion-Belohnung-Staat mit BerechtigungsspurenModellfreiOff-PolicyDiskretDiskretQ-WertSARSA &#8211; LambdaState-Action-Belohnung-State-Action mit BerechtigungsspurenModellfreiOn-PolicyDiskretDiskretQ-WertDQNDeep Q NetworkModellfreiOff-PolicyDiskretKontinuierlichQ-WertDDPGDeep Deterministic Policy GradientModellfreiOff-PolicyKontinuierlichKontinuierlichQ-WertA3CAsynchroner Vorteil Akteurkritischer AlgorithmusModellfreiOn-PolicyKontinuierlichKontinuierlichVorteilNAFQ-Learning mit normalisierten VorteilsfunktionenModellfreiOff-PolicyKontinuierlichKontinuierlichVorteilTRPOOptimierung der VertrauensregionenrichtlinieModellfreiOn-PolicyKontinuierlichKontinuierlichVorteilPPOProximale RichtlinienoptimierungModellfreiOn-PolicyKontinuierlichKontinuierlichVorteilTD3Twin Delayed Deep Deterministic Policy GradientModellfreiOff-PolicyKontinuierlichKontinuierlichQ-WertSACKWeicher Schauspieler-KritikerModellfreiOff-PolicyKontinuierlichKontinuierlichVorteilAssoziatives Verst\u00e4rkungslernen[edit]Assoziative Lernaufgaben zur Verst\u00e4rkung kombinieren Facetten stochastischer Lernautomatenaufgaben und \u00fcberwachter Lernmusterklassifizierungsaufgaben.  Bei assoziativen Lernaufgaben zur Verst\u00e4rkung interagiert das Lernsystem in einem geschlossenen Kreislauf mit seiner Umgebung.[26]Tiefes Verst\u00e4rkungslernen[edit]Dieser Ansatz erweitert das Verst\u00e4rkungslernen durch Verwendung eines tiefen neuronalen Netzwerks und ohne explizite Gestaltung des Zustandsraums.[27]  Die Arbeit am Erlernen von ATARI-Spielen durch Google DeepMind hat die Aufmerksamkeit auf tiefgreifendes Verst\u00e4rkungslernen oder durchg\u00e4ngiges Verst\u00e4rkungslernen erh\u00f6ht.[28]Inverses Verst\u00e4rkungslernen[edit]Beim inversen Verst\u00e4rkungslernen (IRL) wird keine Belohnungsfunktion angegeben.  Stattdessen wird die Belohnungsfunktion aufgrund eines beobachteten Verhaltens eines Experten abgeleitet.  Die Idee ist, das beobachtete Verhalten nachzuahmen, das oft optimal oder nahezu optimal ist.[29]Sicheres Verst\u00e4rkungslernen[edit]Safe Reinforcement Learning (SRL) kann als Prozess von Lernrichtlinien definiert werden, die die Erwartung der R\u00fcckkehr bei Problemen maximieren, bei denen es wichtig ist, eine angemessene Systemleistung sicherzustellen und \/ oder Sicherheitsbeschr\u00e4nkungen w\u00e4hrend des Lern- und \/ oder Bereitstellungsprozesses einzuhalten.[30]Siehe auch[edit]Verweise[edit]^ Kaelbling, Leslie P.;  Littman, Michael L.;  Moore, Andrew W. (1996). &#8220;Reinforcement Learning: Eine Umfrage&#8221;. Journal of Artificial Intelligence Research. 4: 237\u2013285.  arXiv:cs \/ 9605103.  doi:10.1613 \/ jair.301.  S2CID 1708582.  Archiviert von das Original am 20.11.2001.^ van Otterlo, M.;  Wiering, M. (2012). Verst\u00e4rkungslern- und Markov-Entscheidungsprozesse. Verst\u00e4rkungslernen.  Anpassung, Lernen und Optimierung. 12.  S. 3\u201342.  doi:10.1007 \/ 978-3-642-27645-3_1.  ISBN 978-3-642-27644-6.^ Gosavi, Abhijit (2003). Simulationsbasierte Optimierung: Parametrische Optimierungstechniken und Verst\u00e4rkung.  Reihe Operations Research \/ Computer Science Interfaces.  Springer.  ISBN 978-1-4020-7454-7.^ ein b Burnetas, Apostolos N.;  Katehakis, Michael N. (1997), &#8220;Optimale adaptive Richtlinien f\u00fcr Markov-Entscheidungsprozesse&#8221;, Mathematik der Operationsforschung, 22: 222\u2013255, doi:10.1287 \/ moor.22.1.222^ Tokic, Michel;  Palm, G\u00fcnther (2011), &#8220;Wertdifferenzbasierte Erforschung: Adaptive Kontrolle zwischen Epsilon-Greedy und Softmax&#8221; (PDF), KI 2011: Fortschritte in der k\u00fcnstlichen Intelligenz, Lecture Notes in Computer Science, 7006Springer, S. 335\u2013346, ISBN 978-3-642-24455-1^ ein b Reinforcement Learning: Eine Einf\u00fchrung (PDF).^ Sutton, Richard S. (1984). Zeitliche Kreditvergabe beim Reinforcement Learning  (Doktorarbeit).  Universit\u00e4t von Massachusetts, Amherst, MA.^ Bradtke, Steven J.;  Barto, Andrew G. (1996).  &#8220;Lernen, nach der Methode der zeitlichen Unterschiede vorherzusagen&#8221;. Maschinelles Lernen. 22: 33\u201357.  CiteSeerX 10.1.1.143.857.  doi:10.1023 \/ A: 1018056104778.  S2CID 20327856.^ Watkins, Christopher JCH (1989). Aus verz\u00f6gerten Belohnungen lernen (PDF) (Doktorarbeit).  King&#8217;s College, Cambridge, Gro\u00dfbritannien.^ Williams, Ronald J. (1987).  &#8220;Eine Klasse von Gradientensch\u00e4tzungsalgorithmen f\u00fcr das Verst\u00e4rkungslernen in neuronalen Netzen&#8221;. Vortr\u00e4ge der IEEE First International Conference on Neural Networks.  CiteSeerX 10.1.1.129.8871.^ Peters, Jan;  Vijayakumar, Sethu;  Schaal, Stefan (2003). &#8220;Verst\u00e4rkungslernen f\u00fcr humanoide Robotik&#8221; (PDF). Internationale IEEE-RAS-Konferenz \u00fcber humanoide Roboter.^ Deisenroth, Marc Peter;  Neumann, Gerhard;  Peters, Jan (2013). Eine Umfrage zur Richtliniensuche f\u00fcr Robotik (PDF).  Grundlagen und Trends in der Robotik. 2.  JETZT Verlage.  S. 1\u2013142.  doi:10.1561 \/ 2300000021.  hdl:10044\/1\/12051.^ Juliani, Arthur (17.12.2016). &#8220;Einfaches Verst\u00e4rkungslernen mit Tensorflow Teil 8: Asynchrone akteurskritische Agenten (A3C)&#8221;. Mittel.  Abgerufen 2018-02-22.^ Riveret, Regis;  Gao, Yang (2019).  &#8220;Ein probabilistischer Argumentationsrahmen f\u00fcr Verst\u00e4rkungslernmittel&#8221;. Autonome Agenten und Multi-Agent-Systeme. 33 (1\u20132): 216\u2013274.  doi:10.1007 \/ s10458-019-09404-2.  S2CID 71147890.^ Kulkarni, Tejas D.;  Narasimhan, Karthik R.;  Saeedi, Ardavan;  Tenenbaum, Joshua B. (2016). &#8220;Hierarchisches Deep Reinforcement Learning: Integration von zeitlicher Abstraktion und intrinsischer Motivation&#8221;. Vortr\u00e4ge der 30. Internationalen Konferenz \u00fcber neuronale Informationsverarbeitungssysteme.  NIPS&#8217;16.  USA: Curran Associates Inc.: 3682\u20133690.  arXiv:1604.06057.  Bibcode:2016arXiv160406057K.  ISBN 978-1-5108-3881-9.^ George Karimpanal, Thommen;  Bouffanais, Roland (2019).  &#8220;Selbstorganisierende Karten zur Speicherung und Weitergabe von Wissen beim verst\u00e4rkten Lernen&#8221;. Adaptives Verhalten. 27 (2): 111\u2013126.  arXiv:1811.08318.  doi:10.1177 \/ 1059712318818568.  ISSN 1059-7123.  S2CID 53774629.^ &#8220;\u00dcber den Einsatz von Verst\u00e4rkungslernen zum Testen der Spielmechanik: ACM &#8211; Computer in der Unterhaltung&#8221;. cie.acm.org.  Abgerufen 2018-11-27.^ Kaplan, F.;  Oudeyer, P. (2004).  &#8220;Maximierung des Lernfortschritts: ein internes Belohnungssystem f\u00fcr die Entwicklung&#8221;.  In Iida, F.;  Pfeifer, R.;  Steels, L.;  Kuniyoshi, Y. (Hrsg.). Verk\u00f6rperte k\u00fcnstliche Intelligenz.  Berlin;  Heidelberg: Springer.  S. 259\u2013270.  doi:10.1007 \/ 978-3-540-27833-7_19.^ Klyubin, A.;  Polani, D.;  Nehaniv, C. (2008).  &#8220;Halten Sie Ihre M\u00f6glichkeiten offen: ein informationsbasiertes Fahrprinzip f\u00fcr sensomotorische Systeme&#8221;. PLUS EINS. 3 (12): e4018.  doi:10.1371 \/ journal.pone.0004018.^ Barto, AG (2013).  &#8220;Eigenmotivation und verst\u00e4rkendes Lernen&#8221;. Eigenmotiviertes Lernen in nat\u00fcrlichen und k\u00fcnstlichen Systemen.  Berlin;  Heidelberg: Springer.  S. 17\u201347.^ Sun, R.;  Merrill, E.;  Peterson, T. (2001).  &#8220;Von impliziten F\u00e4higkeiten zu explizitem Wissen: Ein Bottom-up-Modell f\u00fcr das Erlernen von F\u00e4higkeiten&#8221;. Kognitionswissenschaft. 25 (2): 203\u2013244.  doi:10.1207 \/ s15516709cog2502_2.^ &#8220;Reinforcement Learning \/ Erfolge des Reinforcement Learning&#8221;. umichrl.pbworks.com.  Abgerufen 2017-08-06.^ [1]  Archiviert 26.04.2017 an der Wayback-Maschine^ Soucek, Branko. Dynamische, genetische und chaotische Programmierung: Die Computertechnologieserie der sechsten Generation.  John Wiley &#038; Sons, Inc. p.  38. ISBN 0-471-55717-X.^ Francois-Lavet, Vincent;  et al.  (2018).  &#8220;Eine Einf\u00fchrung in Deep Reinforcement Learning&#8221;. Grundlagen und Trends des maschinellen Lernens. 11 (3\u20134): 219\u2013354.  arXiv:1811.12560.  Bibcode:2018arXiv181112560F.  doi:10.1561 \/ 2200000071.  S2CID 54434537.^ Mnih, Volodymyr;  et al.  (2015). &#8220;Kontrolle auf menschlicher Ebene durch tiefgreifendes Lernen&#8221;. Natur. 518 (7540): 529\u2013533.  Bibcode:2015Natur.518..529M.  doi:10.1038 \/ nature14236.  PMID 25719670.  S2CID 205242740.^ Ng, AY;  Russell, SJ (2000). &#8220;Algorithmen f\u00fcr inverses Verst\u00e4rkungslernen&#8221; (PDF). Fortsetzung der ICML &#8217;00 -Verfahren der Siebzehnten Internationalen Konferenz \u00fcber maschinelles Lernen.  S. 663\u2013670.  ISBN 1-55860-707-2.^ Horie, Naoto;  Matsui, Tohgoroh;  Moriyama, Koichi;  Mutoh, Atsuko;  Inuzuka, Nobuhiro (18.01.2019). &#8220;Mehrzieliges sicheres Verst\u00e4rkungslernen&#8221;. K\u00fcnstliches Leben und Robotik.  doi:10.1007 \/ s10015-019-00524-2.  ISSN 1433-5298.Weiterf\u00fchrende Literatur[edit]Auer, Peter;  Jaksch, Thomas;  Ortner, Ronald (2010). &#8220;Nahezu optimale Bedauernsgrenzen f\u00fcr das verst\u00e4rkte Lernen&#8221;. Journal of Machine Learning Research. 11: 1563\u20131600.Busoniu, Lucian;  Babuska, Robert;  De Schutter, Bart;  Ernst, Damien (2010). Verst\u00e4rkungslernen und dynamische Programmierung mit Funktionsapproximatoren.  Taylor &#038; Francis CRC Press.  ISBN 978-1-4398-2108-4.Fran\u00e7ois-Lavet, Vincent;  Henderson, Peter;  Islam, Riashat;  Bellemare, Marc G.;  Pineau, Joelle (2018).  &#8220;Eine Einf\u00fchrung in Deep Reinforcement Learning&#8221;. Grundlagen und Trends des maschinellen Lernens. 11 (3\u20134): 219\u2013354.  arXiv:1811.12560.  Bibcode:2018arXiv181112560F.  doi:10.1561 \/ 2200000071.  S2CID 54434537.Powell, Warren (2007). Ungef\u00e4hre dynamische Programmierung: L\u00f6sen der Fl\u00fcche der Dimensionalit\u00e4t.  Wiley-Interscience.  ISBN 978-0-470-17155-4.Sutton, Richard S.;  Barto, Andrew G. (2018). Reinforcement Learning: Eine Einf\u00fchrung  (2. Aufl.).  MIT Press.  ISBN 978-0-262-03924-6.Sutton, Richard S. (1988). &#8220;Lernen, nach der Methode der zeitlichen Unterschiede vorherzusagen&#8221;. Maschinelles Lernen. 3: 9\u201344.  doi:10.1007 \/ BF00115009.Szita, Istvan;  Szepesvari, Csaba (2010). &#8220;Modellbasiertes Reinforcement-Lernen mit nahezu engen Explorationskomplexit\u00e4tsgrenzen&#8221; (PDF). ICML 2010.  Omnipress.  S. 1031\u20131038.  Archiviert von das Original (PDF) am 14.07.2010.Externe Links[edit]     (adsbygoogle = window.adsbygoogle || []).push({});after-content-x4"},{"@context":"http:\/\/schema.org\/","@type":"BreadcrumbList","itemListElement":[{"@type":"ListItem","position":1,"item":{"@id":"https:\/\/wiki.edu.vn\/wiki11\/#breadcrumbitem","name":"Enzyklop\u00e4die"}},{"@type":"ListItem","position":2,"item":{"@id":"https:\/\/wiki.edu.vn\/wiki11\/2020\/12\/24\/verstarkungslernen-wikipedia\/#breadcrumbitem","name":"Verst\u00e4rkungslernen &#8211; Wikipedia"}}]}]