Verstärkungslernen – Wikipedia

Verstärkungslernen ((RL) ist ein Bereich des maschinellen Lernens, in dem es darum geht, wie Software-Agenten in einer Umgebung Maßnahmen ergreifen sollten, um den Begriff der kumulativen Belohnung zu maximieren. Reinforcement Learning ist neben überwachtem und unbeaufsichtigtem Lernen eines von drei grundlegenden Paradigmen des maschinellen Lernens.

Das Reinforcement-Lernen unterscheidet sich vom überwachten Lernen darin, dass keine gekennzeichneten Eingabe / Ausgabe-Paare präsentiert werden müssen und keine suboptimalen Aktionen explizit korrigiert werden müssen. Stattdessen liegt der Schwerpunkt auf der Suche nach einem Gleichgewicht zwischen Exploration (Neuland) und Ausbeutung (nach aktuellem Kenntnisstand).[1]

Die Umgebung wird typischerweise in Form eines Markov-Entscheidungsprozesses (MDP) angegeben, da viele Verstärkungslernalgorithmen für diesen Kontext dynamische Programmiertechniken verwenden.[2] Der Hauptunterschied zwischen den klassischen dynamischen Programmiermethoden und den Verstärkungslernalgorithmen besteht darin, dass letztere keine Kenntnis eines genauen mathematischen Modells des MDP voraussetzen und auf große MDPs abzielen, bei denen genaue Methoden nicht mehr durchführbar sind.

Einführung[edit]

Der typische Rahmen eines RL-Szenarios (Reinforcement Learning): Ein Agent führt Aktionen in einer Umgebung aus, die als Belohnung und Darstellung des Zustands interpretiert werden und an den Agenten zurückgemeldet werden.

Aufgrund seiner Allgemeinheit wird das verstärkte Lernen in vielen Disziplinen untersucht, wie z. B. Spieltheorie, Steuerungstheorie, Operationsforschung, Informationstheorie, simulationsbasierte Optimierung, Multiagentensysteme, Schwarmintelligenz und Statistik. In der Literatur zu Operations Research und Control wird das Lernen der Verstärkung genannt ungefähre dynamische Programmierung, oder neurodynamische Programmierung. Die Probleme, die für das verstärkte Lernen von Interesse sind, wurden auch in der Theorie der optimalen Steuerung untersucht, die sich hauptsächlich mit der Existenz und Charakterisierung optimaler Lösungen und Algorithmen für ihre genaue Berechnung befasst, und weniger mit dem Lernen oder der Annäherung, insbesondere in Abwesenheit von ein mathematisches Modell der Umwelt. In der Wirtschafts- und Spieltheorie kann das verstärkte Lernen verwendet werden, um zu erklären, wie unter begrenzter Rationalität ein Gleichgewicht entstehen kann.

Die grundlegende Verstärkung wird als Markov-Entscheidungsprozess (MDP) modelliert:

Ein Verstärkungslernmittel interagiert in diskreten Zeitschritten mit seiner Umgebung. Zu jeder Zeit terhält der Agent den aktuellen Status

st{ displaystyle s_ {t}}

und belohnen

rt{ displaystyle r_ {t}}

. Anschließend wird eine Aktion ausgewählt

eint{ displaystyle a_ {t}}

aus dem Satz verfügbarer Aktionen, die anschließend an die Umgebung gesendet werden. Die Umgebung bewegt sich in einen neuen Zustand

st+1{ displaystyle s_ {t + 1}}

und die Belohnung

rt+1{ displaystyle r_ {t + 1}}

in Verbindung mit Überleitung

((st,eint,st+1){ displaystyle (s_ {t}, a_ {t}, s_ {t + 1})}

festgestellt wird. Das Ziel eines Verstärkungslernagenten ist es, a zu lernen Politik::

π::EIN×S.→[0,1]{ displaystyle pi: A times S rightarrow [0,1]}}

,

π((ein,s)=Pr((eint=ein∣st=s){ displaystyle pi (a, s) = Pr (a_ {t} = a mid s_ {t} = s)}

Dies maximiert die erwartete kumulative Belohnung.

Bei der Formulierung des Problems als MDP wird davon ausgegangen, dass der Agent den aktuellen Umgebungszustand direkt beobachtet. in diesem Fall soll das Problem haben volle Beobachtbarkeit. Wenn der Agent nur Zugriff auf eine Teilmenge von Zuständen hat oder wenn die beobachteten Zustände durch Rauschen verfälscht sind, wird der Agent als solche bezeichnet teilweise Beobachtbarkeitund formal muss das Problem als teilweise beobachtbarer Markov-Entscheidungsprozess formuliert werden. In beiden Fällen kann der dem Agenten zur Verfügung stehende Aktionssatz eingeschränkt werden. Beispielsweise könnte der Status eines Kontostands auf positiv beschränkt werden. Wenn der aktuelle Wert des Zustands 3 ist und der Zustandsübergang versucht, den Wert um 4 zu verringern, ist der Übergang nicht zulässig.

Wenn die Leistung des Agenten mit der eines Agenten verglichen wird, der optimal handelt, führt der Leistungsunterschied zu der Vorstellung von Bedauern. Um nahezu optimal zu handeln, muss der Agent über die langfristigen Konsequenzen seiner Handlungen nachdenken (dh das zukünftige Einkommen maximieren), obwohl die damit verbundene unmittelbare Belohnung negativ sein kann.

Daher ist das verstärkte Lernen besonders gut für Probleme geeignet, die einen langfristigen oder einen kurzfristigen Kompromiss zwischen Belohnungen beinhalten. Es wurde erfolgreich auf verschiedene Probleme angewendet, einschließlich Robotersteuerung, Aufzugsplanung, Telekommunikation, Backgammon, Kontrolleure und Go (AlphaGo).

Zwei Elemente machen das Lernen zur Verstärkung leistungsfähig: die Verwendung von Stichproben zur Optimierung der Leistung und die Verwendung der Funktionsnäherung zur Bewältigung großer Umgebungen. Dank dieser beiden Schlüsselkomponenten kann das verstärkte Lernen in großen Umgebungen in den folgenden Situationen eingesetzt werden:

  • Ein Modell der Umgebung ist bekannt, eine analytische Lösung ist jedoch nicht verfügbar.
  • Es wird nur ein Simulationsmodell der Umgebung angegeben (Gegenstand der simulationsbasierten Optimierung).[4]
  • Die einzige Möglichkeit, Informationen über die Umgebung zu sammeln, besteht darin, mit ihr zu interagieren.

Die ersten beiden dieser Probleme könnten als Planungsprobleme angesehen werden (da irgendeine Form von Modell verfügbar ist), während das letzte als echtes Lernproblem angesehen werden könnte. Durch das verstärkte Lernen werden jedoch beide Planungsprobleme in Probleme des maschinellen Lernens umgewandelt.

Erkundung[edit]

Der Kompromiss zwischen Exploration und Exploitation wurde am gründlichsten anhand des Problems der mehrarmigen Banditen und für MDPs im endlichen Staatsraum in Burnetas und Katehakis (1997) untersucht.[5]

Verstärkungslernen erfordert clevere Erkundungsmechanismen. Die zufällige Auswahl von Aktionen ohne Bezugnahme auf eine geschätzte Wahrscheinlichkeitsverteilung zeigt eine schlechte Leistung. Der Fall von (kleinen) endlichen Markov-Entscheidungsprozessen ist relativ gut verstanden. Aufgrund des Fehlens von Algorithmen, die sich gut mit der Anzahl der Zustände skalieren lassen (oder auf Probleme mit unendlichen Zustandsräumen skalieren lassen), sind einfache Erkundungsmethoden am praktischsten.

Eine solche Methode ist

ε{ displaystyle varepsilon}

-greedy, wo

0<ε<1{ displaystyle 0 < varepsilon <1}

ist ein Parameter, der den Explorationsgrad im Vergleich zur Ausbeutung steuert. Mit Wahrscheinlichkeit

1– –ε{ displaystyle 1- varepsilon}

wird die Ausbeutung ausgewählt, und der Agent wählt die Aktion aus, von der er glaubt, dass sie den besten langfristigen Effekt hat (die Verbindungen zwischen den Aktionen werden nach dem Zufallsprinzip gleichmäßig unterbrochen). Alternativ mit Wahrscheinlichkeit

ε{ displaystyle varepsilon}

wird die Erkundung ausgewählt und die Aktion wird gleichmäßig zufällig ausgewählt.

ε{ displaystyle varepsilon}

ist normalerweise ein fester Parameter, kann jedoch entweder nach einem Zeitplan (wodurch der Agent zunehmend weniger erforscht) oder adaptiv basierend auf Heuristiken angepasst werden.[6]

Algorithmen zum Kontrolllernen[edit]

Selbst wenn das Thema Exploration nicht berücksichtigt wird und selbst wenn der Staat beobachtbar war (im Folgenden angenommen), bleibt das Problem, die Erfahrungen der Vergangenheit zu nutzen, um herauszufinden, welche Maßnahmen zu höheren kumulativen Belohnungen führen.

Kriterium der Optimalität[edit]

Politik[edit]

Die Aktionsauswahl des Agenten wird als aufgerufene Karte modelliert Politik::

π::EIN×S.→[0,1]{ displaystyle pi: A times S rightarrow [0,1]}}

π((ein,s)=Pr((eint=ein∣st=s){ displaystyle pi (a, s) = Pr (a_ {t} = a mid s_ {t} = s)}

Die Richtlinienübersicht gibt die Wahrscheinlichkeit an, Maßnahmen zu ergreifen

ein{ displaystyle a}

wenn im Zustand

s{ displaystyle s}

.[7]::61 Es gibt auch nicht-probabilistische Richtlinien.

Zustandswertfunktion[edit]

Wertfunktion

V.π((s){ displaystyle V _ { pi} (s)}

ist definiert als die erwartete Rückkehr beginnend mit Zustand

s{ displaystyle s}

dh

s0=s{ displaystyle s_ {0} = s}

und nacheinander Politik folgen

π{ displaystyle pi}

. Grob gesagt schätzt die Wertfunktion, “wie gut” es ist, in einem bestimmten Zustand zu sein.[7]::60

V.π((s)=E.⁡[R]=E.⁡[∑t=0∞γtrt∣s0=s],{ displaystyle V _ { pi} (s) = operatorname {E} [R]= operatorname {E} left[sum _{t=0}^{infty }gamma ^{t}r_{t}mid s_{0}=sright],}

wo die Zufallsvariable

R.{ displaystyle R}

bezeichnet die Rückkehrund ist definiert als die Summe zukünftiger diskontierter Belohnungen (Gamma ist kleiner als 1, wenn ein bestimmter Zustand älter wird, wird seine Auswirkung auf die späteren Zustände immer geringer. Daher diskontieren wir seine Wirkung).

R.=∑t=0∞γtrt,{ displaystyle R = sum _ {t = 0} ^ { infty} gamma ^ {t} r_ {t},}

wo

rt{ displaystyle r_ {t}}

ist die Belohnung im Schritt

t{ displaystyle t}

,

γ∈[0,1){displaystyle gamma in [0,1)}

is the discount-rate.

The algorithm must find a policy with maximum expected return. From the theory of MDPs it is known that, without loss of generality, the search can be restricted to the set of so-called stationary policies. A policy is stationary if the action-distribution returned by it depends only on the last state visited (from the observation agent’s history). The search can be further restricted to deterministic stationary policies. A deterministic stationary policy deterministically selects actions based on the current state. Since any such policy can be identified with a mapping from the set of states to the set of actions, these policies can be identified with such mappings with no loss of generality.

Brute force[edit]

Der Brute-Force-Ansatz umfasst zwei Schritte:

  • Für jede mögliche Richtlinie wird ein Beispiel zurückgegeben, während sie befolgt wird
  • Wählen Sie die Richtlinie mit der größten erwarteten Rendite

Ein Problem dabei ist, dass die Anzahl der Richtlinien groß oder sogar unendlich sein kann. Ein weiterer Grund ist, dass die Varianz der Renditen groß sein kann, was viele Stichproben erfordert, um die Rendite jeder Police genau abzuschätzen.

Diese Probleme können behoben werden, wenn wir eine bestimmte Struktur annehmen und zulassen, dass aus einer Richtlinie generierte Stichproben die für andere vorgenommenen Schätzungen beeinflussen. Die beiden Hauptansätze, um dies zu erreichen, sind die Schätzung der Wertfunktionen und die direkte Suche nach Richtlinien.

Wertfunktion[edit]

Wertfunktionsansätze versuchen, eine Richtlinie zu finden, die die Rendite maximiert, indem eine Reihe von Schätzungen der erwarteten Renditen für einige Richtlinien (normalerweise entweder die “aktuelle”) beibehalten werden. [on-policy] oder das Optimum [off-policy] einer).

Diese Methoden stützen sich auf die Theorie der MDPs, bei der die Optimalität in einem Sinne definiert wird, der stärker ist als der oben genannte: Eine Richtlinie wird als optimal bezeichnet, wenn sie die bestmögliche Rendite erzielt irgendein Anfangszustand (dh Anfangsverteilungen spielen in dieser Definition keine Rolle). Auch hier kann immer eine optimale Richtlinie unter den stationären Richtlinien gefunden werden.

Um die Optimalität auf formale Weise zu definieren, definieren Sie den Wert einer Richtlinie

π{ displaystyle pi}

durch

V.π((s)=E.[R∣s,π],{ displaystyle V ^ { pi} (s) = E.[Rmid s,pi ],}

wo

R.{ displaystyle R}

steht für die mit folgendem Ergebnis verbundene Rückgabe

π{ displaystyle pi}

vom Ausgangszustand

s{ displaystyle s}

. Definieren

V.∗((s){ displaystyle V ^ {*} (s)}

als maximal möglicher Wert von

V.π((s){ displaystyle V ^ { pi} (s)}

, wo

π{ displaystyle pi}

darf sich ändern,

V.∗((s)=maxπV.π((s).{ displaystyle V ^ {*} (s) = max _ { pi} V ^ { pi} (s).}

Eine Richtlinie, die diese optimalen Werte in jedem Zustand erreicht, wird aufgerufen optimal. Natürlich ist eine Politik, die in diesem starken Sinne optimal ist, auch in dem Sinne optimal, dass sie die erwartete Rendite maximiert

ρπ{ displaystyle rho ^ { pi}}

, schon seit

ρπ=E.[Vπ(S)]{ displaystyle rho ^ { pi} = E.[V^{pi }(S)]}}

, wo

S.{ displaystyle S}

ist ein Zustand, der zufällig aus der Verteilung ausgewählt wurde

μ{ displaystyle mu}

[clarification needed].

Obwohl Zustandswerte ausreichen, um die Optimalität zu definieren, ist es nützlich, Aktionswerte zu definieren. Gegeben ein Zustand

s{ displaystyle s}

, eine Handlung

ein{ displaystyle a}

und eine Politik

π{ displaystyle pi}

, der Aktionswert des Paares

((s,ein){ displaystyle (s, a)}

unter

π{ displaystyle pi}

ist definiert durch

Q.π((s,ein)=E.⁡[R∣s,a,π],{ displaystyle Q ^ { pi} (s, a) = operatorname {E} [Rmid s,a,pi ], ,}

wo

R.{ displaystyle R}

steht nun für die zufällige Rückgabe, die mit dem ersten Ergreifen von Maßnahmen verbunden ist

ein{ displaystyle a}

im Zustand

s{ displaystyle s}

und folgende

π{ displaystyle pi}

, danach.

Die Theorie der MDPs besagt, dass wenn

π∗{ displaystyle pi ^ {*}}

ist eine optimale Politik, wir handeln optimal (ergreifen die optimale Aktion), indem wir die Aktion aus auswählen

Q.π∗((s,⋅){ displaystyle Q ^ { pi ^ {*}} (s, cdot)}

mit dem höchsten Wert in jedem Zustand,

s{ displaystyle s}

. Das Aktionswertfunktion einer solchen optimalen Politik (

Q.π∗{ displaystyle Q ^ { pi ^ {*}}}

) heißt das optimale Aktionswertfunktion und wird allgemein mit bezeichnet

Q.∗{ displaystyle Q ^ {*}}

. Zusammenfassend reicht die Kenntnis der optimalen Aktionswertfunktion allein aus, um zu wissen, wie man optimal handelt.

Unter der Annahme, dass das MDP vollständig bekannt ist, sind die beiden grundlegenden Ansätze zur Berechnung der optimalen Aktionswertfunktion die Wertiteration und die Richtlinieniteration. Beide Algorithmen berechnen eine Folge von Funktionen

Q.k{ displaystyle Q_ {k}}

((

k=0,1,2,…{ displaystyle k = 0,1,2, ldots}

), die zu konvergieren

Q.∗{ displaystyle Q ^ {*}}

. Das Berechnen dieser Funktionen beinhaltet das Berechnen von Erwartungen über den gesamten Zustandsraum, was für alle außer den kleinsten (endlichen) MDPs unpraktisch ist. Bei Verstärkungslernmethoden werden die Erwartungen durch Mittelung über Stichproben und Verwendung von Funktionsnäherungstechniken angenähert, um die Notwendigkeit zu bewältigen, Wertfunktionen über große Zustandsaktionsräume darzustellen.

Monte-Carlo-Methoden[edit]

Monte-Carlo-Methoden können in einem Algorithmus verwendet werden, der die Richtlinieniteration nachahmt. Die Richtlinieniteration besteht aus zwei Schritten: Politikevaluierung und Verbesserung der Politik.

Monte Carlo wird im Schritt der Politikbewertung verwendet. In diesem Schritt gegeben eine stationäre, deterministische Politik

π{ displaystyle pi}

Ziel ist es, die Funktionswerte zu berechnen

Q.π((s,ein){ displaystyle Q ^ { pi} (s, a)}

(oder eine gute Annäherung an sie) für alle State-Action-Paare

((s,ein){ displaystyle (s, a)}

. Angenommen (der Einfachheit halber), dass der MDP endlich ist, dass genügend Speicher verfügbar ist, um die Aktionswerte aufzunehmen, und dass das Problem episodisch ist und nach jeder Episode eine neue von einem zufälligen Anfangszustand ausgeht. Dann die Schätzung des Wertes eines gegebenen Zustands-Aktions-Paares

((s,ein){ displaystyle (s, a)}

kann berechnet werden, indem die Stichprobenrenditen gemittelt werden, aus denen sie stammen

((s,ein){ displaystyle (s, a)}

im Laufe der Zeit. Bei ausreichender Zeit kann dieses Verfahren somit eine genaue Schätzung erstellen

Q.{ displaystyle Q}

der Aktionswertfunktion

Q.π{ displaystyle Q ^ { pi}}

. Damit ist die Beschreibung des Richtlinienbewertungsschritts abgeschlossen.

Im Schritt der Richtlinienverbesserung wird die nächste Richtlinie durch Berechnen von a erhalten gierig Politik in Bezug auf

Q.{ displaystyle Q}

: Gegeben ein Zustand

s{ displaystyle s}

Diese neue Richtlinie gibt eine Aktion zurück, die maximiert wird

Q.((s,⋅){ displaystyle Q (s, cdot)}

. In der Praxis kann eine verzögerte Bewertung die Berechnung der Maximierungsaktionen auf den Zeitpunkt verschieben, zu dem sie benötigt werden.

Probleme mit diesem Verfahren umfassen:

  • Das Verfahren benötigt möglicherweise zu viel Zeit für die Bewertung einer suboptimalen Richtlinie.
  • Es verwendet Stichproben ineffizient, da eine lange Flugbahn nur die Schätzung der Daten verbessert Single State-Action-Paar, das die Flugbahn gestartet hat.
  • Wenn die Renditen entlang der Trajektorien haben hohe VarianzKonvergenz ist langsam.
  • Es funktioniert in episodische Probleme nur;
  • Es funktioniert nur in kleinen, endlichen MDPs.

Zeitliche Differenzmethoden[edit]

Das erste Problem wird behoben, indem das Verfahren die Richtlinie (in einigen oder allen Zuständen) ändern kann, bevor sich die Werte einstellen. Auch dies kann problematisch sein, da es die Konvergenz verhindern kann. Die meisten aktuellen Algorithmen tun dies, wodurch die Klasse von entsteht verallgemeinerte Richtlinieniteration Algorithmen. Viele Schauspieler Kritiker Methoden gehören zu dieser Kategorie.

Das zweite Problem kann behoben werden, indem Trajektorien zu jedem Status-Aktions-Paar in ihnen beitragen können. Dies kann in gewissem Maße auch beim dritten Problem helfen, obwohl eine bessere Lösung bei hoher Varianz der Ergebnisse die zeitlichen Differenzmethoden (TD) von Sutton sind, die auf der rekursiven Bellman-Gleichung basieren.[8] Die Berechnung in TD-Methoden kann inkrementell (wenn nach jedem Übergang der Speicher geändert und der Übergang weggeworfen wird) oder stapelweise (wenn die Übergänge gestapelt und die Schätzungen einmal basierend auf dem Stapel berechnet werden) sein. Batch-Methoden, wie die Methode der zeitlichen Differenz der kleinsten Quadrate,[10] kann die Informationen in den Beispielen besser verwenden, während inkrementelle Methoden die einzige Wahl sind, wenn Batch-Methoden aufgrund ihrer hohen Rechen- oder Speicherkomplexität nicht durchführbar sind. Einige Methoden versuchen, die beiden Ansätze zu kombinieren. Methoden, die auf zeitlichen Unterschieden beruhen, überwinden auch das vierte Problem.

Um das fünfte Problem anzugehen, Funktionsnäherungsmethoden werden verwendet. Lineare Funktionsnäherung beginnt mit einem Mapping

ϕ{ displaystyle phi}

das weist jedem Zustands-Aktions-Paar einen endlichdimensionalen Vektor zu. Dann die Aktionswerte eines State-Action-Paares

((s,ein){ displaystyle (s, a)}

werden durch lineares Kombinieren der Komponenten von erhalten

ϕ((s,ein){ displaystyle phi (s, a)}

mit etwas Gewichte

θ{ displaystyle theta}

::

Q.((s,ein)=∑ich=1dθichϕich((s,ein).{ displaystyle Q (s, a) = sum _ {i = 1} ^ {d} theta _ {i} phi _ {i} (s, a).}

Die Algorithmen passen dann die Gewichte an, anstatt die Werte anzupassen, die den einzelnen Zustands-Aktions-Paaren zugeordnet sind. Es wurden Methoden untersucht, die auf Ideen aus nichtparametrischen Statistiken basieren (von denen gesehen werden kann, dass sie ihre eigenen Merkmale konstruieren).

Die Wertiteration kann auch als Ausgangspunkt verwendet werden, wodurch der Q-Learning-Algorithmus und seine vielen Varianten entstehen.[11]

Das Problem bei der Verwendung von Aktionswerten besteht darin, dass sie möglicherweise hochpräzise Schätzungen der konkurrierenden Aktionswerte benötigen, die bei verrauschten Rückgaben nur schwer zu erhalten sind, obwohl dieses Problem durch zeitliche Differenzmethoden in gewissem Maße gemindert wird. Die Verwendung der sogenannten kompatiblen Funktionsnäherungsmethode beeinträchtigt die Allgemeinheit und Effizienz. Ein weiteres spezifisches Problem für TD ergibt sich aus der Abhängigkeit von der rekursiven Bellman-Gleichung. Die meisten TD-Methoden haben eine sogenannte

λ{ displaystyle lambda}

Parameter

((0≤λ≤1){ displaystyle (0 leq lambda leq 1)}

Dies kann kontinuierlich zwischen Monte-Carlo-Methoden interpolieren, die nicht auf den Bellman-Gleichungen beruhen, und den grundlegenden TD-Methoden, die vollständig auf den Bellman-Gleichungen beruhen. Dies kann bei der Linderung dieses Problems wirksam sein.

Direkte Richtliniensuche[edit]

Eine alternative Methode besteht darin, direkt im Richtlinienbereich (in einem Teil davon) zu suchen. In diesem Fall wird das Problem zu einem Fall stochastischer Optimierung. Die beiden verfügbaren Ansätze sind gradientenbasierte und gradientenfreie Methoden.

Gradientenbasierte Methoden (Richtliniengradientenmethoden) Beginnen Sie mit einer Zuordnung von einem endlichdimensionalen (Parameter-) Raum zum Raum der Richtlinien: unter Berücksichtigung des Parametervektors

θ{ displaystyle theta}

, Lassen

πθ{ displaystyle pi _ { theta}}

bezeichnen die damit verbundene Richtlinie

θ{ displaystyle theta}

. Definieren der Leistungsfunktion durch

ρ((θ)=ρπθ,{ displaystyle rho ( theta) = rho ^ { pi _ { theta}},}

Unter milden Bedingungen ist diese Funktion in Abhängigkeit vom Parametervektor differenzierbar

θ{ displaystyle theta}

. Wenn der Gradient von

ρ{ displaystyle rho}

war bekannt, man könnte Gradientenaufstieg nutzen. Da kein analytischer Ausdruck für den Gradienten verfügbar ist, ist nur eine verrauschte Schätzung verfügbar. Eine solche Schätzung kann auf viele Arten erstellt werden, wodurch Algorithmen wie die REINFORCE-Methode von Williams entstehen[12] (Dies ist in der simulationsbasierten Optimierungsliteratur als Likelihood-Ratio-Methode bekannt).[13] Richtliniensuchmethoden wurden im Robotikkontext verwendet.[14] Viele Richtliniensuchmethoden können in lokalen Optima stecken bleiben (da sie auf lokaler Suche basieren).

Eine große Klasse von Methoden vermeidet es, sich auf Gradienteninformationen zu verlassen. Dazu gehören simuliertes Tempern, Kreuzentropiesuche oder Methoden der evolutionären Berechnung. Viele gradientenfreie Methoden können (theoretisch und im Grenzbereich) ein globales Optimum erreichen.

Richtliniensuchmethoden können bei verrauschten Daten langsam konvergieren. Dies tritt beispielsweise bei episodischen Problemen auf, wenn die Flugbahnen lang sind und die Varianz der Renditen groß ist. In diesem Fall können wertfunktionsbasierte Methoden hilfreich sein, die auf zeitlichen Unterschieden beruhen. In den vergangenen Jahren, Schauspieler-Kritiker-Methoden wurden vorgeschlagen und bei verschiedenen Problemen gut durchgeführt.[15]

Sowohl das asymptotische als auch das Finite-Sample-Verhalten der meisten Algorithmen ist gut bekannt. Es sind Algorithmen mit nachweislich guter Online-Leistung (die das Explorationsproblem angehen) bekannt.

Eine effiziente Erforschung von MDPs findet sich in Burnetas und Katehakis (1997).[5] Endliche Leistungsgrenzen sind auch für viele Algorithmen aufgetreten, aber es wird erwartet, dass diese Grenzen ziemlich locker sind und daher mehr Arbeit erforderlich ist, um die relativen Vor- und Nachteile besser zu verstehen.

Für inkrementelle Algorithmen wurden asymptotische Konvergenzprobleme gelöst[clarification needed]. Zeitdifferenzbasierte Algorithmen konvergieren unter einem breiteren Satz von Bedingungen als bisher möglich (z. B. bei Verwendung mit willkürlicher, glatter Funktionsnäherung).

Forschung[edit]

Forschungsthemen umfassen

  • adaptive Methoden, die unter einer Vielzahl von Bedingungen mit weniger (oder keinen) Parametern arbeiten
  • Lösung des Explorationsproblems in großen MDPs
  • Kombinationen mit logikbasierten Frameworks[16]
  • groß angelegte empirische Bewertungen
  • Lernen und Handeln unter Teilinformationen (z. B. unter Verwendung einer prädiktiven Zustandsdarstellung)
  • modulares und hierarchisches Verstärkungslernen[17]
  • Verbesserung bestehender Wertfunktions- und Richtliniensuchmethoden
  • Algorithmen, die gut mit großen (oder kontinuierlichen) Aktionsräumen funktionieren
  • Lernen übertragen[18]
  • lebenslanges Lernen
  • effiziente stichprobenbasierte Planung (z. B. basierend auf der Monte-Carlo-Baumsuche).
  • Fehlererkennung in Softwareprojekten[19]
  • Intrinsische Motivation, die informationssuchendes, neugieriges Verhalten von aufgabenabhängigem zielgerichtetem Verhalten (normalerweise) unterscheidet, indem eine Belohnungsfunktion eingeführt wird, die auf der Maximierung neuartiger Informationen basiert[20][21][22]
  • Die kognitive Modellierung unter Verwendung von verstärkendem Lernen wurde in der Computerpsychologie aktiv betrieben [23]
  • Multiagent oder verteiltes Verstärkungslernen ist ein Thema von Interesse. Die Anwendungen werden erweitert.[24]
  • Schauspieler-Kritiker-Verstärkung lernen
  • Verstärkungslernalgorithmen wie das TD-Lernen werden derzeit als Modell für das Dopamin-basierte Lernen im Gehirn untersucht. In diesem Modell fungieren die dopaminergen Projektionen von der Substantia nigra zu den Basalganglien als Vorhersagefehler. Das verstärkte Lernen wurde als Teil des Modells für das Erlernen menschlicher Fähigkeiten verwendet, insbesondere in Bezug auf die Wechselwirkung zwischen implizitem und explizitem Lernen beim Erwerb von Fähigkeiten (die erste Veröffentlichung zu dieser Anwendung erfolgte 1995–1996).[25]
  • Insassenzentrierte Steuerung

Vergleich von Verstärkungslernalgorithmen[edit]

Algorithmus Beschreibung Modell Politik Aktionsraum Zustandsraum Operator
Monte Carlo Jeder Besuch in Monte Carlo Modellfrei Entweder Diskret Diskret Probenmittel
Q-Learning Zustand-Aktion-Belohnung-Zustand Modellfrei Off-Policy Diskret Diskret Q-Wert
SARSA Zustand-Aktion-Belohnung-Zustand-Aktion Modellfrei On-Policy Diskret Diskret Q-Wert
Q-Learning – Lambda Staat-Aktion-Belohnung-Staat mit Berechtigungsspuren Modellfrei Off-Policy Diskret Diskret Q-Wert
SARSA – Lambda State-Action-Belohnung-State-Action mit Berechtigungsspuren Modellfrei On-Policy Diskret Diskret Q-Wert
DQN Deep Q Network Modellfrei Off-Policy Diskret Kontinuierlich Q-Wert
DDPG Deep Deterministic Policy Gradient Modellfrei Off-Policy Kontinuierlich Kontinuierlich Q-Wert
A3C Asynchroner Vorteil Akteurkritischer Algorithmus Modellfrei On-Policy Kontinuierlich Kontinuierlich Vorteil
NAF Q-Learning mit normalisierten Vorteilsfunktionen Modellfrei Off-Policy Kontinuierlich Kontinuierlich Vorteil
TRPO Optimierung der Vertrauensregionenrichtlinie Modellfrei On-Policy Kontinuierlich Kontinuierlich Vorteil
PPO Proximale Richtlinienoptimierung Modellfrei On-Policy Kontinuierlich Kontinuierlich Vorteil
TD3 Twin Delayed Deep Deterministic Policy Gradient Modellfrei Off-Policy Kontinuierlich Kontinuierlich Q-Wert
SACK Weicher Schauspieler-Kritiker Modellfrei Off-Policy Kontinuierlich Kontinuierlich Vorteil

Assoziatives Verstärkungslernen[edit]

Assoziative Lernaufgaben zur Verstärkung kombinieren Facetten stochastischer Lernautomatenaufgaben und überwachter Lernmusterklassifizierungsaufgaben. Bei assoziativen Lernaufgaben zur Verstärkung interagiert das Lernsystem in einem geschlossenen Kreislauf mit seiner Umgebung.[26]

Tiefes Verstärkungslernen[edit]

Dieser Ansatz erweitert das Verstärkungslernen durch Verwendung eines tiefen neuronalen Netzwerks und ohne explizite Gestaltung des Zustandsraums.[27] Die Arbeit am Erlernen von ATARI-Spielen durch Google DeepMind hat die Aufmerksamkeit auf tiefgreifendes Verstärkungslernen oder durchgängiges Verstärkungslernen erhöht.[28]

Inverses Verstärkungslernen[edit]

Beim inversen Verstärkungslernen (IRL) wird keine Belohnungsfunktion angegeben. Stattdessen wird die Belohnungsfunktion aufgrund eines beobachteten Verhaltens eines Experten abgeleitet. Die Idee ist, das beobachtete Verhalten nachzuahmen, das oft optimal oder nahezu optimal ist.[29]

Sicheres Verstärkungslernen[edit]

Safe Reinforcement Learning (SRL) kann als Prozess von Lernrichtlinien definiert werden, die die Erwartung der Rückkehr bei Problemen maximieren, bei denen es wichtig ist, eine angemessene Systemleistung sicherzustellen und / oder Sicherheitsbeschränkungen während des Lern- und / oder Bereitstellungsprozesses einzuhalten.[30]

Siehe auch[edit]

Verweise[edit]

  1. ^ Kaelbling, Leslie P.; Littman, Michael L.; Moore, Andrew W. (1996). “Reinforcement Learning: Eine Umfrage”. Journal of Artificial Intelligence Research. 4: 237–285. arXiv:cs / 9605103. doi:10.1613 / jair.301. S2CID 1708582. Archiviert von das Original am 20.11.2001.
  2. ^ van Otterlo, M.; Wiering, M. (2012). Verstärkungslern- und Markov-Entscheidungsprozesse. Verstärkungslernen. Anpassung, Lernen und Optimierung. 12. S. 3–42. doi:10.1007 / 978-3-642-27645-3_1. ISBN 978-3-642-27644-6.
  3. ^ Gosavi, Abhijit (2003). Simulationsbasierte Optimierung: Parametrische Optimierungstechniken und Verstärkung. Reihe Operations Research / Computer Science Interfaces. Springer. ISBN 978-1-4020-7454-7.
  4. ^ ein b Burnetas, Apostolos N.; Katehakis, Michael N. (1997), “Optimale adaptive Richtlinien für Markov-Entscheidungsprozesse”, Mathematik der Operationsforschung, 22: 222–255, doi:10.1287 / moor.22.1.222
  5. ^ Tokic, Michel; Palm, Günther (2011), “Wertdifferenzbasierte Erforschung: Adaptive Kontrolle zwischen Epsilon-Greedy und Softmax” (PDF), KI 2011: Fortschritte in der künstlichen Intelligenz, Lecture Notes in Computer Science, 7006Springer, S. 335–346, ISBN 978-3-642-24455-1
  6. ^ ein b Reinforcement Learning: Eine Einführung (PDF).
  7. ^ Sutton, Richard S. (1984). Zeitliche Kreditvergabe beim Reinforcement Learning (Doktorarbeit). Universität von Massachusetts, Amherst, MA.
  8. ^ Bradtke, Steven J.; Barto, Andrew G. (1996). “Lernen, nach der Methode der zeitlichen Unterschiede vorherzusagen”. Maschinelles Lernen. 22: 33–57. CiteSeerX 10.1.1.143.857. doi:10.1023 / A: 1018056104778. S2CID 20327856.
  9. ^ Watkins, Christopher JCH (1989). Aus verzögerten Belohnungen lernen (PDF) (Doktorarbeit). King’s College, Cambridge, Großbritannien.
  10. ^ Williams, Ronald J. (1987). “Eine Klasse von Gradientenschätzungsalgorithmen für das Verstärkungslernen in neuronalen Netzen”. Vorträge der IEEE First International Conference on Neural Networks. CiteSeerX 10.1.1.129.8871.
  11. ^ Peters, Jan; Vijayakumar, Sethu; Schaal, Stefan (2003). “Verstärkungslernen für humanoide Robotik” (PDF). Internationale IEEE-RAS-Konferenz über humanoide Roboter.
  12. ^ Deisenroth, Marc Peter; Neumann, Gerhard; Peters, Jan (2013). Eine Umfrage zur Richtliniensuche für Robotik (PDF). Grundlagen und Trends in der Robotik. 2. JETZT Verlage. S. 1–142. doi:10.1561 / 2300000021. hdl:10044/1/12051.
  13. ^ Juliani, Arthur (17.12.2016). “Einfaches Verstärkungslernen mit Tensorflow Teil 8: Asynchrone akteurskritische Agenten (A3C)”. Mittel. Abgerufen 2018-02-22.
  14. ^ Riveret, Regis; Gao, Yang (2019). “Ein probabilistischer Argumentationsrahmen für Verstärkungslernmittel”. Autonome Agenten und Multi-Agent-Systeme. 33 (1–2): 216–274. doi:10.1007 / s10458-019-09404-2. S2CID 71147890.
  15. ^ Kulkarni, Tejas D.; Narasimhan, Karthik R.; Saeedi, Ardavan; Tenenbaum, Joshua B. (2016). “Hierarchisches Deep Reinforcement Learning: Integration von zeitlicher Abstraktion und intrinsischer Motivation”. Vorträge der 30. Internationalen Konferenz über neuronale Informationsverarbeitungssysteme. NIPS’16. USA: Curran Associates Inc.: 3682–3690. arXiv:1604.06057. Bibcode:2016arXiv160406057K. ISBN 978-1-5108-3881-9.
  16. ^ George Karimpanal, Thommen; Bouffanais, Roland (2019). “Selbstorganisierende Karten zur Speicherung und Weitergabe von Wissen beim verstärkten Lernen”. Adaptives Verhalten. 27 (2): 111–126. arXiv:1811.08318. doi:10.1177 / 1059712318818568. ISSN 1059-7123. S2CID 53774629.
  17. ^ “Über den Einsatz von Verstärkungslernen zum Testen der Spielmechanik: ACM – Computer in der Unterhaltung”. cie.acm.org. Abgerufen 2018-11-27.
  18. ^ Kaplan, F.; Oudeyer, P. (2004). “Maximierung des Lernfortschritts: ein internes Belohnungssystem für die Entwicklung”. In Iida, F.; Pfeifer, R.; Steels, L.; Kuniyoshi, Y. (Hrsg.). Verkörperte künstliche Intelligenz. Berlin; Heidelberg: Springer. S. 259–270. doi:10.1007 / 978-3-540-27833-7_19.
  19. ^ Klyubin, A.; Polani, D.; Nehaniv, C. (2008). “Halten Sie Ihre Möglichkeiten offen: ein informationsbasiertes Fahrprinzip für sensomotorische Systeme”. PLUS EINS. 3 (12): e4018. doi:10.1371 / journal.pone.0004018.
  20. ^ Barto, AG (2013). “Eigenmotivation und verstärkendes Lernen”. Eigenmotiviertes Lernen in natürlichen und künstlichen Systemen. Berlin; Heidelberg: Springer. S. 17–47.
  21. ^ Sun, R.; Merrill, E.; Peterson, T. (2001). “Von impliziten Fähigkeiten zu explizitem Wissen: Ein Bottom-up-Modell für das Erlernen von Fähigkeiten”. Kognitionswissenschaft. 25 (2): 203–244. doi:10.1207 / s15516709cog2502_2.
  22. ^ “Reinforcement Learning / Erfolge des Reinforcement Learning”. umichrl.pbworks.com. Abgerufen 2017-08-06.
  23. ^ [1] Archiviert 26.04.2017 an der Wayback-Maschine
  24. ^ Soucek, Branko. Dynamische, genetische und chaotische Programmierung: Die Computertechnologieserie der sechsten Generation. John Wiley & Sons, Inc. p. 38. ISBN 0-471-55717-X.
  25. ^ Francois-Lavet, Vincent; et al. (2018). “Eine Einführung in Deep Reinforcement Learning”. Grundlagen und Trends des maschinellen Lernens. 11 (3–4): 219–354. arXiv:1811.12560. Bibcode:2018arXiv181112560F. doi:10.1561 / 2200000071. S2CID 54434537.
  26. ^ Mnih, Volodymyr; et al. (2015). “Kontrolle auf menschlicher Ebene durch tiefgreifendes Lernen”. Natur. 518 (7540): 529–533. Bibcode:2015Natur.518..529M. doi:10.1038 / nature14236. PMID 25719670. S2CID 205242740.
  27. ^ Ng, AY; Russell, SJ (2000). “Algorithmen für inverses Verstärkungslernen” (PDF). Fortsetzung der ICML ’00 -Verfahren der Siebzehnten Internationalen Konferenz über maschinelles Lernen. S. 663–670. ISBN 1-55860-707-2.
  28. ^ Horie, Naoto; Matsui, Tohgoroh; Moriyama, Koichi; Mutoh, Atsuko; Inuzuka, Nobuhiro (18.01.2019). “Mehrzieliges sicheres Verstärkungslernen”. Künstliches Leben und Robotik. doi:10.1007 / s10015-019-00524-2. ISSN 1433-5298.

Weiterführende Literatur[edit]

Externe Links[edit]