Verstärkungslernen – Wikipedia
Verstärkungslernen ((RL) ist ein Bereich des maschinellen Lernens, in dem es darum geht, wie Software-Agenten in einer Umgebung Maßnahmen ergreifen sollten, um den Begriff der kumulativen Belohnung zu maximieren. Reinforcement Learning ist neben überwachtem und unbeaufsichtigtem Lernen eines von drei grundlegenden Paradigmen des maschinellen Lernens.
Das Reinforcement-Lernen unterscheidet sich vom überwachten Lernen darin, dass keine gekennzeichneten Eingabe / Ausgabe-Paare präsentiert werden müssen und keine suboptimalen Aktionen explizit korrigiert werden müssen. Stattdessen liegt der Schwerpunkt auf der Suche nach einem Gleichgewicht zwischen Exploration (Neuland) und Ausbeutung (nach aktuellem Kenntnisstand).[1]
Die Umgebung wird typischerweise in Form eines Markov-Entscheidungsprozesses (MDP) angegeben, da viele Verstärkungslernalgorithmen für diesen Kontext dynamische Programmiertechniken verwenden.[2] Der Hauptunterschied zwischen den klassischen dynamischen Programmiermethoden und den Verstärkungslernalgorithmen besteht darin, dass letztere keine Kenntnis eines genauen mathematischen Modells des MDP voraussetzen und auf große MDPs abzielen, bei denen genaue Methoden nicht mehr durchführbar sind.
Einführung[edit]
Aufgrund seiner Allgemeinheit wird das verstärkte Lernen in vielen Disziplinen untersucht, wie z. B. Spieltheorie, Steuerungstheorie, Operationsforschung, Informationstheorie, simulationsbasierte Optimierung, Multiagentensysteme, Schwarmintelligenz und Statistik. In der Literatur zu Operations Research und Control wird das Lernen der Verstärkung genannt ungefähre dynamische Programmierung, oder neurodynamische Programmierung. Die Probleme, die für das verstärkte Lernen von Interesse sind, wurden auch in der Theorie der optimalen Steuerung untersucht, die sich hauptsächlich mit der Existenz und Charakterisierung optimaler Lösungen und Algorithmen für ihre genaue Berechnung befasst, und weniger mit dem Lernen oder der Annäherung, insbesondere in Abwesenheit von ein mathematisches Modell der Umwelt. In der Wirtschafts- und Spieltheorie kann das verstärkte Lernen verwendet werden, um zu erklären, wie unter begrenzter Rationalität ein Gleichgewicht entstehen kann.
Die grundlegende Verstärkung wird als Markov-Entscheidungsprozess (MDP) modelliert:
Ein Verstärkungslernmittel interagiert in diskreten Zeitschritten mit seiner Umgebung. Zu jeder Zeit terhält der Agent den aktuellen Status
und belohnen
. Anschließend wird eine Aktion ausgewählt
aus dem Satz verfügbarer Aktionen, die anschließend an die Umgebung gesendet werden. Die Umgebung bewegt sich in einen neuen Zustand
und die Belohnung
in Verbindung mit Überleitung
festgestellt wird. Das Ziel eines Verstärkungslernagenten ist es, a zu lernen Politik::
,
Dies maximiert die erwartete kumulative Belohnung.
Bei der Formulierung des Problems als MDP wird davon ausgegangen, dass der Agent den aktuellen Umgebungszustand direkt beobachtet. in diesem Fall soll das Problem haben volle Beobachtbarkeit. Wenn der Agent nur Zugriff auf eine Teilmenge von Zuständen hat oder wenn die beobachteten Zustände durch Rauschen verfälscht sind, wird der Agent als solche bezeichnet teilweise Beobachtbarkeitund formal muss das Problem als teilweise beobachtbarer Markov-Entscheidungsprozess formuliert werden. In beiden Fällen kann der dem Agenten zur Verfügung stehende Aktionssatz eingeschränkt werden. Beispielsweise könnte der Status eines Kontostands auf positiv beschränkt werden. Wenn der aktuelle Wert des Zustands 3 ist und der Zustandsübergang versucht, den Wert um 4 zu verringern, ist der Übergang nicht zulässig.
Wenn die Leistung des Agenten mit der eines Agenten verglichen wird, der optimal handelt, führt der Leistungsunterschied zu der Vorstellung von Bedauern. Um nahezu optimal zu handeln, muss der Agent über die langfristigen Konsequenzen seiner Handlungen nachdenken (dh das zukünftige Einkommen maximieren), obwohl die damit verbundene unmittelbare Belohnung negativ sein kann.
Daher ist das verstärkte Lernen besonders gut für Probleme geeignet, die einen langfristigen oder einen kurzfristigen Kompromiss zwischen Belohnungen beinhalten. Es wurde erfolgreich auf verschiedene Probleme angewendet, einschließlich Robotersteuerung, Aufzugsplanung, Telekommunikation, Backgammon, Kontrolleure und Go (AlphaGo).
Zwei Elemente machen das Lernen zur Verstärkung leistungsfähig: die Verwendung von Stichproben zur Optimierung der Leistung und die Verwendung der Funktionsnäherung zur Bewältigung großer Umgebungen. Dank dieser beiden Schlüsselkomponenten kann das verstärkte Lernen in großen Umgebungen in den folgenden Situationen eingesetzt werden:
- Ein Modell der Umgebung ist bekannt, eine analytische Lösung ist jedoch nicht verfügbar.
- Es wird nur ein Simulationsmodell der Umgebung angegeben (Gegenstand der simulationsbasierten Optimierung).[4]
- Die einzige Möglichkeit, Informationen über die Umgebung zu sammeln, besteht darin, mit ihr zu interagieren.
Die ersten beiden dieser Probleme könnten als Planungsprobleme angesehen werden (da irgendeine Form von Modell verfügbar ist), während das letzte als echtes Lernproblem angesehen werden könnte. Durch das verstärkte Lernen werden jedoch beide Planungsprobleme in Probleme des maschinellen Lernens umgewandelt.
Erkundung[edit]
Der Kompromiss zwischen Exploration und Exploitation wurde am gründlichsten anhand des Problems der mehrarmigen Banditen und für MDPs im endlichen Staatsraum in Burnetas und Katehakis (1997) untersucht.[5]
Verstärkungslernen erfordert clevere Erkundungsmechanismen. Die zufällige Auswahl von Aktionen ohne Bezugnahme auf eine geschätzte Wahrscheinlichkeitsverteilung zeigt eine schlechte Leistung. Der Fall von (kleinen) endlichen Markov-Entscheidungsprozessen ist relativ gut verstanden. Aufgrund des Fehlens von Algorithmen, die sich gut mit der Anzahl der Zustände skalieren lassen (oder auf Probleme mit unendlichen Zustandsräumen skalieren lassen), sind einfache Erkundungsmethoden am praktischsten.
Eine solche Methode ist
-greedy, wo
ist ein Parameter, der den Explorationsgrad im Vergleich zur Ausbeutung steuert. Mit Wahrscheinlichkeit
wird die Ausbeutung ausgewählt, und der Agent wählt die Aktion aus, von der er glaubt, dass sie den besten langfristigen Effekt hat (die Verbindungen zwischen den Aktionen werden nach dem Zufallsprinzip gleichmäßig unterbrochen). Alternativ mit Wahrscheinlichkeit
wird die Erkundung ausgewählt und die Aktion wird gleichmäßig zufällig ausgewählt.
ist normalerweise ein fester Parameter, kann jedoch entweder nach einem Zeitplan (wodurch der Agent zunehmend weniger erforscht) oder adaptiv basierend auf Heuristiken angepasst werden.[6]
Algorithmen zum Kontrolllernen[edit]
Selbst wenn das Thema Exploration nicht berücksichtigt wird und selbst wenn der Staat beobachtbar war (im Folgenden angenommen), bleibt das Problem, die Erfahrungen der Vergangenheit zu nutzen, um herauszufinden, welche Maßnahmen zu höheren kumulativen Belohnungen führen.
Kriterium der Optimalität[edit]
Politik[edit]
Die Aktionsauswahl des Agenten wird als aufgerufene Karte modelliert Politik::
Die Richtlinienübersicht gibt die Wahrscheinlichkeit an, Maßnahmen zu ergreifen
wenn im Zustand
.[7]::61 Es gibt auch nicht-probabilistische Richtlinien.
Zustandswertfunktion[edit]
Wertfunktion
ist definiert als die erwartete Rückkehr beginnend mit Zustand
dh
und nacheinander Politik folgen
. Grob gesagt schätzt die Wertfunktion, “wie gut” es ist, in einem bestimmten Zustand zu sein.[7]::60
wo die Zufallsvariable
bezeichnet die Rückkehrund ist definiert als die Summe zukünftiger diskontierter Belohnungen (Gamma ist kleiner als 1, wenn ein bestimmter Zustand älter wird, wird seine Auswirkung auf die späteren Zustände immer geringer. Daher diskontieren wir seine Wirkung).
wo
ist die Belohnung im Schritt
,
is the discount-rate.
The algorithm must find a policy with maximum expected return. From the theory of MDPs it is known that, without loss of generality, the search can be restricted to the set of so-called stationary policies. A policy is stationary if the action-distribution returned by it depends only on the last state visited (from the observation agent’s history). The search can be further restricted to deterministic stationary policies. A deterministic stationary policy deterministically selects actions based on the current state. Since any such policy can be identified with a mapping from the set of states to the set of actions, these policies can be identified with such mappings with no loss of generality.
Brute force[edit]
Der Brute-Force-Ansatz umfasst zwei Schritte:
- Für jede mögliche Richtlinie wird ein Beispiel zurückgegeben, während sie befolgt wird
- Wählen Sie die Richtlinie mit der größten erwarteten Rendite
Ein Problem dabei ist, dass die Anzahl der Richtlinien groß oder sogar unendlich sein kann. Ein weiterer Grund ist, dass die Varianz der Renditen groß sein kann, was viele Stichproben erfordert, um die Rendite jeder Police genau abzuschätzen.
Diese Probleme können behoben werden, wenn wir eine bestimmte Struktur annehmen und zulassen, dass aus einer Richtlinie generierte Stichproben die für andere vorgenommenen Schätzungen beeinflussen. Die beiden Hauptansätze, um dies zu erreichen, sind die Schätzung der Wertfunktionen und die direkte Suche nach Richtlinien.
Wertfunktion[edit]
Wertfunktionsansätze versuchen, eine Richtlinie zu finden, die die Rendite maximiert, indem eine Reihe von Schätzungen der erwarteten Renditen für einige Richtlinien (normalerweise entweder die “aktuelle”) beibehalten werden. [on-policy] oder das Optimum [off-policy] einer).
Diese Methoden stützen sich auf die Theorie der MDPs, bei der die Optimalität in einem Sinne definiert wird, der stärker ist als der oben genannte: Eine Richtlinie wird als optimal bezeichnet, wenn sie die bestmögliche Rendite erzielt irgendein Anfangszustand (dh Anfangsverteilungen spielen in dieser Definition keine Rolle). Auch hier kann immer eine optimale Richtlinie unter den stationären Richtlinien gefunden werden.
Um die Optimalität auf formale Weise zu definieren, definieren Sie den Wert einer Richtlinie
durch
wo
steht für die mit folgendem Ergebnis verbundene Rückgabe
vom Ausgangszustand
. Definieren
als maximal möglicher Wert von
, wo
darf sich ändern,
Eine Richtlinie, die diese optimalen Werte in jedem Zustand erreicht, wird aufgerufen optimal. Natürlich ist eine Politik, die in diesem starken Sinne optimal ist, auch in dem Sinne optimal, dass sie die erwartete Rendite maximiert
, schon seit
, wo
ist ein Zustand, der zufällig aus der Verteilung ausgewählt wurde
[clarification needed].
Obwohl Zustandswerte ausreichen, um die Optimalität zu definieren, ist es nützlich, Aktionswerte zu definieren. Gegeben ein Zustand
, eine Handlung
und eine Politik
, der Aktionswert des Paares
unter
ist definiert durch
wo
steht nun für die zufällige Rückgabe, die mit dem ersten Ergreifen von Maßnahmen verbunden ist
im Zustand
und folgende
, danach.
Die Theorie der MDPs besagt, dass wenn
ist eine optimale Politik, wir handeln optimal (ergreifen die optimale Aktion), indem wir die Aktion aus auswählen
mit dem höchsten Wert in jedem Zustand,
. Das Aktionswertfunktion einer solchen optimalen Politik (
) heißt das optimale Aktionswertfunktion und wird allgemein mit bezeichnet
. Zusammenfassend reicht die Kenntnis der optimalen Aktionswertfunktion allein aus, um zu wissen, wie man optimal handelt.
Unter der Annahme, dass das MDP vollständig bekannt ist, sind die beiden grundlegenden Ansätze zur Berechnung der optimalen Aktionswertfunktion die Wertiteration und die Richtlinieniteration. Beide Algorithmen berechnen eine Folge von Funktionen
((
), die zu konvergieren
. Das Berechnen dieser Funktionen beinhaltet das Berechnen von Erwartungen über den gesamten Zustandsraum, was für alle außer den kleinsten (endlichen) MDPs unpraktisch ist. Bei Verstärkungslernmethoden werden die Erwartungen durch Mittelung über Stichproben und Verwendung von Funktionsnäherungstechniken angenähert, um die Notwendigkeit zu bewältigen, Wertfunktionen über große Zustandsaktionsräume darzustellen.
Monte-Carlo-Methoden[edit]
Monte-Carlo-Methoden können in einem Algorithmus verwendet werden, der die Richtlinieniteration nachahmt. Die Richtlinieniteration besteht aus zwei Schritten: Politikevaluierung und Verbesserung der Politik.
Monte Carlo wird im Schritt der Politikbewertung verwendet. In diesem Schritt gegeben eine stationäre, deterministische Politik
Ziel ist es, die Funktionswerte zu berechnen
(oder eine gute Annäherung an sie) für alle State-Action-Paare
. Angenommen (der Einfachheit halber), dass der MDP endlich ist, dass genügend Speicher verfügbar ist, um die Aktionswerte aufzunehmen, und dass das Problem episodisch ist und nach jeder Episode eine neue von einem zufälligen Anfangszustand ausgeht. Dann die Schätzung des Wertes eines gegebenen Zustands-Aktions-Paares
kann berechnet werden, indem die Stichprobenrenditen gemittelt werden, aus denen sie stammen
im Laufe der Zeit. Bei ausreichender Zeit kann dieses Verfahren somit eine genaue Schätzung erstellen
der Aktionswertfunktion
. Damit ist die Beschreibung des Richtlinienbewertungsschritts abgeschlossen.
Im Schritt der Richtlinienverbesserung wird die nächste Richtlinie durch Berechnen von a erhalten gierig Politik in Bezug auf
: Gegeben ein Zustand
Diese neue Richtlinie gibt eine Aktion zurück, die maximiert wird
. In der Praxis kann eine verzögerte Bewertung die Berechnung der Maximierungsaktionen auf den Zeitpunkt verschieben, zu dem sie benötigt werden.
Probleme mit diesem Verfahren umfassen:
- Das Verfahren benötigt möglicherweise zu viel Zeit für die Bewertung einer suboptimalen Richtlinie.
- Es verwendet Stichproben ineffizient, da eine lange Flugbahn nur die Schätzung der Daten verbessert Single State-Action-Paar, das die Flugbahn gestartet hat.
- Wenn die Renditen entlang der Trajektorien haben hohe VarianzKonvergenz ist langsam.
- Es funktioniert in episodische Probleme nur;
- Es funktioniert nur in kleinen, endlichen MDPs.
Zeitliche Differenzmethoden[edit]
Das erste Problem wird behoben, indem das Verfahren die Richtlinie (in einigen oder allen Zuständen) ändern kann, bevor sich die Werte einstellen. Auch dies kann problematisch sein, da es die Konvergenz verhindern kann. Die meisten aktuellen Algorithmen tun dies, wodurch die Klasse von entsteht verallgemeinerte Richtlinieniteration Algorithmen. Viele Schauspieler Kritiker Methoden gehören zu dieser Kategorie.
Das zweite Problem kann behoben werden, indem Trajektorien zu jedem Status-Aktions-Paar in ihnen beitragen können. Dies kann in gewissem Maße auch beim dritten Problem helfen, obwohl eine bessere Lösung bei hoher Varianz der Ergebnisse die zeitlichen Differenzmethoden (TD) von Sutton sind, die auf der rekursiven Bellman-Gleichung basieren.[8] Die Berechnung in TD-Methoden kann inkrementell (wenn nach jedem Übergang der Speicher geändert und der Übergang weggeworfen wird) oder stapelweise (wenn die Übergänge gestapelt und die Schätzungen einmal basierend auf dem Stapel berechnet werden) sein. Batch-Methoden, wie die Methode der zeitlichen Differenz der kleinsten Quadrate,[10] kann die Informationen in den Beispielen besser verwenden, während inkrementelle Methoden die einzige Wahl sind, wenn Batch-Methoden aufgrund ihrer hohen Rechen- oder Speicherkomplexität nicht durchführbar sind. Einige Methoden versuchen, die beiden Ansätze zu kombinieren. Methoden, die auf zeitlichen Unterschieden beruhen, überwinden auch das vierte Problem.
Um das fünfte Problem anzugehen, Funktionsnäherungsmethoden werden verwendet. Lineare Funktionsnäherung beginnt mit einem Mapping
das weist jedem Zustands-Aktions-Paar einen endlichdimensionalen Vektor zu. Dann die Aktionswerte eines State-Action-Paares
werden durch lineares Kombinieren der Komponenten von erhalten
mit etwas Gewichte
::
Die Algorithmen passen dann die Gewichte an, anstatt die Werte anzupassen, die den einzelnen Zustands-Aktions-Paaren zugeordnet sind. Es wurden Methoden untersucht, die auf Ideen aus nichtparametrischen Statistiken basieren (von denen gesehen werden kann, dass sie ihre eigenen Merkmale konstruieren).
Die Wertiteration kann auch als Ausgangspunkt verwendet werden, wodurch der Q-Learning-Algorithmus und seine vielen Varianten entstehen.[11]
Das Problem bei der Verwendung von Aktionswerten besteht darin, dass sie möglicherweise hochpräzise Schätzungen der konkurrierenden Aktionswerte benötigen, die bei verrauschten Rückgaben nur schwer zu erhalten sind, obwohl dieses Problem durch zeitliche Differenzmethoden in gewissem Maße gemindert wird. Die Verwendung der sogenannten kompatiblen Funktionsnäherungsmethode beeinträchtigt die Allgemeinheit und Effizienz. Ein weiteres spezifisches Problem für TD ergibt sich aus der Abhängigkeit von der rekursiven Bellman-Gleichung. Die meisten TD-Methoden haben eine sogenannte
Parameter
Dies kann kontinuierlich zwischen Monte-Carlo-Methoden interpolieren, die nicht auf den Bellman-Gleichungen beruhen, und den grundlegenden TD-Methoden, die vollständig auf den Bellman-Gleichungen beruhen. Dies kann bei der Linderung dieses Problems wirksam sein.
Direkte Richtliniensuche[edit]
Eine alternative Methode besteht darin, direkt im Richtlinienbereich (in einem Teil davon) zu suchen. In diesem Fall wird das Problem zu einem Fall stochastischer Optimierung. Die beiden verfügbaren Ansätze sind gradientenbasierte und gradientenfreie Methoden.
Gradientenbasierte Methoden (Richtliniengradientenmethoden) Beginnen Sie mit einer Zuordnung von einem endlichdimensionalen (Parameter-) Raum zum Raum der Richtlinien: unter Berücksichtigung des Parametervektors
, Lassen
bezeichnen die damit verbundene Richtlinie
. Definieren der Leistungsfunktion durch
Unter milden Bedingungen ist diese Funktion in Abhängigkeit vom Parametervektor differenzierbar
. Wenn der Gradient von
war bekannt, man könnte Gradientenaufstieg nutzen. Da kein analytischer Ausdruck für den Gradienten verfügbar ist, ist nur eine verrauschte Schätzung verfügbar. Eine solche Schätzung kann auf viele Arten erstellt werden, wodurch Algorithmen wie die REINFORCE-Methode von Williams entstehen[12] (Dies ist in der simulationsbasierten Optimierungsliteratur als Likelihood-Ratio-Methode bekannt).[13] Richtliniensuchmethoden wurden im Robotikkontext verwendet.[14] Viele Richtliniensuchmethoden können in lokalen Optima stecken bleiben (da sie auf lokaler Suche basieren).
Eine große Klasse von Methoden vermeidet es, sich auf Gradienteninformationen zu verlassen. Dazu gehören simuliertes Tempern, Kreuzentropiesuche oder Methoden der evolutionären Berechnung. Viele gradientenfreie Methoden können (theoretisch und im Grenzbereich) ein globales Optimum erreichen.
Richtliniensuchmethoden können bei verrauschten Daten langsam konvergieren. Dies tritt beispielsweise bei episodischen Problemen auf, wenn die Flugbahnen lang sind und die Varianz der Renditen groß ist. In diesem Fall können wertfunktionsbasierte Methoden hilfreich sein, die auf zeitlichen Unterschieden beruhen. In den vergangenen Jahren, Schauspieler-Kritiker-Methoden wurden vorgeschlagen und bei verschiedenen Problemen gut durchgeführt.[15]
Sowohl das asymptotische als auch das Finite-Sample-Verhalten der meisten Algorithmen ist gut bekannt. Es sind Algorithmen mit nachweislich guter Online-Leistung (die das Explorationsproblem angehen) bekannt.
Eine effiziente Erforschung von MDPs findet sich in Burnetas und Katehakis (1997).[5] Endliche Leistungsgrenzen sind auch für viele Algorithmen aufgetreten, aber es wird erwartet, dass diese Grenzen ziemlich locker sind und daher mehr Arbeit erforderlich ist, um die relativen Vor- und Nachteile besser zu verstehen.
Für inkrementelle Algorithmen wurden asymptotische Konvergenzprobleme gelöst[clarification needed]. Zeitdifferenzbasierte Algorithmen konvergieren unter einem breiteren Satz von Bedingungen als bisher möglich (z. B. bei Verwendung mit willkürlicher, glatter Funktionsnäherung).
Forschung[edit]
Forschungsthemen umfassen
- adaptive Methoden, die unter einer Vielzahl von Bedingungen mit weniger (oder keinen) Parametern arbeiten
- Lösung des Explorationsproblems in großen MDPs
- Kombinationen mit logikbasierten Frameworks[16]
- groß angelegte empirische Bewertungen
- Lernen und Handeln unter Teilinformationen (z. B. unter Verwendung einer prädiktiven Zustandsdarstellung)
- modulares und hierarchisches Verstärkungslernen[17]
- Verbesserung bestehender Wertfunktions- und Richtliniensuchmethoden
- Algorithmen, die gut mit großen (oder kontinuierlichen) Aktionsräumen funktionieren
- Lernen übertragen[18]
- lebenslanges Lernen
- effiziente stichprobenbasierte Planung (z. B. basierend auf der Monte-Carlo-Baumsuche).
- Fehlererkennung in Softwareprojekten[19]
- Intrinsische Motivation, die informationssuchendes, neugieriges Verhalten von aufgabenabhängigem zielgerichtetem Verhalten (normalerweise) unterscheidet, indem eine Belohnungsfunktion eingeführt wird, die auf der Maximierung neuartiger Informationen basiert[20][21][22]
- Die kognitive Modellierung unter Verwendung von verstärkendem Lernen wurde in der Computerpsychologie aktiv betrieben [23]
- Multiagent oder verteiltes Verstärkungslernen ist ein Thema von Interesse. Die Anwendungen werden erweitert.[24]
- Schauspieler-Kritiker-Verstärkung lernen
- Verstärkungslernalgorithmen wie das TD-Lernen werden derzeit als Modell für das Dopamin-basierte Lernen im Gehirn untersucht. In diesem Modell fungieren die dopaminergen Projektionen von der Substantia nigra zu den Basalganglien als Vorhersagefehler. Das verstärkte Lernen wurde als Teil des Modells für das Erlernen menschlicher Fähigkeiten verwendet, insbesondere in Bezug auf die Wechselwirkung zwischen implizitem und explizitem Lernen beim Erwerb von Fähigkeiten (die erste Veröffentlichung zu dieser Anwendung erfolgte 1995–1996).[25]
- Insassenzentrierte Steuerung
Vergleich von Verstärkungslernalgorithmen[edit]
Algorithmus | Beschreibung | Modell | Politik | Aktionsraum | Zustandsraum | Operator |
---|---|---|---|---|---|---|
Monte Carlo | Jeder Besuch in Monte Carlo | Modellfrei | Entweder | Diskret | Diskret | Probenmittel |
Q-Learning | Zustand-Aktion-Belohnung-Zustand | Modellfrei | Off-Policy | Diskret | Diskret | Q-Wert |
SARSA | Zustand-Aktion-Belohnung-Zustand-Aktion | Modellfrei | On-Policy | Diskret | Diskret | Q-Wert |
Q-Learning – Lambda | Staat-Aktion-Belohnung-Staat mit Berechtigungsspuren | Modellfrei | Off-Policy | Diskret | Diskret | Q-Wert |
SARSA – Lambda | State-Action-Belohnung-State-Action mit Berechtigungsspuren | Modellfrei | On-Policy | Diskret | Diskret | Q-Wert |
DQN | Deep Q Network | Modellfrei | Off-Policy | Diskret | Kontinuierlich | Q-Wert |
DDPG | Deep Deterministic Policy Gradient | Modellfrei | Off-Policy | Kontinuierlich | Kontinuierlich | Q-Wert |
A3C | Asynchroner Vorteil Akteurkritischer Algorithmus | Modellfrei | On-Policy | Kontinuierlich | Kontinuierlich | Vorteil |
NAF | Q-Learning mit normalisierten Vorteilsfunktionen | Modellfrei | Off-Policy | Kontinuierlich | Kontinuierlich | Vorteil |
TRPO | Optimierung der Vertrauensregionenrichtlinie | Modellfrei | On-Policy | Kontinuierlich | Kontinuierlich | Vorteil |
PPO | Proximale Richtlinienoptimierung | Modellfrei | On-Policy | Kontinuierlich | Kontinuierlich | Vorteil |
TD3 | Twin Delayed Deep Deterministic Policy Gradient | Modellfrei | Off-Policy | Kontinuierlich | Kontinuierlich | Q-Wert |
SACK | Weicher Schauspieler-Kritiker | Modellfrei | Off-Policy | Kontinuierlich | Kontinuierlich | Vorteil |
Assoziatives Verstärkungslernen[edit]
Assoziative Lernaufgaben zur Verstärkung kombinieren Facetten stochastischer Lernautomatenaufgaben und überwachter Lernmusterklassifizierungsaufgaben. Bei assoziativen Lernaufgaben zur Verstärkung interagiert das Lernsystem in einem geschlossenen Kreislauf mit seiner Umgebung.[26]
Tiefes Verstärkungslernen[edit]
Dieser Ansatz erweitert das Verstärkungslernen durch Verwendung eines tiefen neuronalen Netzwerks und ohne explizite Gestaltung des Zustandsraums.[27] Die Arbeit am Erlernen von ATARI-Spielen durch Google DeepMind hat die Aufmerksamkeit auf tiefgreifendes Verstärkungslernen oder durchgängiges Verstärkungslernen erhöht.[28]
Inverses Verstärkungslernen[edit]
Beim inversen Verstärkungslernen (IRL) wird keine Belohnungsfunktion angegeben. Stattdessen wird die Belohnungsfunktion aufgrund eines beobachteten Verhaltens eines Experten abgeleitet. Die Idee ist, das beobachtete Verhalten nachzuahmen, das oft optimal oder nahezu optimal ist.[29]
Sicheres Verstärkungslernen[edit]
Safe Reinforcement Learning (SRL) kann als Prozess von Lernrichtlinien definiert werden, die die Erwartung der Rückkehr bei Problemen maximieren, bei denen es wichtig ist, eine angemessene Systemleistung sicherzustellen und / oder Sicherheitsbeschränkungen während des Lern- und / oder Bereitstellungsprozesses einzuhalten.[30]
Siehe auch[edit]
Verweise[edit]
- ^ Kaelbling, Leslie P.; Littman, Michael L.; Moore, Andrew W. (1996). “Reinforcement Learning: Eine Umfrage”. Journal of Artificial Intelligence Research. 4: 237–285. arXiv:cs / 9605103. doi:10.1613 / jair.301. S2CID 1708582. Archiviert von das Original am 20.11.2001.
- ^ van Otterlo, M.; Wiering, M. (2012). Verstärkungslern- und Markov-Entscheidungsprozesse. Verstärkungslernen. Anpassung, Lernen und Optimierung. 12. S. 3–42. doi:10.1007 / 978-3-642-27645-3_1. ISBN 978-3-642-27644-6.
- ^ Gosavi, Abhijit (2003). Simulationsbasierte Optimierung: Parametrische Optimierungstechniken und Verstärkung. Reihe Operations Research / Computer Science Interfaces. Springer. ISBN 978-1-4020-7454-7.
- ^ ein b Burnetas, Apostolos N.; Katehakis, Michael N. (1997), “Optimale adaptive Richtlinien für Markov-Entscheidungsprozesse”, Mathematik der Operationsforschung, 22: 222–255, doi:10.1287 / moor.22.1.222
- ^ Tokic, Michel; Palm, Günther (2011), “Wertdifferenzbasierte Erforschung: Adaptive Kontrolle zwischen Epsilon-Greedy und Softmax” (PDF), KI 2011: Fortschritte in der künstlichen Intelligenz, Lecture Notes in Computer Science, 7006Springer, S. 335–346, ISBN 978-3-642-24455-1
- ^ ein b Reinforcement Learning: Eine Einführung (PDF).
- ^ Sutton, Richard S. (1984). Zeitliche Kreditvergabe beim Reinforcement Learning (Doktorarbeit). Universität von Massachusetts, Amherst, MA.
- ^ Bradtke, Steven J.; Barto, Andrew G. (1996). “Lernen, nach der Methode der zeitlichen Unterschiede vorherzusagen”. Maschinelles Lernen. 22: 33–57. CiteSeerX 10.1.1.143.857. doi:10.1023 / A: 1018056104778. S2CID 20327856.
- ^ Watkins, Christopher JCH (1989). Aus verzögerten Belohnungen lernen (PDF) (Doktorarbeit). King’s College, Cambridge, Großbritannien.
- ^ Williams, Ronald J. (1987). “Eine Klasse von Gradientenschätzungsalgorithmen für das Verstärkungslernen in neuronalen Netzen”. Vorträge der IEEE First International Conference on Neural Networks. CiteSeerX 10.1.1.129.8871.
- ^ Peters, Jan; Vijayakumar, Sethu; Schaal, Stefan (2003). “Verstärkungslernen für humanoide Robotik” (PDF). Internationale IEEE-RAS-Konferenz über humanoide Roboter.
- ^ Deisenroth, Marc Peter; Neumann, Gerhard; Peters, Jan (2013). Eine Umfrage zur Richtliniensuche für Robotik (PDF). Grundlagen und Trends in der Robotik. 2. JETZT Verlage. S. 1–142. doi:10.1561 / 2300000021. hdl:10044/1/12051.
- ^ Juliani, Arthur (17.12.2016). “Einfaches Verstärkungslernen mit Tensorflow Teil 8: Asynchrone akteurskritische Agenten (A3C)”. Mittel. Abgerufen 2018-02-22.
- ^ Riveret, Regis; Gao, Yang (2019). “Ein probabilistischer Argumentationsrahmen für Verstärkungslernmittel”. Autonome Agenten und Multi-Agent-Systeme. 33 (1–2): 216–274. doi:10.1007 / s10458-019-09404-2. S2CID 71147890.
- ^ Kulkarni, Tejas D.; Narasimhan, Karthik R.; Saeedi, Ardavan; Tenenbaum, Joshua B. (2016). “Hierarchisches Deep Reinforcement Learning: Integration von zeitlicher Abstraktion und intrinsischer Motivation”. Vorträge der 30. Internationalen Konferenz über neuronale Informationsverarbeitungssysteme. NIPS’16. USA: Curran Associates Inc.: 3682–3690. arXiv:1604.06057. Bibcode:2016arXiv160406057K. ISBN 978-1-5108-3881-9.
- ^ George Karimpanal, Thommen; Bouffanais, Roland (2019). “Selbstorganisierende Karten zur Speicherung und Weitergabe von Wissen beim verstärkten Lernen”. Adaptives Verhalten. 27 (2): 111–126. arXiv:1811.08318. doi:10.1177 / 1059712318818568. ISSN 1059-7123. S2CID 53774629.
- ^ “Über den Einsatz von Verstärkungslernen zum Testen der Spielmechanik: ACM – Computer in der Unterhaltung”. cie.acm.org. Abgerufen 2018-11-27.
- ^ Kaplan, F.; Oudeyer, P. (2004). “Maximierung des Lernfortschritts: ein internes Belohnungssystem für die Entwicklung”. In Iida, F.; Pfeifer, R.; Steels, L.; Kuniyoshi, Y. (Hrsg.). Verkörperte künstliche Intelligenz. Berlin; Heidelberg: Springer. S. 259–270. doi:10.1007 / 978-3-540-27833-7_19.
- ^ Klyubin, A.; Polani, D.; Nehaniv, C. (2008). “Halten Sie Ihre Möglichkeiten offen: ein informationsbasiertes Fahrprinzip für sensomotorische Systeme”. PLUS EINS. 3 (12): e4018. doi:10.1371 / journal.pone.0004018.
- ^ Barto, AG (2013). “Eigenmotivation und verstärkendes Lernen”. Eigenmotiviertes Lernen in natürlichen und künstlichen Systemen. Berlin; Heidelberg: Springer. S. 17–47.
- ^ Sun, R.; Merrill, E.; Peterson, T. (2001). “Von impliziten Fähigkeiten zu explizitem Wissen: Ein Bottom-up-Modell für das Erlernen von Fähigkeiten”. Kognitionswissenschaft. 25 (2): 203–244. doi:10.1207 / s15516709cog2502_2.
- ^ “Reinforcement Learning / Erfolge des Reinforcement Learning”. umichrl.pbworks.com. Abgerufen 2017-08-06.
- ^ [1] Archiviert 26.04.2017 an der Wayback-Maschine
- ^ Soucek, Branko. Dynamische, genetische und chaotische Programmierung: Die Computertechnologieserie der sechsten Generation. John Wiley & Sons, Inc. p. 38. ISBN 0-471-55717-X.
- ^ Francois-Lavet, Vincent; et al. (2018). “Eine Einführung in Deep Reinforcement Learning”. Grundlagen und Trends des maschinellen Lernens. 11 (3–4): 219–354. arXiv:1811.12560. Bibcode:2018arXiv181112560F. doi:10.1561 / 2200000071. S2CID 54434537.
- ^ Mnih, Volodymyr; et al. (2015). “Kontrolle auf menschlicher Ebene durch tiefgreifendes Lernen”. Natur. 518 (7540): 529–533. Bibcode:2015Natur.518..529M. doi:10.1038 / nature14236. PMID 25719670. S2CID 205242740.
- ^ Ng, AY; Russell, SJ (2000). “Algorithmen für inverses Verstärkungslernen” (PDF). Fortsetzung der ICML ’00 -Verfahren der Siebzehnten Internationalen Konferenz über maschinelles Lernen. S. 663–670. ISBN 1-55860-707-2.
- ^ Horie, Naoto; Matsui, Tohgoroh; Moriyama, Koichi; Mutoh, Atsuko; Inuzuka, Nobuhiro (18.01.2019). “Mehrzieliges sicheres Verstärkungslernen”. Künstliches Leben und Robotik. doi:10.1007 / s10015-019-00524-2. ISSN 1433-5298.
Weiterführende Literatur[edit]
- Auer, Peter; Jaksch, Thomas; Ortner, Ronald (2010). “Nahezu optimale Bedauernsgrenzen für das verstärkte Lernen”. Journal of Machine Learning Research. 11: 1563–1600.
- Busoniu, Lucian; Babuska, Robert; De Schutter, Bart; Ernst, Damien (2010). Verstärkungslernen und dynamische Programmierung mit Funktionsapproximatoren. Taylor & Francis CRC Press. ISBN 978-1-4398-2108-4.
- François-Lavet, Vincent; Henderson, Peter; Islam, Riashat; Bellemare, Marc G.; Pineau, Joelle (2018). “Eine Einführung in Deep Reinforcement Learning”. Grundlagen und Trends des maschinellen Lernens. 11 (3–4): 219–354. arXiv:1811.12560. Bibcode:2018arXiv181112560F. doi:10.1561 / 2200000071. S2CID 54434537.
- Powell, Warren (2007). Ungefähre dynamische Programmierung: Lösen der Flüche der Dimensionalität. Wiley-Interscience. ISBN 978-0-470-17155-4.
- Sutton, Richard S.; Barto, Andrew G. (2018). Reinforcement Learning: Eine Einführung (2. Aufl.). MIT Press. ISBN 978-0-262-03924-6.
- Sutton, Richard S. (1988). “Lernen, nach der Methode der zeitlichen Unterschiede vorherzusagen”. Maschinelles Lernen. 3: 9–44. doi:10.1007 / BF00115009.
- Szita, Istvan; Szepesvari, Csaba (2010). “Modellbasiertes Reinforcement-Lernen mit nahezu engen Explorationskomplexitätsgrenzen” (PDF). ICML 2010. Omnipress. S. 1031–1038. Archiviert von das Original (PDF) am 14.07.2010.
Externe Links[edit]
Recent Comments