Kursinhalt
Einführung in das Reinforcement Learning
Einführung in das Reinforcement Learning
Erkundungsansätze
Die Annahme der exploring starts ist nützlich, um sicherzustellen, dass alle Zustände (Zustand-Aktions-Paare) im Laufe der Zeit besucht werden. In den meisten realen Aufgaben hat sie jedoch einen entscheidenden Nachteil: Sie erfordert ein Modell, um den Agenten in beliebigen Zuständen zu initialisieren.
In seltenen Fällen – wenn die Umgebung Episoden natürlich aus zufälligen Zuständen startet, die den gesamten Zustandsraum abdecken – kann exploring starts problemlos angewendet werden. Häufiger jedoch verfügen Aufgaben über einen festen oder begrenzten Satz von Startzuständen, was eine solche Randomisierung ohne ein Teilmodell unmöglich macht. Dieses Modell sollte zumindest in der Lage sein, einen Schritt der Umgebung von jedem beliebigen Zustand aus zu simulieren. Obwohl dies weniger anspruchsvoll ist als ein vollständiges Modell, ist es dennoch oft unpraktisch.
Alternative Erkundungsansätze
Wenn das Starten aus einem zufälligen Zustand (Zustand-Aktions-Paar) nicht möglich ist, besteht die Alternative darin, sicherzustellen, dass jede Aktion in jedem Zustand eine von Null verschiedene Wahrscheinlichkeit hat, ausgewählt zu werden. Dies garantiert, dass der Agent im Laufe der Zeit alle erreichbaren Teile des Zustandsraums erkundet. Wenn ein Zustand durch eine gültige Aktionssequenz erreicht werden kann, wird dies schließlich geschehen; und wenn er unter den Dynamiken der Umgebung überhaupt nicht erreichbar ist, ist er für den Lernprozess irrelevant.
Diese Idee führt zum Einsatz von stochastischen Politiken, bei denen der Agent nicht immer die am besten bekannte Aktion wählt, sondern Aktionen mit einem gewissen Maß an Zufälligkeit auswählt. Eine gängige Strategie hierfür ist die bekannte -greedy-Politik, die meistens die gierigste Aktion auswählt, aber mit Wahrscheinlichkeit stattdessen eine zufällige Aktion wählt. Dies gewährleistet eine kontinuierliche Erkundung, während dennoch bevorzugt hochwertige Aktionen gewählt werden.
An dieser Stelle ist es auch sinnvoll, zwischen zwei Hauptklassen von Methoden zu unterscheiden:
- On-policy-Methoden bewerten und verbessern dieselbe Politik, die zur Datengenerierung verwendet wird;
- Off-policy-Methoden bewerten und verbessern eine Politik und generieren die Daten mit einer anderen Politik.
1. Was ist das Hauptproblem der Annahme des Exploring Starts?
2. Was ist der Unterschied zwischen On-Policy- und Off-Policy-Methoden im Reinforcement Learning?
Danke für Ihr Feedback!