Kursinhalt
Einführung in das Reinforcement Learning
Einführung in das Reinforcement Learning
SARSA: On-Policy-TD-Lernen
Wie bei den Monte-Carlo-Methoden können wir dem Rahmen der generalisierten Politikiteration (GPI) folgen, um von der Schätzung von Wertfunktionen zum Erlernen optimaler Politiken überzugehen. Dieser Prozess bringt jedoch eine bekannte Herausforderung mit sich: den Zielkonflikt zwischen Erkundung und Ausnutzung. Ebenso gibt es zwei Ansätze, die wir verwenden können: On-Policy und Off-Policy. Zunächst betrachten wir die On-Policy-Methode — SARSA.
SARSA ist ein On-Policy-TD-Kontrollalgorithmus, der zur Schätzung der Aktionswertfunktion verwendet wird. Er aktualisiert seine Schätzungen basierend auf der tatsächlich ausgeführten Aktion und ist somit ein On-Policy-Algorithmus.
Das Akronym SARSA leitet sich von den fünf Schlüsselelementen ab, die beim Update verwendet werden:
- S: aktueller Zustand ;
- A: ausgeführte Aktion ;
- R: erhaltene Belohnung ;
- S: nächster Zustand ;
- A: nächste Aktion .
Aktualisierungsregel
Die Aktualisierungsregel ähnelt der TD(0), wobei lediglich die Zustandswertfunktion durch die Aktionswertfunktion ersetzt wird:
Das ist die Aktion, die im nächsten Schritt tatsächlich ausgeführt wird, und sie wird gemäß der aktuellen Politik ausgewählt. Dies bedeutet, dass die Auswirkungen der Exploration in den Lernprozess einfließen.
Nach jeder Aktualisierung der Aktionswertfunktion wird auch die Politik angepasst, sodass der Agent die neuen Schätzwerte unmittelbar nutzen kann.
Pseudocode
Wann sollte SARSA verwendet werden?
SARSA ist vorzuziehen, wenn:
- Sie es mit Umgebungen mit hoher Stochastizität zu tun haben (z. B. rutschige Oberflächen, unzuverlässige Übergänge);
- Sie mit einer langsameren Konvergenz einverstanden sind, um während des Lernens ein sichereres Verhalten zu gewährleisten.
Danke für Ihr Feedback!