Kursinhalt
Einführung in das Reinforcement Learning
Einführung in das Reinforcement Learning
Q-Learning: Off-Policy-TD-Lernen
Das Erlernen einer optimalen Strategie mit SARSA kann herausfordernd sein. Ähnlich wie bei der On-Policy-Monte-Carlo-Steuerung erfordert es in der Regel ein allmähliches Verringern von im Laufe der Zeit, das schließlich gegen Null geht, um von Exploration zu Exploitation überzugehen. Dieser Prozess ist oft langsam und kann eine umfangreiche Trainingszeit erfordern. Eine Alternative ist die Verwendung einer Off-Policy-Methode wie Q-Learning.
Q-Learning ist ein Off-Policy-TD-Steuerungsalgorithmus, der zur Schätzung der optimalen Aktionswertfunktion verwendet wird. Er aktualisiert seine Schätzungen basierend auf der aktuell besten Aktion und ist somit ein Off-Policy-Algorithmus.
Aktualisierungsregel
Im Gegensatz zur Off-Policy-Monte-Carlo-Steuerung benötigt Q-Learning kein Importance Sampling, um Unterschiede zwischen Verhaltens- und Zielpolitik auszugleichen. Stattdessen basiert es auf einer direkten Aktualisierungsregel, die SARSA sehr ähnlich ist, jedoch mit einem entscheidenden Unterschied.
Die Q-Learning-Aktualisierungsregel lautet:
Der einzige Unterschied zu SARSA liegt im Zielwert. Anstatt wie SARSA den Wert der tatsächlich ausgeführten nächsten Aktion zu verwenden:
verwendet Q-Learning den Wert der bestmöglichen nächsten Aktion:
Diese subtile Änderung hat große Auswirkungen: Sie ermöglicht es Q-Learning, Aktionen anhand einer Schätzung der optimalen Politik zu bewerten, selbst während der Agent noch exploriert. Das macht es zu einer Off-Policy-Methode — es lernt über die gierige Politik, unabhängig von den während des Trainings gewählten Aktionen.
Wann sollte Q-Learning verwendet werden?
Q-Learning ist vorzuziehen, wenn:
- Sie es mit deterministischen Umgebungen oder Umgebungen zu tun haben;
- Sie eine schnellere Konvergenzgeschwindigkeit benötigen.
Danke für Ihr Feedback!