Lernen Q-Learning: Off-Policy-TD-Lernen

Das Erlernen einer optimalen Politik mit SARSA kann herausfordernd sein. Ähnlich wie bei der On-Policy-Monte-Carlo-Steuerung erfordert es in der Regel einen allmählichen Abbau von $\varepsilon$ im Laufe der Zeit, der schließlich gegen Null geht, um von Exploration zu Exploitation überzugehen. Dieser Prozess ist oft langsam und kann eine umfangreiche Trainingszeit erfordern. Eine Alternative ist die Verwendung einer Off-Policy-Methode wie Q-Learning.

Definition

Q-Learning ist ein Off-Policy-TD-Steuerungsalgorithmus, der zur Schätzung der optimalen Aktionswertfunktion $q_*(s, a)$ verwendet wird. Er aktualisiert seine Schätzungen basierend auf der aktuell besten Aktion und ist somit ein Off-Policy-Algorithmus.

Aktualisierungsregel

Im Gegensatz zur Off-Policy-Monte-Carlo-Steuerung benötigt Q-Learning kein Importance Sampling, um Unterschiede zwischen Verhaltens- und Zielpolitik auszugleichen. Stattdessen basiert es auf einer direkten Aktualisierungsregel, die SARSA sehr ähnlich ist, jedoch mit einem entscheidenden Unterschied.

Die Q-Learning-Aktualisierungsregel lautet:

Q(S_t, A_t) \gets Q(S_t, A_t) + \alpha \Bigl(R_{t+1} + \gamma \max_a Q(S_{t+1}, a) - Q(S_t, A_t)\Bigr)

Der einzige Unterschied zu SARSA liegt im Zielwert. Anstatt wie SARSA den Wert der tatsächlich ausgeführten nächsten Aktion zu verwenden:

\gamma Q(S_{t+1}, A_{t+1})

verwendet Q-Learning den Wert der bestmöglichen nächsten Aktion:

\gamma \max_a Q(S_{t+1}, a)

Diese subtile Änderung hat große Auswirkungen: Sie ermöglicht es Q-Learning, Aktionen anhand einer Schätzung der optimalen Politik zu bewerten, selbst während der Agent noch exploriert. Das macht es zu einer Off-Policy-Methode — es lernt über die gierige Politik, unabhängig von den während des Trainings gewählten Aktionen.

Wann sollte Q-Learning verwendet werden?

Q-Learning ist vorzuziehen, wenn:

Deterministische Umgebungen oder Umgebungen vorliegen;
Eine schnellere Konvergenzgeschwindigkeit erforderlich ist.

War alles klar?

Danke für Ihr Feedback!

Abschnitt 5. Kapitel 4

Fragen Sie AI

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Swipe um das Menü anzuzeigen