Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lernen Q-Learning: Off-Policy-TD-Lernen | Temporal-Differenz-Lernen
Einführung in das Reinforcement Learning
course content

Kursinhalt

Einführung in das Reinforcement Learning

Einführung in das Reinforcement Learning

1. Kernprinzipien des RL
2. Multi-Armed-Bandit-Problem
3. Dynamische Programmierung
4. Monte-Carlo-Methoden
5. Temporal-Differenz-Lernen

book
Q-Learning: Off-Policy-TD-Lernen

Das Erlernen einer optimalen Strategie mit SARSA kann herausfordernd sein. Ähnlich wie bei der On-Policy-Monte-Carlo-Steuerung erfordert es in der Regel ein allmähliches Verringern von ε\varepsilon im Laufe der Zeit, das schließlich gegen Null geht, um von Exploration zu Exploitation überzugehen. Dieser Prozess ist oft langsam und kann eine umfangreiche Trainingszeit erfordern. Eine Alternative ist die Verwendung einer Off-Policy-Methode wie Q-Learning.

Note
Definition

Q-Learning ist ein Off-Policy-TD-Steuerungsalgorithmus, der zur Schätzung der optimalen Aktionswertfunktion q(s,a)q_*(s, a) verwendet wird. Er aktualisiert seine Schätzungen basierend auf der aktuell besten Aktion und ist somit ein Off-Policy-Algorithmus.

Aktualisierungsregel

Im Gegensatz zur Off-Policy-Monte-Carlo-Steuerung benötigt Q-Learning kein Importance Sampling, um Unterschiede zwischen Verhaltens- und Zielpolitik auszugleichen. Stattdessen basiert es auf einer direkten Aktualisierungsregel, die SARSA sehr ähnlich ist, jedoch mit einem entscheidenden Unterschied.

Die Q-Learning-Aktualisierungsregel lautet:

Q(St,At)Q(St,At)+α(Rt+1+γmaxaQ(St+1,a)Q(St,At))Q(S_t, A_t) \gets Q(S_t, A_t) + \alpha \Bigl(R_{t+1} + \gamma \max_a Q(S_{t+1}, a) - Q(S_t, A_t)\Bigr)

Der einzige Unterschied zu SARSA liegt im Zielwert. Anstatt wie SARSA den Wert der tatsächlich ausgeführten nächsten Aktion zu verwenden:

γQ(St+1,At+1)\gamma Q(S_{t+1}, A_{t+1})

verwendet Q-Learning den Wert der bestmöglichen nächsten Aktion:

γmaxaQ(St+1,a)\gamma \max_a Q(S_{t+1}, a)

Diese subtile Änderung hat große Auswirkungen: Sie ermöglicht es Q-Learning, Aktionen anhand einer Schätzung der optimalen Politik zu bewerten, selbst während der Agent noch exploriert. Das macht es zu einer Off-Policy-Methode — es lernt über die gierige Politik, unabhängig von den während des Trainings gewählten Aktionen.

Wann sollte Q-Learning verwendet werden?

Q-Learning ist vorzuziehen, wenn:

  • Sie es mit deterministischen Umgebungen oder Umgebungen zu tun haben;
  • Sie eine schnellere Konvergenzgeschwindigkeit benötigen.
question mark

Was unterscheidet Q-Learning als Off-Policy-Algorithmus?

Select the correct answer

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 5. Kapitel 4

Fragen Sie AI

expand

Fragen Sie AI

ChatGPT

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

course content

Kursinhalt

Einführung in das Reinforcement Learning

Einführung in das Reinforcement Learning

1. Kernprinzipien des RL
2. Multi-Armed-Bandit-Problem
3. Dynamische Programmierung
4. Monte-Carlo-Methoden
5. Temporal-Differenz-Lernen

book
Q-Learning: Off-Policy-TD-Lernen

Das Erlernen einer optimalen Strategie mit SARSA kann herausfordernd sein. Ähnlich wie bei der On-Policy-Monte-Carlo-Steuerung erfordert es in der Regel ein allmähliches Verringern von ε\varepsilon im Laufe der Zeit, das schließlich gegen Null geht, um von Exploration zu Exploitation überzugehen. Dieser Prozess ist oft langsam und kann eine umfangreiche Trainingszeit erfordern. Eine Alternative ist die Verwendung einer Off-Policy-Methode wie Q-Learning.

Note
Definition

Q-Learning ist ein Off-Policy-TD-Steuerungsalgorithmus, der zur Schätzung der optimalen Aktionswertfunktion q(s,a)q_*(s, a) verwendet wird. Er aktualisiert seine Schätzungen basierend auf der aktuell besten Aktion und ist somit ein Off-Policy-Algorithmus.

Aktualisierungsregel

Im Gegensatz zur Off-Policy-Monte-Carlo-Steuerung benötigt Q-Learning kein Importance Sampling, um Unterschiede zwischen Verhaltens- und Zielpolitik auszugleichen. Stattdessen basiert es auf einer direkten Aktualisierungsregel, die SARSA sehr ähnlich ist, jedoch mit einem entscheidenden Unterschied.

Die Q-Learning-Aktualisierungsregel lautet:

Q(St,At)Q(St,At)+α(Rt+1+γmaxaQ(St+1,a)Q(St,At))Q(S_t, A_t) \gets Q(S_t, A_t) + \alpha \Bigl(R_{t+1} + \gamma \max_a Q(S_{t+1}, a) - Q(S_t, A_t)\Bigr)

Der einzige Unterschied zu SARSA liegt im Zielwert. Anstatt wie SARSA den Wert der tatsächlich ausgeführten nächsten Aktion zu verwenden:

γQ(St+1,At+1)\gamma Q(S_{t+1}, A_{t+1})

verwendet Q-Learning den Wert der bestmöglichen nächsten Aktion:

γmaxaQ(St+1,a)\gamma \max_a Q(S_{t+1}, a)

Diese subtile Änderung hat große Auswirkungen: Sie ermöglicht es Q-Learning, Aktionen anhand einer Schätzung der optimalen Politik zu bewerten, selbst während der Agent noch exploriert. Das macht es zu einer Off-Policy-Methode — es lernt über die gierige Politik, unabhängig von den während des Trainings gewählten Aktionen.

Wann sollte Q-Learning verwendet werden?

Q-Learning ist vorzuziehen, wenn:

  • Sie es mit deterministischen Umgebungen oder Umgebungen zu tun haben;
  • Sie eine schnellere Konvergenzgeschwindigkeit benötigen.
question mark

Was unterscheidet Q-Learning als Off-Policy-Algorithmus?

Select the correct answer

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 5. Kapitel 4
some-alt