Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lernen SARSA: On-Policy-TD-Lernen | Temporal-Differenz-Lernen
Einführung in das Reinforcement Learning
course content

Kursinhalt

Einführung in das Reinforcement Learning

Einführung in das Reinforcement Learning

1. Kernprinzipien des RL
2. Multi-Armed-Bandit-Problem
3. Dynamische Programmierung
4. Monte-Carlo-Methoden
5. Temporal-Differenz-Lernen

book
SARSA: On-Policy-TD-Lernen

Wie bei den Monte-Carlo-Methoden können wir dem Rahmen der generalisierten Politikiteration (GPI) folgen, um von der Schätzung von Wertfunktionen zum Erlernen optimaler Politiken überzugehen. Dieser Prozess bringt jedoch eine bekannte Herausforderung mit sich: den Zielkonflikt zwischen Erkundung und Ausnutzung. Ebenso gibt es zwei Ansätze, die wir verwenden können: On-Policy und Off-Policy. Zunächst betrachten wir die On-Policy-Methode — SARSA.

Note
Definition

SARSA ist ein On-Policy-TD-Kontrollalgorithmus, der zur Schätzung der Aktionswertfunktion qπ(s,a)q_\pi(s, a) verwendet wird. Er aktualisiert seine Schätzungen basierend auf der tatsächlich ausgeführten Aktion und ist somit ein On-Policy-Algorithmus.

Das Akronym SARSA leitet sich von den fünf Schlüsselelementen ab, die beim Update verwendet werden:

  • S: aktueller Zustand StS_t;
  • A: ausgeführte Aktion AtA_t;
  • R: erhaltene Belohnung Rt+1R_{t+1};
  • S: nächster Zustand St+1S_{t+1};
  • A: nächste Aktion At+1A_{t+1}.

Aktualisierungsregel

Die Aktualisierungsregel ähnelt der TD(0), wobei lediglich die Zustandswertfunktion durch die Aktionswertfunktion ersetzt wird:

Q(St,At)Q(St,At)+α(Rt+1+γQ(St+1,At+1)Q(St,At))Q(S_t, A_t) \gets Q(S_t, A_t) + \alpha \Bigl(R_{t+1} + \gamma Q(S_{t+1}, A_{t+1}) - Q(S_t, A_t)\Bigr)

Das At+1A_{t+1} ist die Aktion, die im nächsten Schritt tatsächlich ausgeführt wird, und sie wird gemäß der aktuellen Politik ausgewählt. Dies bedeutet, dass die Auswirkungen der Exploration in den Lernprozess einfließen.

Nach jeder Aktualisierung der Aktionswertfunktion wird auch die Politik angepasst, sodass der Agent die neuen Schätzwerte unmittelbar nutzen kann.

Pseudocode

Wann sollte SARSA verwendet werden?

SARSA ist vorzuziehen, wenn:

  • Sie es mit Umgebungen mit hoher Stochastizität zu tun haben (z. B. rutschige Oberflächen, unzuverlässige Übergänge);
  • Sie mit einer langsameren Konvergenz einverstanden sind, um während des Lernens ein sichereres Verhalten zu gewährleisten.
question mark

In welchem Szenario ist SARSA besonders vorzuziehen?

Select the correct answer

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 5. Kapitel 3

Fragen Sie AI

expand

Fragen Sie AI

ChatGPT

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

course content

Kursinhalt

Einführung in das Reinforcement Learning

Einführung in das Reinforcement Learning

1. Kernprinzipien des RL
2. Multi-Armed-Bandit-Problem
3. Dynamische Programmierung
4. Monte-Carlo-Methoden
5. Temporal-Differenz-Lernen

book
SARSA: On-Policy-TD-Lernen

Wie bei den Monte-Carlo-Methoden können wir dem Rahmen der generalisierten Politikiteration (GPI) folgen, um von der Schätzung von Wertfunktionen zum Erlernen optimaler Politiken überzugehen. Dieser Prozess bringt jedoch eine bekannte Herausforderung mit sich: den Zielkonflikt zwischen Erkundung und Ausnutzung. Ebenso gibt es zwei Ansätze, die wir verwenden können: On-Policy und Off-Policy. Zunächst betrachten wir die On-Policy-Methode — SARSA.

Note
Definition

SARSA ist ein On-Policy-TD-Kontrollalgorithmus, der zur Schätzung der Aktionswertfunktion qπ(s,a)q_\pi(s, a) verwendet wird. Er aktualisiert seine Schätzungen basierend auf der tatsächlich ausgeführten Aktion und ist somit ein On-Policy-Algorithmus.

Das Akronym SARSA leitet sich von den fünf Schlüsselelementen ab, die beim Update verwendet werden:

  • S: aktueller Zustand StS_t;
  • A: ausgeführte Aktion AtA_t;
  • R: erhaltene Belohnung Rt+1R_{t+1};
  • S: nächster Zustand St+1S_{t+1};
  • A: nächste Aktion At+1A_{t+1}.

Aktualisierungsregel

Die Aktualisierungsregel ähnelt der TD(0), wobei lediglich die Zustandswertfunktion durch die Aktionswertfunktion ersetzt wird:

Q(St,At)Q(St,At)+α(Rt+1+γQ(St+1,At+1)Q(St,At))Q(S_t, A_t) \gets Q(S_t, A_t) + \alpha \Bigl(R_{t+1} + \gamma Q(S_{t+1}, A_{t+1}) - Q(S_t, A_t)\Bigr)

Das At+1A_{t+1} ist die Aktion, die im nächsten Schritt tatsächlich ausgeführt wird, und sie wird gemäß der aktuellen Politik ausgewählt. Dies bedeutet, dass die Auswirkungen der Exploration in den Lernprozess einfließen.

Nach jeder Aktualisierung der Aktionswertfunktion wird auch die Politik angepasst, sodass der Agent die neuen Schätzwerte unmittelbar nutzen kann.

Pseudocode

Wann sollte SARSA verwendet werden?

SARSA ist vorzuziehen, wenn:

  • Sie es mit Umgebungen mit hoher Stochastizität zu tun haben (z. B. rutschige Oberflächen, unzuverlässige Übergänge);
  • Sie mit einer langsameren Konvergenz einverstanden sind, um während des Lernens ein sichereres Verhalten zu gewährleisten.
question mark

In welchem Szenario ist SARSA besonders vorzuziehen?

Select the correct answer

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 5. Kapitel 3
some-alt