Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lernen SARSA: On-Policy-TD-Lernen | Zeitdifferenzlernen
Einführung in Reinforcement Learning

bookSARSA: On-Policy-TD-Lernen

Wie bei den Monte-Carlo-Methoden können wir dem Generalized Policy Iteration (GPI)-Rahmen folgen, um von der Schätzung von Wertfunktionen zum Erlernen optimaler Politiken überzugehen. Dieser Prozess bringt jedoch eine bekannte Herausforderung mit sich: den Trade-off zwischen Exploration und Exploitation. Ebenso gibt es zwei Ansätze, die wir verwenden können: On-Policy und Off-Policy. Zunächst betrachten wir die On-Policy-Methode — SARSA.

Note
Definition

SARSA ist ein On-Policy-TD-Kontrollalgorithmus, der zur Schätzung der Aktionswertfunktion qπ(s,a)q_\pi(s, a) verwendet wird. Die Aktualisierung der Schätzungen erfolgt auf Grundlage der tatsächlich ausgeführten Aktion, wodurch es sich um einen On-Policy-Algorithmus handelt.

Das Akronym SARSA leitet sich von den fünf Schlüsselelementen ab, die im Update verwendet werden:

  • S: aktueller Zustand StS_t;
  • A: ausgeführte Aktion AtA_t;
  • R: erhaltene Belohnung Rt+1R_{t+1};
  • S: nächster Zustand St+1S_{t+1};
  • A: nächste Aktion At+1A_{t+1}.

Aktualisierungsregel

Die Aktualisierungsregel ähnelt der TD(0), wobei lediglich die Zustandswertfunktion durch die Aktionswertfunktion ersetzt wird:

Q(St,At)Q(St,At)+α(Rt+1+γQ(St+1,At+1)Q(St,At))Q(S_t, A_t) \gets Q(S_t, A_t) + \alpha \Bigl(R_{t+1} + \gamma Q(S_{t+1}, A_{t+1}) - Q(S_t, A_t)\Bigr)

Das At+1A_{t+1} ist die Aktion, die im nächsten Schritt tatsächlich ausgeführt wird, und sie wird gemäß der aktuellen Politik ausgewählt. Dies bedeutet, dass die Auswirkungen der Exploration in den Lernprozess einfließen.

Nach jeder Aktualisierung der Aktionswertfunktion wird auch die Politik angepasst, sodass der Agent die neuen Schätzwerte sofort nutzen kann.

Pseudocode

Wann sollte SARSA verwendet werden?

SARSA ist vorzuziehen, wenn:

  • Sie es mit Umgebungen mit hoher Stochastizität zu tun haben (z. B. rutschige Oberflächen, unzuverlässige Übergänge);
  • Sie einen langsameren Konvergenzprozess zugunsten eines sichereren Verhaltens während des Lernens akzeptieren.
question mark

In welchem Szenario ist SARSA besonders vorzuziehen?

Select the correct answer

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 5. Kapitel 3

Fragen Sie AI

expand

Fragen Sie AI

ChatGPT

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Awesome!

Completion rate improved to 2.7

bookSARSA: On-Policy-TD-Lernen

Swipe um das Menü anzuzeigen

Wie bei den Monte-Carlo-Methoden können wir dem Generalized Policy Iteration (GPI)-Rahmen folgen, um von der Schätzung von Wertfunktionen zum Erlernen optimaler Politiken überzugehen. Dieser Prozess bringt jedoch eine bekannte Herausforderung mit sich: den Trade-off zwischen Exploration und Exploitation. Ebenso gibt es zwei Ansätze, die wir verwenden können: On-Policy und Off-Policy. Zunächst betrachten wir die On-Policy-Methode — SARSA.

Note
Definition

SARSA ist ein On-Policy-TD-Kontrollalgorithmus, der zur Schätzung der Aktionswertfunktion qπ(s,a)q_\pi(s, a) verwendet wird. Die Aktualisierung der Schätzungen erfolgt auf Grundlage der tatsächlich ausgeführten Aktion, wodurch es sich um einen On-Policy-Algorithmus handelt.

Das Akronym SARSA leitet sich von den fünf Schlüsselelementen ab, die im Update verwendet werden:

  • S: aktueller Zustand StS_t;
  • A: ausgeführte Aktion AtA_t;
  • R: erhaltene Belohnung Rt+1R_{t+1};
  • S: nächster Zustand St+1S_{t+1};
  • A: nächste Aktion At+1A_{t+1}.

Aktualisierungsregel

Die Aktualisierungsregel ähnelt der TD(0), wobei lediglich die Zustandswertfunktion durch die Aktionswertfunktion ersetzt wird:

Q(St,At)Q(St,At)+α(Rt+1+γQ(St+1,At+1)Q(St,At))Q(S_t, A_t) \gets Q(S_t, A_t) + \alpha \Bigl(R_{t+1} + \gamma Q(S_{t+1}, A_{t+1}) - Q(S_t, A_t)\Bigr)

Das At+1A_{t+1} ist die Aktion, die im nächsten Schritt tatsächlich ausgeführt wird, und sie wird gemäß der aktuellen Politik ausgewählt. Dies bedeutet, dass die Auswirkungen der Exploration in den Lernprozess einfließen.

Nach jeder Aktualisierung der Aktionswertfunktion wird auch die Politik angepasst, sodass der Agent die neuen Schätzwerte sofort nutzen kann.

Pseudocode

Wann sollte SARSA verwendet werden?

SARSA ist vorzuziehen, wenn:

  • Sie es mit Umgebungen mit hoher Stochastizität zu tun haben (z. B. rutschige Oberflächen, unzuverlässige Übergänge);
  • Sie einen langsameren Konvergenzprozess zugunsten eines sichereren Verhaltens während des Lernens akzeptieren.
question mark

In welchem Szenario ist SARSA besonders vorzuziehen?

Select the correct answer

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 5. Kapitel 3
some-alt