Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lernen SARSA: On-Policy-TD-Lernen | Temporal-Differenz-Lernen
Einführung in Reinforcement Learning

bookSARSA: On-Policy-TD-Lernen

Wie bei den Monte-Carlo-Methoden können wir dem Rahmenwerk der generalisierten Politikiteration (GPI) folgen, um von der Schätzung von Wertfunktionen zum Erlernen optimaler Politiken überzugehen. Dieser Prozess bringt jedoch eine bekannte Herausforderung mit sich: den Trade-off zwischen Exploration und Ausbeutung. Ebenso gibt es zwei Ansätze, die wir verwenden können: On-Policy und Off-Policy. Zunächst betrachten wir die On-Policy-Methode — SARSA.

Note
Definition

SARSA ist ein On-Policy-TD-Kontrollalgorithmus, der zur Schätzung der Aktionswertfunktion qπ(s,a)q_\pi(s, a) verwendet wird. Er aktualisiert seine Schätzungen basierend auf der tatsächlich ausgeführten Aktion und ist somit ein On-Policy-Algorithmus.

Das Akronym SARSA leitet sich von den fünf Schlüsselelementen ab, die im Update verwendet werden:

  • S: aktueller Zustand StS_t;
  • A: ausgeführte Aktion AtA_t;
  • R: erhaltene Belohnung Rt+1R_{t+1};
  • S: nächster Zustand St+1S_{t+1};
  • A: nächste Aktion At+1A_{t+1}.

Aktualisierungsregel

Die Aktualisierungsregel ähnelt der TD(0), wobei lediglich die Zustandswertfunktion durch die Aktionswertfunktion ersetzt wird:

Q(St,At)Q(St,At)+α(Rt+1+γQ(St+1,At+1)Q(St,At))Q(S_t, A_t) \gets Q(S_t, A_t) + \alpha \Bigl(R_{t+1} + \gamma Q(S_{t+1}, A_{t+1}) - Q(S_t, A_t)\Bigr)

Das At+1A_{t+1} ist die Aktion, die im nächsten Schritt tatsächlich ausgeführt wird, und sie wird gemäß der aktuellen Politik ausgewählt. Dies bedeutet, dass die Auswirkungen der Exploration in den Lernprozess einfließen.

Nach jeder Aktualisierung der Aktionswertfunktion wird auch die Politik angepasst, sodass der Agent die neuen Schätzwerte unmittelbar nutzen kann.

Pseudocode

Wann sollte SARSA verwendet werden?

SARSA ist vorzuziehen, wenn:

  • Sie es mit Umgebungen mit hoher Stochastizität zu tun haben (z. B. rutschige Oberflächen, unzuverlässige Übergänge);
  • Sie einen langsameren Konvergenzprozess zugunsten eines sichereren Verhaltens während des Lernens akzeptieren.
question mark

In welchem Szenario ist SARSA besonders vorzuziehen?

Select the correct answer

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 5. Kapitel 3

Fragen Sie AI

expand

Fragen Sie AI

ChatGPT

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Suggested prompts:

Can you explain the difference between SARSA and Q-learning?

How does the exploration-exploitation tradeoff affect SARSA?

Can you give an example of when SARSA would be better than other methods?

Awesome!

Completion rate improved to 2.7

bookSARSA: On-Policy-TD-Lernen

Swipe um das Menü anzuzeigen

Wie bei den Monte-Carlo-Methoden können wir dem Rahmenwerk der generalisierten Politikiteration (GPI) folgen, um von der Schätzung von Wertfunktionen zum Erlernen optimaler Politiken überzugehen. Dieser Prozess bringt jedoch eine bekannte Herausforderung mit sich: den Trade-off zwischen Exploration und Ausbeutung. Ebenso gibt es zwei Ansätze, die wir verwenden können: On-Policy und Off-Policy. Zunächst betrachten wir die On-Policy-Methode — SARSA.

Note
Definition

SARSA ist ein On-Policy-TD-Kontrollalgorithmus, der zur Schätzung der Aktionswertfunktion qπ(s,a)q_\pi(s, a) verwendet wird. Er aktualisiert seine Schätzungen basierend auf der tatsächlich ausgeführten Aktion und ist somit ein On-Policy-Algorithmus.

Das Akronym SARSA leitet sich von den fünf Schlüsselelementen ab, die im Update verwendet werden:

  • S: aktueller Zustand StS_t;
  • A: ausgeführte Aktion AtA_t;
  • R: erhaltene Belohnung Rt+1R_{t+1};
  • S: nächster Zustand St+1S_{t+1};
  • A: nächste Aktion At+1A_{t+1}.

Aktualisierungsregel

Die Aktualisierungsregel ähnelt der TD(0), wobei lediglich die Zustandswertfunktion durch die Aktionswertfunktion ersetzt wird:

Q(St,At)Q(St,At)+α(Rt+1+γQ(St+1,At+1)Q(St,At))Q(S_t, A_t) \gets Q(S_t, A_t) + \alpha \Bigl(R_{t+1} + \gamma Q(S_{t+1}, A_{t+1}) - Q(S_t, A_t)\Bigr)

Das At+1A_{t+1} ist die Aktion, die im nächsten Schritt tatsächlich ausgeführt wird, und sie wird gemäß der aktuellen Politik ausgewählt. Dies bedeutet, dass die Auswirkungen der Exploration in den Lernprozess einfließen.

Nach jeder Aktualisierung der Aktionswertfunktion wird auch die Politik angepasst, sodass der Agent die neuen Schätzwerte unmittelbar nutzen kann.

Pseudocode

Wann sollte SARSA verwendet werden?

SARSA ist vorzuziehen, wenn:

  • Sie es mit Umgebungen mit hoher Stochastizität zu tun haben (z. B. rutschige Oberflächen, unzuverlässige Übergänge);
  • Sie einen langsameren Konvergenzprozess zugunsten eines sichereren Verhaltens während des Lernens akzeptieren.
question mark

In welchem Szenario ist SARSA besonders vorzuziehen?

Select the correct answer

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 5. Kapitel 3
some-alt