Lernen SARSA: On-Policy-TD-Lernen

Wie bei den Monte-Carlo-Methoden können wir dem Generalized Policy Iteration (GPI)-Rahmen folgen, um von der Schätzung von Wertfunktionen zum Erlernen optimaler Politiken überzugehen. Dieser Prozess bringt jedoch eine bekannte Herausforderung mit sich: den Trade-off zwischen Exploration und Exploitation. Ebenso gibt es zwei Ansätze, die wir verwenden können: On-Policy und Off-Policy. Zunächst betrachten wir die On-Policy-Methode — SARSA.

Definition

SARSA ist ein On-Policy-TD-Kontrollalgorithmus, der zur Schätzung der Aktionswertfunktion $q_\pi(s, a)$ verwendet wird. Die Aktualisierung der Schätzungen erfolgt auf Grundlage der tatsächlich ausgeführten Aktion, wodurch es sich um einen On-Policy-Algorithmus handelt.

Das Akronym SARSA leitet sich von den fünf Schlüsselelementen ab, die im Update verwendet werden:

S: aktueller Zustand $S_t$ ;
A: ausgeführte Aktion $A_t$ ;
R: erhaltene Belohnung $R_{t+1}$ ;
S: nächster Zustand $S_{t+1}$ ;
A: nächste Aktion $A_{t+1}$ .

Aktualisierungsregel

Die Aktualisierungsregel ähnelt der TD(0), wobei lediglich die Zustandswertfunktion durch die Aktionswertfunktion ersetzt wird:

Q(S_t, A_t) \gets Q(S_t, A_t) + \alpha \Bigl(R_{t+1} + \gamma Q(S_{t+1}, A_{t+1}) - Q(S_t, A_t)\Bigr)

Das $A_{t+1}$ ist die Aktion, die im nächsten Schritt tatsächlich ausgeführt wird, und sie wird gemäß der aktuellen Politik ausgewählt. Dies bedeutet, dass die Auswirkungen der Exploration in den Lernprozess einfließen.

Nach jeder Aktualisierung der Aktionswertfunktion wird auch die Politik angepasst, sodass der Agent die neuen Schätzwerte sofort nutzen kann.

Pseudocode

Wann sollte SARSA verwendet werden?

SARSA ist vorzuziehen, wenn:

Sie es mit Umgebungen mit hoher Stochastizität zu tun haben (z. B. rutschige Oberflächen, unzuverlässige Übergänge);
Sie einen langsameren Konvergenzprozess zugunsten eines sichereren Verhaltens während des Lernens akzeptieren.

War alles klar?

Danke für Ihr Feedback!

Abschnitt 5. Kapitel 3

Fragen Sie AI

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Suggested prompts:

Can you explain the difference between SARSA and Q-learning?

How does the exploration-exploitation tradeoff affect SARSA?

Can you give an example of when SARSA would be better than other methods?

Swipe um das Menü anzuzeigen