Inkrementelle Implementierungen
Swipe um das Menü anzuzeigen
Das Speichern jeder einzelnen Rückgabe für jedes Zustand-Aktions-Paar kann den Speicher schnell erschöpfen und die Rechenzeit erheblich erhöhen – insbesondere in großen Umgebungen. Diese Einschränkung betrifft sowohl On-Policy- als auch Off-Policy-Monte-Carlo-Kontrollalgorithmen. Um dem entgegenzuwirken, werden inkrementelle Berechnungsstrategien verwendet, ähnlich wie bei Multi-Armed-Bandit-Algorithmen. Diese Methoden ermöglichen es, Wertschätzungen dynamisch zu aktualisieren, ohne vollständige Rückgabeverläufe zu speichern.
On-Policy-Monte-Carlo-Kontrolle
Für die On-Policy-Methode ähnelt die Aktualisierungsstrategie der Strategie, die in MAB-Algorithmen verwendet wird:
Q(s,a)←Q(s,a)+α(G−Q(s,a))wobei α=N(s,a)1 für die Mittelwertschätzung gilt. Die einzigen Werte, die gespeichert werden müssen, sind die aktuellen Schätzungen der Aktionswerte Q(s,a) und die Anzahl der Besuche des Zustand-Aktions-Paares (s,a), also N(s,a).
Pseudocode
Off-Policy Monte-Carlo-Kontrolle
Für das Off-Policy-Verfahren mit gewöhnlichem Importance Sampling bleibt alles wie beim On-Policy-Verfahren.
Eine interessantere Situation ergibt sich beim gewichteten Importance Sampling. Die Gleichung sieht gleich aus:
Q(s,a)←Q(s,a)+α(G−Q(s,a))aber α=N(s,a)1 kann nicht verwendet werden, weil:
- Jede Rückgabe mit ρ gewichtet wird;
- Die endgültige Summe nicht durch N(s,a), sondern durch ∑ρ(s,a) geteilt wird.
Der Wert von α, der in diesem Fall tatsächlich verwendet werden kann, entspricht C(s,a)W, wobei:
- W das ρ für die aktuelle Trajektorie ist;
- C(s,a) gleich ∑ρ(s,a) ist.
Und jedes Mal, wenn das Zustand-Aktions-Paar (s,a) auftritt, wird das ρ der aktuellen Trajektorie zu C(s,a) addiert:
C(s,a)←C(s,a)+WPseudocode
Danke für Ihr Feedback!
Fragen Sie AI
Fragen Sie AI
Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen