Inkrementelle Implementierungen
Das Speichern jeder Rückgabe für jedes Zustand-Aktions-Paar kann den Speicher schnell erschöpfen und die Rechenzeit erheblich erhöhen – insbesondere in großen Umgebungen. Diese Einschränkung betrifft sowohl On-Policy- als auch Off-Policy-Monte-Carlo-Kontrollalgorithmen. Um dem entgegenzuwirken, werden inkrementelle Berechnungsstrategien verwendet, ähnlich denen, die in Multi-Armed-Bandit-Algorithmen eingesetzt werden. Diese Methoden ermöglichen es, Wertschätzungen dynamisch zu aktualisieren, ohne vollständige Rückgabeverläufe zu speichern.
On-Policy-Monte-Carlo-Kontrolle
Für das On-Policy-Verfahren ähnelt die Aktualisierungsstrategie der Strategie, die in MAB-Algorithmen verwendet wird:
Q(s,a)←Q(s,a)+α(G−Q(s,a))wobei α=N(s,a)1 für die Mittelwertschätzung gilt. Die einzigen Werte, die gespeichert werden müssen, sind die aktuellen Schätzungen der Aktionswerte Q(s,a) und die Anzahl der Besuche des Zustand-Aktions-Paares (s,a), N(s,a).
Pseudocode
Off-Policy Monte-Carlo-Kontrolle
Für die Off-Policy-Methode mit gewöhnlichem Importance Sampling bleibt alles wie bei der On-Policy-Methode.
Eine interessantere Situation ergibt sich beim gewichteten Importance Sampling. Die Gleichung sieht gleich aus:
Q(s,a)←Q(s,a)+α(G−Q(s,a))aber α=N(s,a)1 kann nicht verwendet werden, weil:
- Jede Rückgabe mit ρ gewichtet wird;
- Die endgültige Summe nicht durch N(s,a), sondern durch ∑ρ(s,a) geteilt wird.
Der Wert von α, der in diesem Fall tatsächlich verwendet werden kann, ist gleich C(s,a)W, wobei:
- W ein ρ für die aktuelle Trajektorie ist;
- C(s,a) gleich ∑ρ(s,a) ist.
Und jedes Mal, wenn das Zustand-Aktions-Paar (s,a) auftritt, wird das ρ der aktuellen Trajektorie zu C(s,a) addiert:
C(s,a)←C(s,a)+WPseudocode
Danke für Ihr Feedback!
Fragen Sie AI
Fragen Sie AI
Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen
Awesome!
Completion rate improved to 2.7
Inkrementelle Implementierungen
Swipe um das Menü anzuzeigen
Das Speichern jeder Rückgabe für jedes Zustand-Aktions-Paar kann den Speicher schnell erschöpfen und die Rechenzeit erheblich erhöhen – insbesondere in großen Umgebungen. Diese Einschränkung betrifft sowohl On-Policy- als auch Off-Policy-Monte-Carlo-Kontrollalgorithmen. Um dem entgegenzuwirken, werden inkrementelle Berechnungsstrategien verwendet, ähnlich denen, die in Multi-Armed-Bandit-Algorithmen eingesetzt werden. Diese Methoden ermöglichen es, Wertschätzungen dynamisch zu aktualisieren, ohne vollständige Rückgabeverläufe zu speichern.
On-Policy-Monte-Carlo-Kontrolle
Für das On-Policy-Verfahren ähnelt die Aktualisierungsstrategie der Strategie, die in MAB-Algorithmen verwendet wird:
Q(s,a)←Q(s,a)+α(G−Q(s,a))wobei α=N(s,a)1 für die Mittelwertschätzung gilt. Die einzigen Werte, die gespeichert werden müssen, sind die aktuellen Schätzungen der Aktionswerte Q(s,a) und die Anzahl der Besuche des Zustand-Aktions-Paares (s,a), N(s,a).
Pseudocode
Off-Policy Monte-Carlo-Kontrolle
Für die Off-Policy-Methode mit gewöhnlichem Importance Sampling bleibt alles wie bei der On-Policy-Methode.
Eine interessantere Situation ergibt sich beim gewichteten Importance Sampling. Die Gleichung sieht gleich aus:
Q(s,a)←Q(s,a)+α(G−Q(s,a))aber α=N(s,a)1 kann nicht verwendet werden, weil:
- Jede Rückgabe mit ρ gewichtet wird;
- Die endgültige Summe nicht durch N(s,a), sondern durch ∑ρ(s,a) geteilt wird.
Der Wert von α, der in diesem Fall tatsächlich verwendet werden kann, ist gleich C(s,a)W, wobei:
- W ein ρ für die aktuelle Trajektorie ist;
- C(s,a) gleich ∑ρ(s,a) ist.
Und jedes Mal, wenn das Zustand-Aktions-Paar (s,a) auftritt, wird das ρ der aktuellen Trajektorie zu C(s,a) addiert:
C(s,a)←C(s,a)+WPseudocode
Danke für Ihr Feedback!