Inkrementelle Implementierungen
Das Speichern jeder Rückgabe für jedes Zustand-Aktions-Paar kann den Speicher schnell erschöpfen und die Rechenzeit erheblich erhöhen – insbesondere in großen Umgebungen. Diese Einschränkung betrifft sowohl On-Policy- als auch Off-Policy-Monte-Carlo-Kontrollalgorithmen. Um dem entgegenzuwirken, werden inkrementelle Berechnungsstrategien verwendet, ähnlich wie bei Multi-Armed-Bandit-Algorithmen. Diese Methoden ermöglichen es, Schätzwerte dynamisch zu aktualisieren, ohne vollständige Rückgabeverläufe zu speichern.
On-Policy-Monte-Carlo-Kontrolle
Für die On-Policy-Methode ähnelt die Aktualisierungsstrategie der Strategie, die in MAB-Algorithmen verwendet wird:
Q(s,a)←Q(s,a)+α(G−Q(s,a))wobei α=N(s,a)1 für die Mittelwertschätzung gilt. Die einzigen Werte, die gespeichert werden müssen, sind die aktuellen Schätzungen der Aktionswerte Q(s,a) und die Anzahl der Besuche des Zustand-Aktions-Paares (s,a), N(s,a).
Pseudocode
Off-Policy Monte-Carlo-Kontrolle
Für die Off-Policy-Methode mit gewöhnlichem Importance Sampling bleibt alles wie bei der On-Policy-Methode.
Eine interessantere Situation ergibt sich beim gewichteten Importance Sampling. Die Gleichung sieht gleich aus:
Q(s,a)←Q(s,a)+α(G−Q(s,a))aber α=N(s,a)1 kann nicht verwendet werden, weil:
- Jede Rückgabe wird mit ρ gewichtet;
- Die endgültige Summe wird nicht durch N(s,a), sondern durch ∑ρ(s,a) geteilt.
Der Wert von α, der in diesem Fall tatsächlich verwendet werden kann, ist gleich C(s,a)W, wobei:
- W das ρ für die aktuelle Trajektorie ist;
- C(s,a) gleich ∑ρ(s,a) ist.
Und jedes Mal, wenn das Zustand-Aktions-Paar (s,a) auftritt, wird das ρ der aktuellen Trajektorie zu C(s,a) addiert:
C(s,a)←C(s,a)+WPseudocode
Danke für Ihr Feedback!
Fragen Sie AI
Fragen Sie AI
Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen
Awesome!
Completion rate improved to 2.7
Inkrementelle Implementierungen
Swipe um das Menü anzuzeigen
Das Speichern jeder Rückgabe für jedes Zustand-Aktions-Paar kann den Speicher schnell erschöpfen und die Rechenzeit erheblich erhöhen – insbesondere in großen Umgebungen. Diese Einschränkung betrifft sowohl On-Policy- als auch Off-Policy-Monte-Carlo-Kontrollalgorithmen. Um dem entgegenzuwirken, werden inkrementelle Berechnungsstrategien verwendet, ähnlich wie bei Multi-Armed-Bandit-Algorithmen. Diese Methoden ermöglichen es, Schätzwerte dynamisch zu aktualisieren, ohne vollständige Rückgabeverläufe zu speichern.
On-Policy-Monte-Carlo-Kontrolle
Für die On-Policy-Methode ähnelt die Aktualisierungsstrategie der Strategie, die in MAB-Algorithmen verwendet wird:
Q(s,a)←Q(s,a)+α(G−Q(s,a))wobei α=N(s,a)1 für die Mittelwertschätzung gilt. Die einzigen Werte, die gespeichert werden müssen, sind die aktuellen Schätzungen der Aktionswerte Q(s,a) und die Anzahl der Besuche des Zustand-Aktions-Paares (s,a), N(s,a).
Pseudocode
Off-Policy Monte-Carlo-Kontrolle
Für die Off-Policy-Methode mit gewöhnlichem Importance Sampling bleibt alles wie bei der On-Policy-Methode.
Eine interessantere Situation ergibt sich beim gewichteten Importance Sampling. Die Gleichung sieht gleich aus:
Q(s,a)←Q(s,a)+α(G−Q(s,a))aber α=N(s,a)1 kann nicht verwendet werden, weil:
- Jede Rückgabe wird mit ρ gewichtet;
- Die endgültige Summe wird nicht durch N(s,a), sondern durch ∑ρ(s,a) geteilt.
Der Wert von α, der in diesem Fall tatsächlich verwendet werden kann, ist gleich C(s,a)W, wobei:
- W das ρ für die aktuelle Trajektorie ist;
- C(s,a) gleich ∑ρ(s,a) ist.
Und jedes Mal, wenn das Zustand-Aktions-Paar (s,a) auftritt, wird das ρ der aktuellen Trajektorie zu C(s,a) addiert:
C(s,a)←C(s,a)+WPseudocode
Danke für Ihr Feedback!