Kursinhalt
Einführung in das Reinforcement Learning
Einführung in das Reinforcement Learning
Inkrementelle Implementierungen
Das Speichern jeder Rückgabe für jedes Zustand-Aktions-Paar kann den Speicher schnell erschöpfen und die Rechenzeit erheblich erhöhen – insbesondere in großen Umgebungen. Diese Einschränkung betrifft sowohl On-Policy- als auch Off-Policy-Monte-Carlo-Kontrollalgorithmen. Um dem entgegenzuwirken, werden inkrementelle Berechnungsstrategien verwendet, ähnlich wie bei Multi-Armed-Bandit-Algorithmen. Diese Methoden ermöglichen es, Schätzwerte dynamisch zu aktualisieren, ohne vollständige Rückgabeverläufe zu speichern.
On-Policy-Monte-Carlo-Kontrolle
Für die On-Policy-Methode ähnelt die Aktualisierungsstrategie der Strategie, die in MAB-Algorithmen verwendet wird:
wobei für die Mittelwertschätzung gilt. Die einzigen Werte, die gespeichert werden müssen, sind die aktuellen Schätzungen der Aktionswerte und die Anzahl der Besuche des Zustand-Aktions-Paares , .
Pseudocode
Off-Policy Monte-Carlo-Kontrolle
Für die Off-Policy-Methode mit gewöhnlichem Importance Sampling bleibt alles wie bei der On-Policy-Methode.
Eine interessantere Situation ergibt sich beim gewichteten Importance Sampling. Die Gleichung sieht gleich aus:
aber kann nicht verwendet werden, weil:
- Jede Rückgabe wird mit gewichtet;
- Die endgültige Summe wird nicht durch , sondern durch geteilt.
Der Wert von , der in diesem Fall tatsächlich verwendet werden kann, ist gleich , wobei:
- das für die aktuelle Trajektorie ist;
- gleich ist.
Und jedes Mal, wenn das Zustand-Aktions-Paar auftritt, wird das der aktuellen Trajektorie zu addiert:
Pseudocode
Danke für Ihr Feedback!