Kursinhalt
Einführung in das Reinforcement Learning
Einführung in das Reinforcement Learning
Aktionswerte
Aktionswert ist ein grundlegendes Konzept im MAB-Problem. Er spielt eine entscheidende Rolle in verschiedenen Algorithmen, einschließlich Epsilon-Greedy und Upper Confidence Bound. Der Hauptzweck eines Aktionswerts besteht darin, eine Schätzung der erwarteten Belohnung bereitzustellen, wenn eine bestimmte Aktion gewählt wird. Er ist ähnlich wie ein Zustands-Aktionswert, ist jedoch aufgrund der zustandslosen Natur des MAB-Problems unabhängig von einem Zustand.
Definition des Aktionswerts
Formal stellt der Aktionswert, bezeichnet als , die erwartete Belohnung bei Auswahl der Aktion dar:
wobei:
- die erhaltene Belohnung ist;
- die gewählte Aktion ist.
Da die wahre Belohnungsverteilung in der Regel unbekannt ist, müssen wir anhand beobachteter Daten schätzen.
Schätzung von Aktionswerten
Es gibt mehrere Methoden, um basierend auf beobachteten Belohnungen zu schätzen. Die gebräuchlichste Methode ist die Stichprobenmittelwert-Schätzung, bei der der durchschnittliche Ertrag berechnet wird, der durch die Auswahl der Aktion bis zum Zeitpunkt erzielt wurde:
wobei:
- der geschätzte Wert der Aktion zum Zeitpunkt ist;
- die Anzahl der bisherigen Auswahlen der Aktion bis zum Zeitpunkt ist;
- die Belohnung ist, die in jedem Fall erhalten wurde, wenn die Aktion gewählt wurde.
Mit zunehmender Stichprobengröße nähert sich diese Schätzung dem wahren erwarteten Ertrag an, vorausgesetzt, die Belohnungsverteilung bleibt stationär.
Eine stationäre Verteilung ist eine Verteilung, die sich im Zeitverlauf nicht verändert, unabhängig davon, welche Aktionen gewählt werden oder wie sich die Umgebung verändert.
Inkrementelle Aktualisierungsregel
Obwohl die obige Formel zur Schätzung von Aktionswerten verwendet werden kann, erfordert sie das Speichern aller bisherigen Belohnungen und das erneute Berechnen ihrer Summe bei jedem Zeitschritt. Mit inkrementellen Aktualisierungen wird dies überflüssig. Die Formel für inkrementelle Aktualisierungen kann wie folgt hergeleitet werden:
wobei für eine bestimmte Aktion gilt:
- ist eine Schätzung der -ten Belohnung, die als Durchschnitt der ersten Belohnungen ausgedrückt werden kann;
- ist die tatsächliche -te Belohnung.
Intuition
Kennt man die Schätzung der -ten Belohnung, , und die tatsächliche -te Belohnung, , kann der Fehler als Differenz zwischen diesen Werten gemessen werden. Anschließend kann die nächste Schätzung berechnet werden, indem die vorherige Schätzung leicht in Richtung der tatsächlichen Belohnung angepasst wird, um den Fehler zu verringern.
Diese Intuition führt zu einer weiteren Formel, die wie folgt aussieht:
wobei ein Schrittweitenparameter ist, der die Lernrate steuert. Wie in der vorherigen Formel kann Alpha sein, was zu einer Stichprobenmittelwertschätzung führt. Alternativ wird häufig ein konstanter Wert für verwendet, da dies keinen zusätzlichen Speicherplatz (um zu speichern, wie oft eine Aktion ausgeführt wurde) erfordert und eine Anpassung an nicht-stationäre Umgebungen ermöglicht, indem neueren Beobachtungen mehr Gewicht beigemessen wird.
Optimistische Initialisierung
Zu Beginn eines Trainingsprozesses können die Schätzungen der Aktionswerte erheblich variieren, was zu vorzeitiger Ausnutzung führen kann. Das bedeutet, dass der Agent sein anfängliches Wissen zu früh ausnutzt und auf Grundlage von begrenzter Erfahrung suboptimale Aktionen bevorzugt. Um dieses Problem zu verringern und anfängliche Erkundung zu fördern, ist eine einfache und effektive Technik die optimistische Initialisierung.
Bei der optimistischen Initialisierung werden die Aktionswerte auf relativ hohe Werte gesetzt (z. B. statt 0). Dieser Ansatz vermittelt den Eindruck, dass alle Aktionen anfangs vielversprechend sind. Dadurch wird der Agent dazu angeregt, jede Aktion mehrfach zu erkunden, bevor er sich für die beste Option entscheidet. Diese Technik ist am effizientesten, wenn sie mit einer konstanten Schrittweite kombiniert wird.
Die Rate optimaler Aktionen in diesem und zukünftigen Diagrammen bezieht sich auf den Anteil der Umgebungen, in denen die optimale Aktion zu einem bestimmten Zeitschritt gewählt wurde.
Wenn es beispielsweise 10 Testumgebungen gibt und in 6 davon bei Zeitschritt 200 die optimale Aktion ausgewählt wurde, beträgt die Rate optimaler Aktionen für diesen Zeitschritt 0,6. Diese Kennzahl ist nützlich zur Leistungsbewertung, da sie mit der Maximierung der Belohnung korreliert, ohne von den genauen Belohnungswerten abhängig zu sein.
Danke für Ihr Feedback!