Aktionswerte
Aktionswert ist ein grundlegendes Konzept im MAB-Problem. Er spielt eine entscheidende Rolle in verschiedenen Algorithmen, einschließlich Epsilon-Greedy und Upper Confidence Bound. Der Hauptzweck eines Aktionswerts besteht darin, eine Schätzung der erwarteten Belohnung zu liefern, wenn eine bestimmte Aktion ausgewählt wird. Er ist vergleichbar mit einem Zustand-Aktion-Wert, ist jedoch aufgrund der zustandslosen Natur des MAB-Problems unabhängig von einem Zustand.
Definition des Aktionswerts
Formal stellt der Aktionswert, bezeichnet als Q(a), die erwartete Belohnung bei Auswahl der Aktion a dar:
Q(a)=E[R∣A=a]wobei:
- R die erhaltene Belohnung ist;
- A die gewählte Aktion ist.
Da die wahre Belohnungsverteilung in der Regel unbekannt ist, muss Q(a) anhand beobachteter Daten geschätzt werden.
Schätzung von Aktionswerten
Es gibt mehrere Methoden zur Schätzung von Q(a) basierend auf beobachteten Belohnungen. Die gebräuchlichste Methode ist die Stichprobenmittelwert-Schätzung, bei der der durchschnittliche Ertrag berechnet wird, der durch die Auswahl der Aktion a bis zum Zeitpunkt t erzielt wurde:
Qt(a)=Nt(a)R1+R2+...+RNt(a)=Nt(a)∑i=1Nt(a)Riwobei:
- Qt(a) der geschätzte Wert der Aktion a zum Zeitpunkt t ist;
- Nt(a) die Anzahl der bisherigen Auswahlen der Aktion a bis zum Zeitpunkt t ist;
- Ri die Belohnung ist, die in jedem Fall erhalten wurde, wenn Aktion a gewählt wurde.
Mit zunehmender Stichprobengröße konvergiert diese Schätzung gegen die wahre erwartete Belohnung Q∗(a), vorausgesetzt, die Belohnungsverteilung bleibt stationär.
Eine stationäre Verteilung ist eine Verteilung, die sich im Zeitverlauf nicht ändert, unabhängig davon, welche Aktionen gewählt werden oder wie sich die Umgebung verändert.
Inkrementelle Aktualisierungsregel
Obwohl die obige Formel zur Schätzung von Aktionswerten verwendet werden kann, erfordert sie das Speichern aller bisherigen Belohnungen und das erneute Berechnen ihrer Summe bei jedem Zeitschritt. Mit inkrementellen Aktualisierungen wird dies überflüssig. Die Formel für inkrementelle Aktualisierungen kann wie folgt hergeleitet werden:
Qk+1=k1i=1∑kRi=k1(Rk+i=1∑k−1Ri)=k1(Rk+(k−1)Qk)=k1(Rk+kQk−Qk)=Qk+k1(Rk−Qk)wobei für eine bestimmte Aktion gilt:
- Qk ist eine Schätzung der k-ten Belohnung, die als Durchschnitt der ersten k−1 Belohnungen ausgedrückt werden kann;
- Rk ist die tatsächliche k-te Belohnung.
Intuition
Kennt man die Schätzung der k-ten Belohnung, Qk, und die tatsächliche k-te Belohnung, Rk, kann der Fehler als Differenz zwischen diesen Werten gemessen werden. Anschließend kann die nächste Schätzung berechnet werden, indem die vorherige Schätzung leicht in Richtung der tatsächlichen Belohnung angepasst wird, um den Fehler zu verringern.
Diese Intuition führt zu einer weiteren Formel, die wie folgt aussieht:
Qk+1=Qk+α(Rk−Qk)wobei α ein Schrittweitenparameter ist, der die Lernrate steuert. Wie in der vorherigen Formel kann Alpha k1 sein, was zu einer Schätzung des Stichprobenmittels führt. Alternativ wird häufig ein konstanter Wert für α verwendet, da hierfür kein zusätzlicher Speicherplatz (um zu speichern, wie oft eine Aktion ausgeführt wurde) erforderlich ist und eine Anpassung an nicht-stationäre Umgebungen ermöglicht wird, indem neueren Beobachtungen mehr Gewicht beigemessen wird.
Optimistische Initialisierung
Zu Beginn eines Trainingsprozesses können die Schätzungen der Aktionswerte erheblich variieren, was zu einer vorzeitigen Ausnutzung führen kann. Das bedeutet, dass der Agent sein anfängliches Wissen zu früh ausnutzt und auf Grundlage von begrenzter Erfahrung suboptimale Aktionen bevorzugt. Um dieses Problem zu mindern und eine anfängliche Erkundung zu fördern, ist die optimistische Initialisierung eine einfache und effektive Technik.
Bei der optimistischen Initialisierung werden die Aktionswerte auf relativ hohe Werte gesetzt (z. B. Q0(a)=1 statt 0). Dieser Ansatz vermittelt den Eindruck, dass alle Aktionen anfangs vielversprechend sind. Dadurch wird der Agent dazu angeregt, jede Aktion mehrfach zu erkunden, bevor er sich für die beste Option entscheidet. Diese Technik ist am effizientesten, wenn sie mit einer konstanten Schrittweite kombiniert wird.
Die Rate optimaler Aktionen in diesem und zukünftigen Diagrammen bezieht sich auf den Anteil der Umgebungen, in denen die optimale Aktion zu einem bestimmten Zeitschritt gewählt wurde.
Beispielsweise, wenn es 10 Testumgebungen gibt und in 6 davon die optimale Aktion zum Zeitschritt 200 ausgewählt wurde, beträgt die Rate optimaler Aktionen für diesen Zeitschritt 0,6. Diese Kennzahl ist nützlich zur Leistungsbewertung, da sie mit der Maximierung der Belohnung korreliert, ohne von den genauen Belohnungswerten abhängig zu sein.
Danke für Ihr Feedback!
Fragen Sie AI
Fragen Sie AI
Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen
Awesome!
Completion rate improved to 2.7
Aktionswerte
Swipe um das Menü anzuzeigen
Aktionswert ist ein grundlegendes Konzept im MAB-Problem. Er spielt eine entscheidende Rolle in verschiedenen Algorithmen, einschließlich Epsilon-Greedy und Upper Confidence Bound. Der Hauptzweck eines Aktionswerts besteht darin, eine Schätzung der erwarteten Belohnung zu liefern, wenn eine bestimmte Aktion ausgewählt wird. Er ist vergleichbar mit einem Zustand-Aktion-Wert, ist jedoch aufgrund der zustandslosen Natur des MAB-Problems unabhängig von einem Zustand.
Definition des Aktionswerts
Formal stellt der Aktionswert, bezeichnet als Q(a), die erwartete Belohnung bei Auswahl der Aktion a dar:
Q(a)=E[R∣A=a]wobei:
- R die erhaltene Belohnung ist;
- A die gewählte Aktion ist.
Da die wahre Belohnungsverteilung in der Regel unbekannt ist, muss Q(a) anhand beobachteter Daten geschätzt werden.
Schätzung von Aktionswerten
Es gibt mehrere Methoden zur Schätzung von Q(a) basierend auf beobachteten Belohnungen. Die gebräuchlichste Methode ist die Stichprobenmittelwert-Schätzung, bei der der durchschnittliche Ertrag berechnet wird, der durch die Auswahl der Aktion a bis zum Zeitpunkt t erzielt wurde:
Qt(a)=Nt(a)R1+R2+...+RNt(a)=Nt(a)∑i=1Nt(a)Riwobei:
- Qt(a) der geschätzte Wert der Aktion a zum Zeitpunkt t ist;
- Nt(a) die Anzahl der bisherigen Auswahlen der Aktion a bis zum Zeitpunkt t ist;
- Ri die Belohnung ist, die in jedem Fall erhalten wurde, wenn Aktion a gewählt wurde.
Mit zunehmender Stichprobengröße konvergiert diese Schätzung gegen die wahre erwartete Belohnung Q∗(a), vorausgesetzt, die Belohnungsverteilung bleibt stationär.
Eine stationäre Verteilung ist eine Verteilung, die sich im Zeitverlauf nicht ändert, unabhängig davon, welche Aktionen gewählt werden oder wie sich die Umgebung verändert.
Inkrementelle Aktualisierungsregel
Obwohl die obige Formel zur Schätzung von Aktionswerten verwendet werden kann, erfordert sie das Speichern aller bisherigen Belohnungen und das erneute Berechnen ihrer Summe bei jedem Zeitschritt. Mit inkrementellen Aktualisierungen wird dies überflüssig. Die Formel für inkrementelle Aktualisierungen kann wie folgt hergeleitet werden:
Qk+1=k1i=1∑kRi=k1(Rk+i=1∑k−1Ri)=k1(Rk+(k−1)Qk)=k1(Rk+kQk−Qk)=Qk+k1(Rk−Qk)wobei für eine bestimmte Aktion gilt:
- Qk ist eine Schätzung der k-ten Belohnung, die als Durchschnitt der ersten k−1 Belohnungen ausgedrückt werden kann;
- Rk ist die tatsächliche k-te Belohnung.
Intuition
Kennt man die Schätzung der k-ten Belohnung, Qk, und die tatsächliche k-te Belohnung, Rk, kann der Fehler als Differenz zwischen diesen Werten gemessen werden. Anschließend kann die nächste Schätzung berechnet werden, indem die vorherige Schätzung leicht in Richtung der tatsächlichen Belohnung angepasst wird, um den Fehler zu verringern.
Diese Intuition führt zu einer weiteren Formel, die wie folgt aussieht:
Qk+1=Qk+α(Rk−Qk)wobei α ein Schrittweitenparameter ist, der die Lernrate steuert. Wie in der vorherigen Formel kann Alpha k1 sein, was zu einer Schätzung des Stichprobenmittels führt. Alternativ wird häufig ein konstanter Wert für α verwendet, da hierfür kein zusätzlicher Speicherplatz (um zu speichern, wie oft eine Aktion ausgeführt wurde) erforderlich ist und eine Anpassung an nicht-stationäre Umgebungen ermöglicht wird, indem neueren Beobachtungen mehr Gewicht beigemessen wird.
Optimistische Initialisierung
Zu Beginn eines Trainingsprozesses können die Schätzungen der Aktionswerte erheblich variieren, was zu einer vorzeitigen Ausnutzung führen kann. Das bedeutet, dass der Agent sein anfängliches Wissen zu früh ausnutzt und auf Grundlage von begrenzter Erfahrung suboptimale Aktionen bevorzugt. Um dieses Problem zu mindern und eine anfängliche Erkundung zu fördern, ist die optimistische Initialisierung eine einfache und effektive Technik.
Bei der optimistischen Initialisierung werden die Aktionswerte auf relativ hohe Werte gesetzt (z. B. Q0(a)=1 statt 0). Dieser Ansatz vermittelt den Eindruck, dass alle Aktionen anfangs vielversprechend sind. Dadurch wird der Agent dazu angeregt, jede Aktion mehrfach zu erkunden, bevor er sich für die beste Option entscheidet. Diese Technik ist am effizientesten, wenn sie mit einer konstanten Schrittweite kombiniert wird.
Die Rate optimaler Aktionen in diesem und zukünftigen Diagrammen bezieht sich auf den Anteil der Umgebungen, in denen die optimale Aktion zu einem bestimmten Zeitschritt gewählt wurde.
Beispielsweise, wenn es 10 Testumgebungen gibt und in 6 davon die optimale Aktion zum Zeitschritt 200 ausgewählt wurde, beträgt die Rate optimaler Aktionen für diesen Zeitschritt 0,6. Diese Kennzahl ist nützlich zur Leistungsbewertung, da sie mit der Maximierung der Belohnung korreliert, ohne von den genauen Belohnungswerten abhängig zu sein.
Danke für Ihr Feedback!