Lernen Aktionswerte | Multi-Armed-Bandit-Problem

Aktionswert ist ein grundlegendes Konzept im MAB-Problem. Er spielt eine entscheidende Rolle in verschiedenen Algorithmen, einschließlich Epsilon-Greedy und Upper Confidence Bound. Der Hauptzweck eines Aktionswerts besteht darin, eine Schätzung der erwarteten Belohnung bereitzustellen, wenn eine bestimmte Aktion gewählt wird. Er ist ähnlich wie ein Zustands-Aktionswert, ist jedoch aufgrund der zustandslosen Natur des MAB-Problems unabhängig von einem Zustand.

Definition des Aktionswerts

Formal stellt der Aktionswert, bezeichnet als $Q(a)$ , die erwartete Belohnung bei Auswahl der Aktion $a$ dar:

\def\E{\operatorname{\mathbb{E}}} Q(a) = \E[R | A = a]

wobei:

$R$ die erhaltene Belohnung ist;
$A$ die gewählte Aktion ist.

Da die wahre Belohnungsverteilung in der Regel unbekannt ist, muss $Q(a)$ anhand beobachteter Daten geschätzt werden.

Schätzung von Aktionswerten

Es gibt verschiedene Methoden zur Schätzung von $Q(a)$ basierend auf beobachteten Belohnungen. Die gebräuchlichste Methode ist die Stichprobenmittelwert-Schätzung, bei der der durchschnittliche Ertrag berechnet wird, der durch die Auswahl der Aktion $a$ bis zum Zeitpunkt $t$ erzielt wurde:

Q_t(a) = \frac{R_1 + R_2 + ... + R_{N_t(a)}}{N_t(a)} = \frac{\sum_{i=1}^{N_t(a)} R_i}{N_t(a)}

wobei:

$Q_t(a)$ der geschätzte Wert der Aktion $a$ zum Zeitpunkt $t$ ist;
$N_t(a)$ die Anzahl der bisherigen Auswahlen der Aktion $a$ bis zum Zeitpunkt $t$ ist;
$R_i$ die Belohnung ist, die in jedem Fall erhalten wurde, wenn Aktion $a$ gewählt wurde.

Mit zunehmender Stichprobengröße nähert sich diese Schätzung dem wahren erwarteten Ertrag $Q_*(a)$ an, vorausgesetzt, die Belohnungsverteilung bleibt stationär.

Definition

Eine stationäre Verteilung ist eine Verteilung, die sich im Zeitverlauf nicht ändert, unabhängig davon, welche Aktionen gewählt werden oder wie sich die Umgebung verändert.

Inkrementelle Aktualisierungsregel

Obwohl die obige Formel zur Schätzung von Aktionswerten verwendet werden kann, erfordert sie das Speichern aller bisherigen Belohnungen und das erneute Berechnen ihrer Summe bei jedem Zeitschritt. Mit inkrementellen Aktualisierungen wird dies überflüssig. Die Formel für inkrementelle Aktualisierungen kann wie folgt hergeleitet werden:

\begin{aligned} Q_{k+1} &= \frac1k \sum_{i=1}^k R_i\\ &= \frac1k (R_k + \sum_{i=1}^{k-1} R_i)\\ &= \frac1k (R_k + (k-1) Q_k)\\ &= \frac1k (R_k + k Q_k - Q_k)\\ &= Q_k + \frac1k(R_k - Q_k) \end{aligned}

wobei für eine Aktion gilt:

$Q_k$ ist eine Schätzung der $k$ -ten Belohnung, die als Durchschnitt der ersten $k-1$ Belohnungen ausgedrückt werden kann;
$R_k$ ist die tatsächliche $k$ -te Belohnung.

Intuition

Mit Kenntnis der Schätzung der $k$ -ten Belohnung, $Q_k$ , und der tatsächlichen $k$ -ten Belohnung, $R_k$ , kann der Fehler als Differenz zwischen diesen Werten gemessen werden. Anschließend kann die nächste Schätzung berechnet werden, indem die vorherige Schätzung leicht in Richtung der tatsächlichen Belohnung angepasst wird, um den Fehler zu verringern.

Diese Intuition führt zu einer weiteren Formel, die wie folgt aussieht:

Q_{k+1} = Q_k + \alpha (R_k - Q_k)

wobei $\alpha$ ein Schrittweitenparameter ist, der die Lernrate steuert. Wie in der vorherigen Formel kann Alpha $\frac1k$ sein, was zu einer Schätzung des Stichprobenmittels führt. Alternativ wird häufig ein konstanter Wert für $\alpha$ verwendet, da hierfür kein zusätzlicher Speicherplatz (um zu speichern, wie oft eine Aktion ausgeführt wurde) erforderlich ist und eine Anpassung an nicht-stationäre Umgebungen ermöglicht wird, indem neueren Beobachtungen mehr Gewicht beigemessen wird.

Optimistische Initialisierung

Zu Beginn eines Trainingsprozesses können die Schätzungen der Aktionswerte erheblich variieren, was zu vorzeitiger Ausnutzung führen kann. Das bedeutet, dass der Agent sein anfängliches Wissen zu früh ausnutzt und auf Grundlage von begrenzter Erfahrung suboptimale Aktionen bevorzugt. Um dieses Problem zu verringern und anfängliche Erkundung zu fördern, ist die optimistische Initialisierung eine einfache und effektive Technik.

Bei der optimistischen Initialisierung werden die Aktionswerte auf relativ hohe Werte gesetzt (z. B. $Q_0(a) = 1$ statt 0). Dadurch entsteht der Eindruck, dass alle Aktionen anfangs vielversprechend sind. Infolgedessen wird der Agent dazu angeregt, jede Aktion mehrfach zu erkunden, bevor er sich für die beste Option entscheidet. Diese Technik ist am effizientesten, wenn sie mit einer konstanten Schrittweite kombiniert wird.

Hinweis

Die Rate optimaler Aktionen in diesem und zukünftigen Diagrammen bezieht sich auf den Anteil der Umgebungen, in denen die optimale Aktion zu einem bestimmten Zeitschritt gewählt wurde.

Beispielsweise, wenn es 10 Testumgebungen gibt und in 6 davon die optimale Aktion zum Zeitschritt 200 ausgewählt wurde, beträgt die Rate optimaler Aktionen für diesen Zeitschritt 0,6. Diese Kennzahl ist nützlich zur Leistungsbewertung, da sie mit der Maximierung der Belohnung korreliert, ohne von den genauen Belohnungswerten abhängig zu sein.

War alles klar?

Danke für Ihr Feedback!

Abschnitt 2. Kapitel 2

Fragen Sie AI

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Suggested prompts:

Can you explain more about the difference between sample average and incremental update methods?

How does optimistic initialization affect the exploration-exploitation tradeoff?

What are some practical scenarios where constant step-size is preferred over sample average?

Swipe um das Menü anzuzeigen

Definition des Aktionswerts

Formal stellt der Aktionswert, bezeichnet als $Q(a)$ , die erwartete Belohnung bei Auswahl der Aktion $a$ dar:

\def\E{\operatorname{\mathbb{E}}} Q(a) = \E[R | A = a]

wobei:

$R$ die erhaltene Belohnung ist;
$A$ die gewählte Aktion ist.

Da die wahre Belohnungsverteilung in der Regel unbekannt ist, muss $Q(a)$ anhand beobachteter Daten geschätzt werden.

Schätzung von Aktionswerten

Q_t(a) = \frac{R_1 + R_2 + ... + R_{N_t(a)}}{N_t(a)} = \frac{\sum_{i=1}^{N_t(a)} R_i}{N_t(a)}

wobei:

$Q_t(a)$ der geschätzte Wert der Aktion $a$ zum Zeitpunkt $t$ ist;
$N_t(a)$ die Anzahl der bisherigen Auswahlen der Aktion $a$ bis zum Zeitpunkt $t$ ist;
$R_i$ die Belohnung ist, die in jedem Fall erhalten wurde, wenn Aktion $a$ gewählt wurde.

Mit zunehmender Stichprobengröße nähert sich diese Schätzung dem wahren erwarteten Ertrag $Q_*(a)$ an, vorausgesetzt, die Belohnungsverteilung bleibt stationär.

Definition

Eine stationäre Verteilung ist eine Verteilung, die sich im Zeitverlauf nicht ändert, unabhängig davon, welche Aktionen gewählt werden oder wie sich die Umgebung verändert.

Inkrementelle Aktualisierungsregel

\begin{aligned} Q_{k+1} &= \frac1k \sum_{i=1}^k R_i\\ &= \frac1k (R_k + \sum_{i=1}^{k-1} R_i)\\ &= \frac1k (R_k + (k-1) Q_k)\\ &= \frac1k (R_k + k Q_k - Q_k)\\ &= Q_k + \frac1k(R_k - Q_k) \end{aligned}

wobei für eine Aktion gilt:

$Q_k$ ist eine Schätzung der $k$ -ten Belohnung, die als Durchschnitt der ersten $k-1$ Belohnungen ausgedrückt werden kann;
$R_k$ ist die tatsächliche $k$ -te Belohnung.

Intuition

Diese Intuition führt zu einer weiteren Formel, die wie folgt aussieht:

Q_{k+1} = Q_k + \alpha (R_k - Q_k)

Optimistische Initialisierung

Hinweis

Die Rate optimaler Aktionen in diesem und zukünftigen Diagrammen bezieht sich auf den Anteil der Umgebungen, in denen die optimale Aktion zu einem bestimmten Zeitschritt gewählt wurde.

War alles klar?

Danke für Ihr Feedback!

Abschnitt 2. Kapitel 2