Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lernen Off-Policy-Monte-Carlo-Kontrolle | Monte-Carlo-Methoden
Einführung in Reinforcement Learning

bookOff-Policy-Monte-Carlo-Kontrolle

Während On-Policy-Methoden durch das Befolgen und Verbessern derselben Strategie lernen, führen Off-Policy-Methoden eine Besonderheit ein: Sie lernen über eine Strategie (die Zielstrategie), während sie einer anderen folgen (der Verhaltensstrategie). Diese Trennung ist leistungsstark — sie ermöglicht es, eine Zielstrategie zu bewerten oder zu verbessern, ohne ihr während der Datensammlung tatsächlich folgen zu müssen.

Analogie

Kehren wir zum Eissalon aus dem vorherigen Kapitel zurück. Du und dein Freund betretet das Geschäft, und wieder stehen die drei bekannten Sorten zur Auswahl: Schokolade, Vanille und Erdbeere. Schokolade ist dein persönlicher Favorit, und dein erster Impuls ist es, diese zu bestellen. Aber dieses Geschäft ist neu für dich, und du bist dir nicht sicher, ob Schokolade die richtige Wahl ist. Zum Glück ist dein Freund ein bekannter Eisliebhaber, der fast jeden Laden in der Stadt besucht hat. Du fragst nach seiner Meinung. "Die Schokolade hier ist in Ordnung", sagt er, "aber glaub mir — die Erdbeere ist außergewöhnlich." Aufgrund seiner Erfahrung entscheidest du dich, deine übliche Wahl zu überspringen und stattdessen Erdbeere zu nehmen.

Diese Entscheidung – sich auf die Erfahrungen anderer zu verlassen, um die eigene Wahl zu treffen – ist das Wesen der Off-Policy-Methoden. Es wird versucht, die eigene Entscheidungsfindung mithilfe von Daten zu verbessern, die unter dem Verhalten anderer gesammelt wurden. Es handelt sich weiterhin um Exploration – jedoch geleitet durch externe Erfahrungen anstelle der eigenen.

Importance Sampling

Da der Agent während der Episodenerzeugung der Verhaltenspolitik folgt, muss die Diskrepanz zwischen dem, was die Verhaltenspolitik erzeugt, und dem, was die Zielpolitik erzeugen würde, berücksichtigt werden. Hier kommt das Importance Sampling ins Spiel.

Importance Sampling bietet eine Methode, die unter der Verhaltenspolitik beobachteten Erträge so anzupassen, dass sie gültige Schätzungen für die Zielpolitik darstellen.

Betrachten wir eine Trajektorie, die von einem bestimmten Zustand StS_t ausgeht und einer bestimmten Politik π\pi folgt, bis die Episode zu einem Zeitpunkt TT endet. Konkret beobachten wir:

At,St+1,At+1,...,STA_t, S_{t+1}, A_{t+1}, ..., S_{T}

Wie wahrscheinlich ist es, dass diese Trajektorie unter einer Politik π\pi auftritt? Dies hängt sowohl von den Aktionswahrscheinlichkeiten der Politik als auch von den Übergangsdynamiken der Umgebung ab:

p(trajectoryπ)=k=tT1π(AkSk)p(Sk+1Sk,Ak)p(trajectory | \pi) = \prod_{k=t}^{T-1} \pi(A_k | S_k)p(S_{k+1} | S_k, A_k)

Angenommen, die Trajektorie wurde tatsächlich durch eine andere Politik — die Verhaltenspolitik bb — erzeugt. Um diese Trajektorie korrekt zur Schätzung von Erwartungswerten unter der Zielpolitik π\pi zu verwenden, muss berücksichtigt werden, wie viel wahrscheinlicher oder unwahrscheinlicher diese Aktionsfolge unter π\pi im Vergleich zu bb gewesen wäre.

Hier kommt das Importance Sampling Verhältnis ins Spiel. Es ist definiert als das relative Auftretenswahrscheinlichkeit der Trajektorie unter den beiden Politiken:

ρ=p(trajectoryπ)p(trajectoryb)=k=tT1π(AkSk)p(Sk+1Sk,Ak)b(AkSk)p(Sk+1Sk,Ak)=k=tT1π(AkSk)b(AkSk)\rho = \frac{p(trajectory | \pi)}{p(trajectory | b)} = \prod_{k=t}^{T-1} \frac{\pi(A_k | S_k)p(S_{k+1} | S_k, A_k)}{b(A_k | S_k)p(S_{k+1} | S_k, A_k)} = \prod_{k=t}^{T-1} \frac{\pi(A_k | S_k)}{b(A_k | S_k)}

Letztlich kürzen sich die Übergangswahrscheinlichkeiten heraus, da beide Politiken in derselben Umgebung agieren, und der Wert von ρ\rho hängt nur von den Politiken ab, nicht von der Umgebung.

Warum das wichtig ist

Das Verhältnis ρ\rho gibt an, wie der unter der Verhaltenspolitik beobachtete Ertrag GtG_t gewichtet werden muss, damit er eine unverzerrte Schätzung dessen wird, was der Ertrag unter der Zielpolitik gewesen wäre:

Eπ[Gt]=Eb[ρGt]\def\E{\operatorname{\mathbb{E}}} \E_\pi[G_t] = \E_b[\rho \cdot G_t]

Mit anderen Worten: Auch wenn die Daten mit bb gesammelt wurden, können wir dennoch die erwarteten Erträge unter π\pi schätzen — vorausgesetzt, bb weist jeder Aktion, die π\pi wählen könnte, eine von null verschiedene Wahrscheinlichkeit zu (Annahme der Abdeckung).

Praktische Überlegungen

Varianz beim Importance Sampling

Die Einbindung von Importance Sampling ist konzeptionell unkompliziert. Die geschätzte Aktionswertfunktion q(s,a)q(s, a) wird angepasst, indem jede beobachtete Rückgabe mit dem entsprechenden Importance-Sampling-Verhältnis gewichtet wird. Die einfachste Formulierung sieht folgendermaßen aus:

q(s,a)=i=0N(s,a)ρi(s,a)Returnsi(s,a)N(s,a)q(s, a) = \frac{\sum_{i=0}^{N(s, a)} \rho_i(s, a) \cdot Returns_i(s, a)}{N(s, a)}

wobei:

  • ρi(s,a)\rho_i(s, a) das Importance-Sampling-Verhältnis für die ii-te Trajektorie ab (s,a)(s, a) ist;
  • Returnsi(s,a)Returns_i(s, a) die Rückgabe aus dieser Trajektorie ist;
  • N(s,a)N(s, a) die Anzahl der Besuche von (s,a)(s, a) ist.

Dies wird als gewöhnliches Importance Sampling bezeichnet. Es liefert eine unverzerrte Schätzung von q(s,a)q(s, a), kann jedoch unter sehr hoher Varianz leiden, insbesondere wenn sich die Verhaltens- und Zielpolitik stark unterscheiden.

Zur Verringerung der Varianz kann eine stabilere Alternative verwendet werden: gewichtetes Importance Sampling. Diese Methode normalisiert die Importance-Gewichte, wodurch der Einfluss großer Verhältnisse reduziert und ein stabileres Lernen ermöglicht wird:

q(s,a)=i=0N(s,a)ρi(s,a)Returnsi(s,a)i=0N(s,a)ρi(s,a)q(s, a) = \frac{\sum_{i=0}^{N(s, a)} \rho_i(s, a) \cdot Returns_i(s, a)}{\sum_{i=0}^{N(s, a)} \rho_i(s, a)}

In dieser Version ist der Zähler die gleiche gewichtete Summe der Rückgaben, aber der Nenner ist nun die Summe der Importance-Gewichte anstelle einer einfachen Zählung.

Dies macht die Schätzung verzerrt, aber die Verzerrung nimmt mit zunehmender Stichprobengröße ab. In der Praxis wird gewichtetes Importance Sampling bevorzugt, da es eine deutlich geringere Varianz und eine höhere numerische Stabilität aufweist.

Politiken

Wie im On-Policy-Fall verwenden wir ε\varepsilon-gierige Politiken sowohl für die Zielpolitik π(as)\pi(a | s) als auch für die Verhaltenspolitik b(as)b(a | s).

Auf den ersten Blick erscheint es naheliegend, die Zielpolitik vollständig gierig zu gestalten – schließlich ist unser eigentliches Ziel eine gierige Politik. In der Praxis führt dies jedoch zu einem großen Problem: Falls zu irgendeinem Zeitpunkt π(as)=0\pi(a | s) = 0 für die Aktion ist, die tatsächlich von der Verhaltenspolitik ausgeführt wurde, wird das Importance-Sampling-Verhältnis ρ\rho zu null und der verbleibende Teil der Episode wird effektiv verworfen.

Durch die Verwendung eines kleinen ε\varepsilon (z. B. ε=0,01\varepsilon = 0{,}01) in der Zielpolitik stellen wir sicher, dass π(as)>0\pi(a | s) > 0 für jede Aktion gilt, sodass ρ\rho niemals mitten in der Episode auf null fällt. Nach dem Training kann die erlernte ε\varepsilon-gierige Politik problemlos in eine strikt gierige Politik umgewandelt werden. Wie beim On-Policy-Lernen sollte ε\varepsilon in der Verhaltenspolitik dekrementiert werden, diesmal jedoch hauptsächlich zur numerischen Stabilisierung, da ρ\rho dennoch während einer Episode auf null fallen kann, bedingt durch die Art und Weise, wie Zahlen im Computer dargestellt werden.

Pseudocode

question mark

Was ist der Zweck von Importance Sampling?

Select the correct answer

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 4. Kapitel 6

Fragen Sie AI

expand

Fragen Sie AI

ChatGPT

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Suggested prompts:

Can you explain the difference between ordinary and weighted importance sampling in more detail?

Why does using a fully greedy target policy cause problems in off-policy learning?

Can you summarize the key advantages of off-policy methods compared to on-policy methods?

Awesome!

Completion rate improved to 2.7

bookOff-Policy-Monte-Carlo-Kontrolle

Swipe um das Menü anzuzeigen

Während On-Policy-Methoden durch das Befolgen und Verbessern derselben Strategie lernen, führen Off-Policy-Methoden eine Besonderheit ein: Sie lernen über eine Strategie (die Zielstrategie), während sie einer anderen folgen (der Verhaltensstrategie). Diese Trennung ist leistungsstark — sie ermöglicht es, eine Zielstrategie zu bewerten oder zu verbessern, ohne ihr während der Datensammlung tatsächlich folgen zu müssen.

Analogie

Kehren wir zum Eissalon aus dem vorherigen Kapitel zurück. Du und dein Freund betretet das Geschäft, und wieder stehen die drei bekannten Sorten zur Auswahl: Schokolade, Vanille und Erdbeere. Schokolade ist dein persönlicher Favorit, und dein erster Impuls ist es, diese zu bestellen. Aber dieses Geschäft ist neu für dich, und du bist dir nicht sicher, ob Schokolade die richtige Wahl ist. Zum Glück ist dein Freund ein bekannter Eisliebhaber, der fast jeden Laden in der Stadt besucht hat. Du fragst nach seiner Meinung. "Die Schokolade hier ist in Ordnung", sagt er, "aber glaub mir — die Erdbeere ist außergewöhnlich." Aufgrund seiner Erfahrung entscheidest du dich, deine übliche Wahl zu überspringen und stattdessen Erdbeere zu nehmen.

Diese Entscheidung – sich auf die Erfahrungen anderer zu verlassen, um die eigene Wahl zu treffen – ist das Wesen der Off-Policy-Methoden. Es wird versucht, die eigene Entscheidungsfindung mithilfe von Daten zu verbessern, die unter dem Verhalten anderer gesammelt wurden. Es handelt sich weiterhin um Exploration – jedoch geleitet durch externe Erfahrungen anstelle der eigenen.

Importance Sampling

Da der Agent während der Episodenerzeugung der Verhaltenspolitik folgt, muss die Diskrepanz zwischen dem, was die Verhaltenspolitik erzeugt, und dem, was die Zielpolitik erzeugen würde, berücksichtigt werden. Hier kommt das Importance Sampling ins Spiel.

Importance Sampling bietet eine Methode, die unter der Verhaltenspolitik beobachteten Erträge so anzupassen, dass sie gültige Schätzungen für die Zielpolitik darstellen.

Betrachten wir eine Trajektorie, die von einem bestimmten Zustand StS_t ausgeht und einer bestimmten Politik π\pi folgt, bis die Episode zu einem Zeitpunkt TT endet. Konkret beobachten wir:

At,St+1,At+1,...,STA_t, S_{t+1}, A_{t+1}, ..., S_{T}

Wie wahrscheinlich ist es, dass diese Trajektorie unter einer Politik π\pi auftritt? Dies hängt sowohl von den Aktionswahrscheinlichkeiten der Politik als auch von den Übergangsdynamiken der Umgebung ab:

p(trajectoryπ)=k=tT1π(AkSk)p(Sk+1Sk,Ak)p(trajectory | \pi) = \prod_{k=t}^{T-1} \pi(A_k | S_k)p(S_{k+1} | S_k, A_k)

Angenommen, die Trajektorie wurde tatsächlich durch eine andere Politik — die Verhaltenspolitik bb — erzeugt. Um diese Trajektorie korrekt zur Schätzung von Erwartungswerten unter der Zielpolitik π\pi zu verwenden, muss berücksichtigt werden, wie viel wahrscheinlicher oder unwahrscheinlicher diese Aktionsfolge unter π\pi im Vergleich zu bb gewesen wäre.

Hier kommt das Importance Sampling Verhältnis ins Spiel. Es ist definiert als das relative Auftretenswahrscheinlichkeit der Trajektorie unter den beiden Politiken:

ρ=p(trajectoryπ)p(trajectoryb)=k=tT1π(AkSk)p(Sk+1Sk,Ak)b(AkSk)p(Sk+1Sk,Ak)=k=tT1π(AkSk)b(AkSk)\rho = \frac{p(trajectory | \pi)}{p(trajectory | b)} = \prod_{k=t}^{T-1} \frac{\pi(A_k | S_k)p(S_{k+1} | S_k, A_k)}{b(A_k | S_k)p(S_{k+1} | S_k, A_k)} = \prod_{k=t}^{T-1} \frac{\pi(A_k | S_k)}{b(A_k | S_k)}

Letztlich kürzen sich die Übergangswahrscheinlichkeiten heraus, da beide Politiken in derselben Umgebung agieren, und der Wert von ρ\rho hängt nur von den Politiken ab, nicht von der Umgebung.

Warum das wichtig ist

Das Verhältnis ρ\rho gibt an, wie der unter der Verhaltenspolitik beobachtete Ertrag GtG_t gewichtet werden muss, damit er eine unverzerrte Schätzung dessen wird, was der Ertrag unter der Zielpolitik gewesen wäre:

Eπ[Gt]=Eb[ρGt]\def\E{\operatorname{\mathbb{E}}} \E_\pi[G_t] = \E_b[\rho \cdot G_t]

Mit anderen Worten: Auch wenn die Daten mit bb gesammelt wurden, können wir dennoch die erwarteten Erträge unter π\pi schätzen — vorausgesetzt, bb weist jeder Aktion, die π\pi wählen könnte, eine von null verschiedene Wahrscheinlichkeit zu (Annahme der Abdeckung).

Praktische Überlegungen

Varianz beim Importance Sampling

Die Einbindung von Importance Sampling ist konzeptionell unkompliziert. Die geschätzte Aktionswertfunktion q(s,a)q(s, a) wird angepasst, indem jede beobachtete Rückgabe mit dem entsprechenden Importance-Sampling-Verhältnis gewichtet wird. Die einfachste Formulierung sieht folgendermaßen aus:

q(s,a)=i=0N(s,a)ρi(s,a)Returnsi(s,a)N(s,a)q(s, a) = \frac{\sum_{i=0}^{N(s, a)} \rho_i(s, a) \cdot Returns_i(s, a)}{N(s, a)}

wobei:

  • ρi(s,a)\rho_i(s, a) das Importance-Sampling-Verhältnis für die ii-te Trajektorie ab (s,a)(s, a) ist;
  • Returnsi(s,a)Returns_i(s, a) die Rückgabe aus dieser Trajektorie ist;
  • N(s,a)N(s, a) die Anzahl der Besuche von (s,a)(s, a) ist.

Dies wird als gewöhnliches Importance Sampling bezeichnet. Es liefert eine unverzerrte Schätzung von q(s,a)q(s, a), kann jedoch unter sehr hoher Varianz leiden, insbesondere wenn sich die Verhaltens- und Zielpolitik stark unterscheiden.

Zur Verringerung der Varianz kann eine stabilere Alternative verwendet werden: gewichtetes Importance Sampling. Diese Methode normalisiert die Importance-Gewichte, wodurch der Einfluss großer Verhältnisse reduziert und ein stabileres Lernen ermöglicht wird:

q(s,a)=i=0N(s,a)ρi(s,a)Returnsi(s,a)i=0N(s,a)ρi(s,a)q(s, a) = \frac{\sum_{i=0}^{N(s, a)} \rho_i(s, a) \cdot Returns_i(s, a)}{\sum_{i=0}^{N(s, a)} \rho_i(s, a)}

In dieser Version ist der Zähler die gleiche gewichtete Summe der Rückgaben, aber der Nenner ist nun die Summe der Importance-Gewichte anstelle einer einfachen Zählung.

Dies macht die Schätzung verzerrt, aber die Verzerrung nimmt mit zunehmender Stichprobengröße ab. In der Praxis wird gewichtetes Importance Sampling bevorzugt, da es eine deutlich geringere Varianz und eine höhere numerische Stabilität aufweist.

Politiken

Wie im On-Policy-Fall verwenden wir ε\varepsilon-gierige Politiken sowohl für die Zielpolitik π(as)\pi(a | s) als auch für die Verhaltenspolitik b(as)b(a | s).

Auf den ersten Blick erscheint es naheliegend, die Zielpolitik vollständig gierig zu gestalten – schließlich ist unser eigentliches Ziel eine gierige Politik. In der Praxis führt dies jedoch zu einem großen Problem: Falls zu irgendeinem Zeitpunkt π(as)=0\pi(a | s) = 0 für die Aktion ist, die tatsächlich von der Verhaltenspolitik ausgeführt wurde, wird das Importance-Sampling-Verhältnis ρ\rho zu null und der verbleibende Teil der Episode wird effektiv verworfen.

Durch die Verwendung eines kleinen ε\varepsilon (z. B. ε=0,01\varepsilon = 0{,}01) in der Zielpolitik stellen wir sicher, dass π(as)>0\pi(a | s) > 0 für jede Aktion gilt, sodass ρ\rho niemals mitten in der Episode auf null fällt. Nach dem Training kann die erlernte ε\varepsilon-gierige Politik problemlos in eine strikt gierige Politik umgewandelt werden. Wie beim On-Policy-Lernen sollte ε\varepsilon in der Verhaltenspolitik dekrementiert werden, diesmal jedoch hauptsächlich zur numerischen Stabilisierung, da ρ\rho dennoch während einer Episode auf null fallen kann, bedingt durch die Art und Weise, wie Zahlen im Computer dargestellt werden.

Pseudocode

question mark

Was ist der Zweck von Importance Sampling?

Select the correct answer

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 4. Kapitel 6
some-alt