Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lernen Off-Policy-Monte-Carlo-Kontrolle | Monte-Carlo-Methoden
Einführung in das Reinforcement Learning
course content

Kursinhalt

Einführung in das Reinforcement Learning

Einführung in das Reinforcement Learning

1. Kernprinzipien des RL
2. Multi-Armed-Bandit-Problem
3. Dynamische Programmierung
4. Monte-Carlo-Methoden
5. Temporal-Differenz-Lernen

book
Off-Policy-Monte-Carlo-Kontrolle

Während On-Policy-Methoden durch das Befolgen und Verbessern derselben Politik lernen, führen Off-Policy-Methoden eine Besonderheit ein: Sie lernen über eine Politik (die Zielpolitik), während sie einer anderen folgen (der Verhaltenspolitik). Diese Trennung ist äußerst wirkungsvoll — sie ermöglicht es, eine Zielpolitik zu bewerten oder zu verbessern, ohne ihr während der Datensammlung tatsächlich folgen zu müssen.

Analogie

Kehren wir zum Eissalon aus dem vorherigen Kapitel zurück. Du und dein Freund betretet das Geschäft, und wieder stehen die drei bekannten Sorten zur Auswahl: Schokolade, Vanille und Erdbeere. Schokolade ist dein persönlicher Favorit, und dein erster Impuls ist es, diese zu bestellen. Doch dieses Geschäft ist neu für dich, und du bist dir nicht sicher, ob Schokolade die richtige Wahl ist. Zum Glück ist dein Freund ein bekannter Eisliebhaber, der fast jedes Geschäft in der Stadt besucht hat. Du fragst nach seiner Meinung. "Die Schokolade hier ist in Ordnung", sagt er, "aber glaub mir — die Erdbeere ist außergewöhnlich." Aufgrund seiner Erfahrung entscheidest du dich, auf deine übliche Wahl zu verzichten und stattdessen Erdbeere zu nehmen.

Diese Entscheidung – sich auf die Erfahrungen anderer zu verlassen, um die eigene Wahl zu treffen – ist das Wesen der Off-Policy-Methoden. Ziel ist es, die eigene Entscheidungsfindung mithilfe von Daten zu verbessern, die unter dem Verhalten anderer gesammelt wurden. Es handelt sich weiterhin um Exploration – jedoch geleitet durch externe Erfahrungen anstelle der eigenen.

Importance Sampling

Da der Agent während der Episodenerzeugung der Verhaltenspolitik folgt, muss die Diskrepanz zwischen dem, was die Verhaltenspolitik erzeugt, und dem, was die Zielpolitik erzeugen würde, berücksichtigt werden. Hier kommt das Importance Sampling zum Einsatz.

Importance Sampling bietet eine Möglichkeit, die unter der Verhaltenspolitik beobachteten Erträge so anzupassen, dass sie gültige Schätzungen für die Zielpolitik darstellen.

Betrachten wir eine Trajektorie, die von einem bestimmten Zustand StS_t ausgeht und einer bestimmten Politik π\pi folgt, bis die Episode zu einem Zeitpunkt TT endet. Konkret beobachten wir:

At,St+1,At+1,...,STA_t, S_{t+1}, A_{t+1}, ..., S_{T}

Wie wahrscheinlich ist es nun, dass diese Trajektorie unter einer Politik π\pi auftritt? Dies hängt sowohl von den Aktionswahrscheinlichkeiten der Politik als auch von den Übergangsdynamiken der Umgebung ab:

p(trajectoryπ)=k=tT1π(AkSk)p(Sk+1Sk,Ak)p(trajectory | \pi) = \prod_{k=t}^{T-1} \pi(A_k | S_k)p(S_{k+1} | S_k, A_k)

Angenommen, die Trajektorie wurde tatsächlich von einer anderen Politik — der Verhaltenspolitik bb — erzeugt. Um diese Trajektorie korrekt zur Schätzung von Erwartungswerten unter der Zielpolitik π\pi zu verwenden, müssen wir berücksichtigen, wie viel wahrscheinlicher oder unwahrscheinlicher diese Aktionssequenz unter π\pi im Vergleich zu bb gewesen wäre.

Hier kommt das Importance Sampling Verhältnis ins Spiel. Es ist definiert als das relative Auftretenswahrscheinlichkeit der Trajektorie unter den beiden Politiken:

ρ=p(trajectoryπ)p(trajectoryb)=k=tT1π(AkSk)p(Sk+1Sk,Ak)b(AkSk)p(Sk+1Sk,Ak)=k=tT1π(AkSk)b(AkSk)\rho = \frac{p(trajectory | \pi)}{p(trajectory | b)} = \prod_{k=t}^{T-1} \frac{\pi(A_k | S_k)p(S_{k+1} | S_k, A_k)}{b(A_k | S_k)p(S_{k+1} | S_k, A_k)} = \prod_{k=t}^{T-1} \frac{\pi(A_k | S_k)}{b(A_k | S_k)}

Letztlich kürzen sich die Übergangswahrscheinlichkeiten heraus, da beide Politiken in derselben Umgebung agieren, und der Wert von ρ\rho hängt nur von den Politiken ab, nicht von der Umgebung.

Warum das wichtig ist

Das Verhältnis ρ\rho gibt an, wie der unter der Verhaltenspolitik beobachtete Ertrag GtG_t gewichtet werden muss, damit er eine unverzerrte Schätzung dessen wird, was der Ertrag unter der Zielpolitik gewesen wäre:

Eπ[Gt]=Eb[ρGt]\def\E{\operatorname{\mathbb{E}}} \E_\pi[G_t] = \E_b[\rho \cdot G_t]

Mit anderen Worten: Auch wenn die Daten mit bb gesammelt wurden, können wir dennoch die erwarteten Erträge unter π\pi schätzen — vorausgesetzt, bb weist jeder Aktion, die π\pi wählen könnte, eine von Null verschiedene Wahrscheinlichkeit zu (Annahme der Abdeckung).

Praktische Überlegungen

Varianz beim Importance Sampling

Die Einbindung von Importance Sampling ist konzeptionell unkompliziert. Die geschätzte Aktionswertfunktion q(s,a)q(s, a) wird angepasst, indem jede beobachtete Rückgabe mit dem entsprechenden Importance-Sampling-Verhältnis gewichtet wird. Die einfachste Formulierung sieht folgendermaßen aus:

q(s,a)=i=0N(s,a)ρi(s,a)Returnsi(s,a)N(s,a)q(s, a) = \frac{\sum_{i=0}^{N(s, a)} \rho_i(s, a) \cdot Returns_i(s, a)}{N(s, a)}

wobei:

  • ρi(s,a)\rho_i(s, a) das Importance-Sampling-Verhältnis für die ii-te Trajektorie ausgehend von (s,a)(s, a) ist;
  • Returnsi(s,a)Returns_i(s, a) die Rückgabe aus dieser Trajektorie ist;
  • N(s,a)N(s, a) die Anzahl der Besuche von (s,a)(s, a) ist.

Dies wird als gewöhnliches Importance Sampling bezeichnet. Es liefert eine unverzerrte Schätzung von q(s,a)q(s, a), kann jedoch unter sehr hoher Varianz leiden, insbesondere wenn sich die Verhaltens- und Zielpolitik stark unterscheiden.

Um das Varianzproblem zu verringern, kann eine stabilere Alternative verwendet werden: gewichtetes Importance Sampling. Diese Methode normalisiert die Importance-Gewichte, wodurch der Einfluss großer Verhältnisse reduziert und ein stabileres Lernen ermöglicht wird:

q(s,a)=i=0N(s,a)ρi(s,a)Returnsi(s,a)i=0N(s,a)ρi(s,a)q(s, a) = \frac{\sum_{i=0}^{N(s, a)} \rho_i(s, a) \cdot Returns_i(s, a)}{\sum_{i=0}^{N(s, a)} \rho_i(s, a)}

In dieser Version ist der Zähler die gleiche gewichtete Summe der Rückgaben, aber der Nenner ist nun die Summe der Importance-Gewichte anstelle einer einfachen Zählung.

Dies macht die Schätzung verzerrt, aber die Verzerrung nimmt mit zunehmender Stichprobengröße ab. In der Praxis wird gewichtetes Importance Sampling bevorzugt, da es eine deutlich geringere Varianz und eine höhere numerische Stabilität bietet.

Politiken

Wie im On-Policy-Fall verwenden wir ε\varepsilon-gierige Politiken sowohl für die Zielpolitik π(as)\pi(a | s) als auch für die Verhaltenspolitik b(as)b(a | s).

Auf den ersten Blick erscheint es naheliegend, die Zielpolitik vollständig gierig zu gestalten – schließlich ist unser eigentliches Ziel eine gierige Politik. In der Praxis führt dies jedoch zu einem großen Problem: Falls zu irgendeinem Zeitpunkt π(as)=0\pi(a | s) = 0 für die Aktion ist, die tatsächlich von der Verhaltenspolitik gewählt wurde, wird das Importance Sampling-Verhältnis ρ\rho zu null und der verbleibende Teil der Episode wird effektiv verworfen.

Durch die Verwendung eines kleinen ε\varepsilon (z. B. ε=0,01\varepsilon = 0{,}01) in der Zielpolitik stellen wir sicher, dass π(as)>0\pi(a | s) > 0 für jede Aktion gilt, sodass ρ\rho niemals mitten in der Episode auf null fällt. Nach Abschluss des Trainings ist es trivial, die gelernte ε\varepsilon-gierige Politik in eine strikt gierige umzuwandeln. Wie beim On-Policy-Lernen sollte ε\varepsilon in der Verhaltenspolitik dekrementiert werden, diesmal jedoch hauptsächlich zur numerischen Stabilisierung, da ρ\rho dennoch während einer Episode auf null fallen kann, bedingt durch die Art und Weise, wie Zahlen im Computer dargestellt werden.

Pseudocode

question mark

Was ist der Zweck von Importance Sampling?

Select the correct answer

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 4. Kapitel 6

Fragen Sie AI

expand

Fragen Sie AI

ChatGPT

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

course content

Kursinhalt

Einführung in das Reinforcement Learning

Einführung in das Reinforcement Learning

1. Kernprinzipien des RL
2. Multi-Armed-Bandit-Problem
3. Dynamische Programmierung
4. Monte-Carlo-Methoden
5. Temporal-Differenz-Lernen

book
Off-Policy-Monte-Carlo-Kontrolle

Während On-Policy-Methoden durch das Befolgen und Verbessern derselben Politik lernen, führen Off-Policy-Methoden eine Besonderheit ein: Sie lernen über eine Politik (die Zielpolitik), während sie einer anderen folgen (der Verhaltenspolitik). Diese Trennung ist äußerst wirkungsvoll — sie ermöglicht es, eine Zielpolitik zu bewerten oder zu verbessern, ohne ihr während der Datensammlung tatsächlich folgen zu müssen.

Analogie

Kehren wir zum Eissalon aus dem vorherigen Kapitel zurück. Du und dein Freund betretet das Geschäft, und wieder stehen die drei bekannten Sorten zur Auswahl: Schokolade, Vanille und Erdbeere. Schokolade ist dein persönlicher Favorit, und dein erster Impuls ist es, diese zu bestellen. Doch dieses Geschäft ist neu für dich, und du bist dir nicht sicher, ob Schokolade die richtige Wahl ist. Zum Glück ist dein Freund ein bekannter Eisliebhaber, der fast jedes Geschäft in der Stadt besucht hat. Du fragst nach seiner Meinung. "Die Schokolade hier ist in Ordnung", sagt er, "aber glaub mir — die Erdbeere ist außergewöhnlich." Aufgrund seiner Erfahrung entscheidest du dich, auf deine übliche Wahl zu verzichten und stattdessen Erdbeere zu nehmen.

Diese Entscheidung – sich auf die Erfahrungen anderer zu verlassen, um die eigene Wahl zu treffen – ist das Wesen der Off-Policy-Methoden. Ziel ist es, die eigene Entscheidungsfindung mithilfe von Daten zu verbessern, die unter dem Verhalten anderer gesammelt wurden. Es handelt sich weiterhin um Exploration – jedoch geleitet durch externe Erfahrungen anstelle der eigenen.

Importance Sampling

Da der Agent während der Episodenerzeugung der Verhaltenspolitik folgt, muss die Diskrepanz zwischen dem, was die Verhaltenspolitik erzeugt, und dem, was die Zielpolitik erzeugen würde, berücksichtigt werden. Hier kommt das Importance Sampling zum Einsatz.

Importance Sampling bietet eine Möglichkeit, die unter der Verhaltenspolitik beobachteten Erträge so anzupassen, dass sie gültige Schätzungen für die Zielpolitik darstellen.

Betrachten wir eine Trajektorie, die von einem bestimmten Zustand StS_t ausgeht und einer bestimmten Politik π\pi folgt, bis die Episode zu einem Zeitpunkt TT endet. Konkret beobachten wir:

At,St+1,At+1,...,STA_t, S_{t+1}, A_{t+1}, ..., S_{T}

Wie wahrscheinlich ist es nun, dass diese Trajektorie unter einer Politik π\pi auftritt? Dies hängt sowohl von den Aktionswahrscheinlichkeiten der Politik als auch von den Übergangsdynamiken der Umgebung ab:

p(trajectoryπ)=k=tT1π(AkSk)p(Sk+1Sk,Ak)p(trajectory | \pi) = \prod_{k=t}^{T-1} \pi(A_k | S_k)p(S_{k+1} | S_k, A_k)

Angenommen, die Trajektorie wurde tatsächlich von einer anderen Politik — der Verhaltenspolitik bb — erzeugt. Um diese Trajektorie korrekt zur Schätzung von Erwartungswerten unter der Zielpolitik π\pi zu verwenden, müssen wir berücksichtigen, wie viel wahrscheinlicher oder unwahrscheinlicher diese Aktionssequenz unter π\pi im Vergleich zu bb gewesen wäre.

Hier kommt das Importance Sampling Verhältnis ins Spiel. Es ist definiert als das relative Auftretenswahrscheinlichkeit der Trajektorie unter den beiden Politiken:

ρ=p(trajectoryπ)p(trajectoryb)=k=tT1π(AkSk)p(Sk+1Sk,Ak)b(AkSk)p(Sk+1Sk,Ak)=k=tT1π(AkSk)b(AkSk)\rho = \frac{p(trajectory | \pi)}{p(trajectory | b)} = \prod_{k=t}^{T-1} \frac{\pi(A_k | S_k)p(S_{k+1} | S_k, A_k)}{b(A_k | S_k)p(S_{k+1} | S_k, A_k)} = \prod_{k=t}^{T-1} \frac{\pi(A_k | S_k)}{b(A_k | S_k)}

Letztlich kürzen sich die Übergangswahrscheinlichkeiten heraus, da beide Politiken in derselben Umgebung agieren, und der Wert von ρ\rho hängt nur von den Politiken ab, nicht von der Umgebung.

Warum das wichtig ist

Das Verhältnis ρ\rho gibt an, wie der unter der Verhaltenspolitik beobachtete Ertrag GtG_t gewichtet werden muss, damit er eine unverzerrte Schätzung dessen wird, was der Ertrag unter der Zielpolitik gewesen wäre:

Eπ[Gt]=Eb[ρGt]\def\E{\operatorname{\mathbb{E}}} \E_\pi[G_t] = \E_b[\rho \cdot G_t]

Mit anderen Worten: Auch wenn die Daten mit bb gesammelt wurden, können wir dennoch die erwarteten Erträge unter π\pi schätzen — vorausgesetzt, bb weist jeder Aktion, die π\pi wählen könnte, eine von Null verschiedene Wahrscheinlichkeit zu (Annahme der Abdeckung).

Praktische Überlegungen

Varianz beim Importance Sampling

Die Einbindung von Importance Sampling ist konzeptionell unkompliziert. Die geschätzte Aktionswertfunktion q(s,a)q(s, a) wird angepasst, indem jede beobachtete Rückgabe mit dem entsprechenden Importance-Sampling-Verhältnis gewichtet wird. Die einfachste Formulierung sieht folgendermaßen aus:

q(s,a)=i=0N(s,a)ρi(s,a)Returnsi(s,a)N(s,a)q(s, a) = \frac{\sum_{i=0}^{N(s, a)} \rho_i(s, a) \cdot Returns_i(s, a)}{N(s, a)}

wobei:

  • ρi(s,a)\rho_i(s, a) das Importance-Sampling-Verhältnis für die ii-te Trajektorie ausgehend von (s,a)(s, a) ist;
  • Returnsi(s,a)Returns_i(s, a) die Rückgabe aus dieser Trajektorie ist;
  • N(s,a)N(s, a) die Anzahl der Besuche von (s,a)(s, a) ist.

Dies wird als gewöhnliches Importance Sampling bezeichnet. Es liefert eine unverzerrte Schätzung von q(s,a)q(s, a), kann jedoch unter sehr hoher Varianz leiden, insbesondere wenn sich die Verhaltens- und Zielpolitik stark unterscheiden.

Um das Varianzproblem zu verringern, kann eine stabilere Alternative verwendet werden: gewichtetes Importance Sampling. Diese Methode normalisiert die Importance-Gewichte, wodurch der Einfluss großer Verhältnisse reduziert und ein stabileres Lernen ermöglicht wird:

q(s,a)=i=0N(s,a)ρi(s,a)Returnsi(s,a)i=0N(s,a)ρi(s,a)q(s, a) = \frac{\sum_{i=0}^{N(s, a)} \rho_i(s, a) \cdot Returns_i(s, a)}{\sum_{i=0}^{N(s, a)} \rho_i(s, a)}

In dieser Version ist der Zähler die gleiche gewichtete Summe der Rückgaben, aber der Nenner ist nun die Summe der Importance-Gewichte anstelle einer einfachen Zählung.

Dies macht die Schätzung verzerrt, aber die Verzerrung nimmt mit zunehmender Stichprobengröße ab. In der Praxis wird gewichtetes Importance Sampling bevorzugt, da es eine deutlich geringere Varianz und eine höhere numerische Stabilität bietet.

Politiken

Wie im On-Policy-Fall verwenden wir ε\varepsilon-gierige Politiken sowohl für die Zielpolitik π(as)\pi(a | s) als auch für die Verhaltenspolitik b(as)b(a | s).

Auf den ersten Blick erscheint es naheliegend, die Zielpolitik vollständig gierig zu gestalten – schließlich ist unser eigentliches Ziel eine gierige Politik. In der Praxis führt dies jedoch zu einem großen Problem: Falls zu irgendeinem Zeitpunkt π(as)=0\pi(a | s) = 0 für die Aktion ist, die tatsächlich von der Verhaltenspolitik gewählt wurde, wird das Importance Sampling-Verhältnis ρ\rho zu null und der verbleibende Teil der Episode wird effektiv verworfen.

Durch die Verwendung eines kleinen ε\varepsilon (z. B. ε=0,01\varepsilon = 0{,}01) in der Zielpolitik stellen wir sicher, dass π(as)>0\pi(a | s) > 0 für jede Aktion gilt, sodass ρ\rho niemals mitten in der Episode auf null fällt. Nach Abschluss des Trainings ist es trivial, die gelernte ε\varepsilon-gierige Politik in eine strikt gierige umzuwandeln. Wie beim On-Policy-Lernen sollte ε\varepsilon in der Verhaltenspolitik dekrementiert werden, diesmal jedoch hauptsächlich zur numerischen Stabilisierung, da ρ\rho dennoch während einer Episode auf null fallen kann, bedingt durch die Art und Weise, wie Zahlen im Computer dargestellt werden.

Pseudocode

question mark

Was ist der Zweck von Importance Sampling?

Select the correct answer

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 4. Kapitel 6
some-alt