Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lernen On-Policy-Monte-Carlo-Steuerung | Monte-Carlo-Methoden
Einführung in das Reinforcement Learning
course content

Kursinhalt

Einführung in das Reinforcement Learning

Einführung in das Reinforcement Learning

1. Kernprinzipien des RL
2. Multi-Armed-Bandit-Problem
3. Dynamische Programmierung
4. Monte-Carlo-Methoden
5. Temporal-Differenz-Lernen

book
On-Policy-Monte-Carlo-Steuerung

Die Idee hinter On-Policy-Methoden ist intuitiv: Ein Agent lernt, indem er seiner aktuellen Strategie folgt und diese Strategie basierend auf den gemachten Erfahrungen verbessert. Um bessere Aktionen zu entdecken und zu vermeiden, in suboptimalem Verhalten stecken zu bleiben, integriert der Agent einen gewissen Grad an Zufälligkeit – gelegentlich probiert er alternative Aktionen aus, um die Erkundung zu fördern.

Analogie

Stellen Sie sich vor, Sie befinden sich in einer Eisdiele und es gibt drei Sorten: Schokolade, Vanille und Erdbeere. Sie lieben Schokolade und wählen normalerweise diese Sorte. Doch eines Tages entscheiden Sie sich aus Neugier, stattdessen Erdbeere zu probieren. Es stellt sich heraus, dass das Erdbeereis in diesem Laden außergewöhnlich lecker ist, und Sie entscheiden sich, künftig immer diese Sorte zu wählen.

Das Ausprobieren eines neuen Geschmacks war basierend auf bisherigen Erfahrungen nicht unbedingt die logischste Wahl, aber es bot die Möglichkeit, etwas Neues zu entdecken. Genau diese Art der Erkundung steht im Zentrum der On-Policy-Methoden.

Stochastische Politiken

Formal bedeutet die Übernahme dieses Konzepts, dass die in der dynamischen Programmierung verwendeten deterministischen (harten) Politiken durch stochastische (weiche) Politiken ersetzt werden, bezeichnet als π(as)\pi(a | s), wobei:

π(as)>0sS,aA(s)\pi(a | s) > 0 \qquad \forall s \in S, a \in A(s)

Mit anderen Worten: Jede Aktion in jedem Zustand hat eine von Null verschiedene Wahrscheinlichkeit, ausgewählt zu werden. Dies stellt sicher, dass alle Teile der Umgebung letztlich erkundet werden können, was beim Lernen aus Erfahrung unerlässlich ist.

ε\Large\varepsilon-gierige Politiken

Um Exploration in die Politik zu integrieren, übernehmen wir das Konzept der ε\varepsilon-gierigen Exploration aus dem Multi-Armed-Bandit-Problem. Dies ermöglicht die Definition einer stochastischen Politik, die das Ausnutzen der besten bekannten Aktion mit dem Erkunden von Alternativen ausbalanciert:

π(as){1ε+εA(s)falls a=arg maxaqπ(s,a)εA(s)sonst\pi(a | s) \gets \begin{dcases} 1 - \varepsilon + \frac{\varepsilon}{|A(s)|} & \text{falls } a = \argmax_{a'} q_\pi(s, a') \\ \frac{\varepsilon}{|A(s)|} & \text{sonst} \end{dcases}

Diese Politik verhält sich meist gierig – sie wählt die Aktion mit dem höchsten geschätzten Wert – aber mit Wahrscheinlichkeit ε\varepsilon wird eine zufällige Aktion gewählt, sodass jede Aktion eine von Null verschiedene Wahrscheinlichkeit hat, ausgewählt zu werden (auch die gierige, durch gleichmäßiges Sampling).

Auf den ersten Blick scheint dieser Ansatz problematisch: Da die Politik niemals rein gierig wird, wird sie niemals exakt zur optimalen Politik konvergieren. Daher erfüllt sie die Bedingungen für GPI nicht streng, falls wir exakte Optimalität im Grenzfall erwarten.

Allerdings verlangt GPI nicht, dass die Politik sofort optimal wird – es ist nur erforderlich, dass jede Politik verbessert wird (oder gleich bleibt) im Vergleich zur vorherigen, sodass schrittweise die Optimalität erreicht wird. Die ε\varepsilon-gierige Politik erfüllt diese Bedingung: Sie verbessert die Politik im Durchschnitt und gewährleistet fortlaufende Exploration zur Unterstützung besserer Schätzungen.

Um das Problem der Konvergenz zur tatsächlich optimalen Politik zu adressieren, kann ε\varepsilon schrittweise reduziert werden. Diese Strategie ermöglicht es der Politik, im Verlauf des Lernens zunehmend gieriger zu werden. In den frühen Phasen unterstützt Exploration das Sammeln vielfältiger Erfahrungen, während in späteren Phasen der Agent sein verbessertes Wissen ausnutzt. Mit einem angemessen abnehmenden ε\varepsilon konvergiert die Methode im Grenzfall zu einer optimalen Politik.

Pseudocode

question mark

Wie können stochastische Politiken bei der Exploration helfen?

Select the correct answer

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 4. Kapitel 5

Fragen Sie AI

expand

Fragen Sie AI

ChatGPT

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

course content

Kursinhalt

Einführung in das Reinforcement Learning

Einführung in das Reinforcement Learning

1. Kernprinzipien des RL
2. Multi-Armed-Bandit-Problem
3. Dynamische Programmierung
4. Monte-Carlo-Methoden
5. Temporal-Differenz-Lernen

book
On-Policy-Monte-Carlo-Steuerung

Die Idee hinter On-Policy-Methoden ist intuitiv: Ein Agent lernt, indem er seiner aktuellen Strategie folgt und diese Strategie basierend auf den gemachten Erfahrungen verbessert. Um bessere Aktionen zu entdecken und zu vermeiden, in suboptimalem Verhalten stecken zu bleiben, integriert der Agent einen gewissen Grad an Zufälligkeit – gelegentlich probiert er alternative Aktionen aus, um die Erkundung zu fördern.

Analogie

Stellen Sie sich vor, Sie befinden sich in einer Eisdiele und es gibt drei Sorten: Schokolade, Vanille und Erdbeere. Sie lieben Schokolade und wählen normalerweise diese Sorte. Doch eines Tages entscheiden Sie sich aus Neugier, stattdessen Erdbeere zu probieren. Es stellt sich heraus, dass das Erdbeereis in diesem Laden außergewöhnlich lecker ist, und Sie entscheiden sich, künftig immer diese Sorte zu wählen.

Das Ausprobieren eines neuen Geschmacks war basierend auf bisherigen Erfahrungen nicht unbedingt die logischste Wahl, aber es bot die Möglichkeit, etwas Neues zu entdecken. Genau diese Art der Erkundung steht im Zentrum der On-Policy-Methoden.

Stochastische Politiken

Formal bedeutet die Übernahme dieses Konzepts, dass die in der dynamischen Programmierung verwendeten deterministischen (harten) Politiken durch stochastische (weiche) Politiken ersetzt werden, bezeichnet als π(as)\pi(a | s), wobei:

π(as)>0sS,aA(s)\pi(a | s) > 0 \qquad \forall s \in S, a \in A(s)

Mit anderen Worten: Jede Aktion in jedem Zustand hat eine von Null verschiedene Wahrscheinlichkeit, ausgewählt zu werden. Dies stellt sicher, dass alle Teile der Umgebung letztlich erkundet werden können, was beim Lernen aus Erfahrung unerlässlich ist.

ε\Large\varepsilon-gierige Politiken

Um Exploration in die Politik zu integrieren, übernehmen wir das Konzept der ε\varepsilon-gierigen Exploration aus dem Multi-Armed-Bandit-Problem. Dies ermöglicht die Definition einer stochastischen Politik, die das Ausnutzen der besten bekannten Aktion mit dem Erkunden von Alternativen ausbalanciert:

π(as){1ε+εA(s)falls a=arg maxaqπ(s,a)εA(s)sonst\pi(a | s) \gets \begin{dcases} 1 - \varepsilon + \frac{\varepsilon}{|A(s)|} & \text{falls } a = \argmax_{a'} q_\pi(s, a') \\ \frac{\varepsilon}{|A(s)|} & \text{sonst} \end{dcases}

Diese Politik verhält sich meist gierig – sie wählt die Aktion mit dem höchsten geschätzten Wert – aber mit Wahrscheinlichkeit ε\varepsilon wird eine zufällige Aktion gewählt, sodass jede Aktion eine von Null verschiedene Wahrscheinlichkeit hat, ausgewählt zu werden (auch die gierige, durch gleichmäßiges Sampling).

Auf den ersten Blick scheint dieser Ansatz problematisch: Da die Politik niemals rein gierig wird, wird sie niemals exakt zur optimalen Politik konvergieren. Daher erfüllt sie die Bedingungen für GPI nicht streng, falls wir exakte Optimalität im Grenzfall erwarten.

Allerdings verlangt GPI nicht, dass die Politik sofort optimal wird – es ist nur erforderlich, dass jede Politik verbessert wird (oder gleich bleibt) im Vergleich zur vorherigen, sodass schrittweise die Optimalität erreicht wird. Die ε\varepsilon-gierige Politik erfüllt diese Bedingung: Sie verbessert die Politik im Durchschnitt und gewährleistet fortlaufende Exploration zur Unterstützung besserer Schätzungen.

Um das Problem der Konvergenz zur tatsächlich optimalen Politik zu adressieren, kann ε\varepsilon schrittweise reduziert werden. Diese Strategie ermöglicht es der Politik, im Verlauf des Lernens zunehmend gieriger zu werden. In den frühen Phasen unterstützt Exploration das Sammeln vielfältiger Erfahrungen, während in späteren Phasen der Agent sein verbessertes Wissen ausnutzt. Mit einem angemessen abnehmenden ε\varepsilon konvergiert die Methode im Grenzfall zu einer optimalen Politik.

Pseudocode

question mark

Wie können stochastische Politiken bei der Exploration helfen?

Select the correct answer

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 4. Kapitel 5
some-alt