Lernen Erkundungsansätze | Monte-Carlo-Methoden

Die Annahme der exploring starts ist nützlich, um sicherzustellen, dass alle Zustände (Zustand-Aktions-Paare) im Laufe der Zeit besucht werden. In den meisten realen Aufgaben hat sie jedoch einen entscheidenden Nachteil: Sie erfordert ein Modell, um den Agenten in beliebigen Zuständen zu initialisieren.

In seltenen Fällen – wenn die Umgebung Episoden natürlich aus zufälligen Zuständen startet, die den gesamten Zustandsraum abdecken – kann exploring starts problemlos angewendet werden. Häufiger jedoch verfügen Aufgaben über einen festen oder begrenzten Satz von Startzuständen, was eine solche Randomisierung ohne ein Teilmodell unmöglich macht. Dieses Modell sollte zumindest in der Lage sein, einen Schritt der Umgebung aus jedem beliebigen Zustand zu simulieren. Obwohl dies weniger anspruchsvoll ist als ein vollständiges Modell, ist es oft unpraktisch.

Alternative Erkundungsansätze

Wenn das Starten aus einem zufälligen Zustand (Zustand-Aktions-Paar) nicht möglich ist, besteht die Alternative darin, sicherzustellen, dass jede Aktion in jedem Zustand eine von null verschiedene Wahrscheinlichkeit hat, ausgewählt zu werden. Dies garantiert, dass der Agent im Laufe der Zeit alle erreichbaren Bereiche des Zustandsraums erkundet. Wenn ein Zustand durch eine gültige Aktionssequenz erreicht werden kann, wird er es schließlich auch; und wenn er unter den Dynamiken der Umgebung überhaupt nicht erreichbar ist, ist er für den Lernprozess irrelevant.

Diese Idee führt zum Einsatz von stochastischen Politiken, bei denen der Agent nicht immer die am besten bekannte Aktion wählt, sondern Aktionen mit einem gewissen Maß an Zufälligkeit auswählt. Eine gängige Strategie hierfür ist die bekannte $\varepsilon$ -greedy-Politik, die meistens die gierigste Aktion auswählt, aber mit Wahrscheinlichkeit $\varepsilon$ stattdessen eine zufällige Aktion wählt. Dies gewährleistet eine kontinuierliche Erkundung, während weiterhin bevorzugt hochwertige Aktionen gewählt werden.

An dieser Stelle ist es auch sinnvoll, zwischen zwei Hauptklassen von Methoden zu unterscheiden:

On-policy-Methoden bewerten und verbessern dieselbe Politik, die zur Datengenerierung verwendet wird;
Off-policy-Methoden bewerten und verbessern eine Politik, während die Daten mit einer anderen Politik generiert werden.

1. Was ist das Hauptproblem der Exploring-Starts-Annahme?

2. Was ist der Unterschied zwischen On-Policy- und Off-Policy-Methoden im Reinforcement Learning?

War alles klar?

Danke für Ihr Feedback!

Abschnitt 4. Kapitel 4

Fragen Sie AI

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Suggested prompts:

Can you explain the difference between on-policy and off-policy methods in more detail?

How does the ε-greedy policy work in practice?

What are some other exploration strategies besides ε-greedy?

Swipe um das Menü anzuzeigen