Kursinhalt
Einführung in das Reinforcement Learning
Einführung in das Reinforcement Learning
Modell, Politik und Werte
Modell
Ein Modell ist eine Darstellung der Umgebung, die die Übergangswahrscheinlichkeiten zwischen Zuständen und die erwarteten Belohnungen für ausgeführte Aktionen definiert.
Verstärkendes Lernen kann in zwei Kategorien unterteilt werden:
- Modellbasiert: Bei diesem Ansatz lernt der Agent ein Modell der Umgebung oder hat Zugriff darauf, was es ihm ermöglicht, zukünftige Zustände und Belohnungen zu simulieren, bevor er Aktionen ausführt. Dadurch kann der Agent planen und fundiertere Entscheidungen treffen;
- Modellfrei: Bei diesem Ansatz verfügt der Agent über kein direktes Modell der Umgebung. Er lernt ausschließlich durch Interaktion mit der Umgebung und verlässt sich auf Versuch und Irrtum, um die besten Aktionen zu entdecken.
In der Praxis sind Umgebungen mit expliziten Modellen selten, was es für Agenten schwierig macht, sich auf modellbasierte Strategien zu verlassen. Daher haben sich modellfreie Ansätze in der Forschung und Anwendung des verstärkenden Lernens als häufiger und intensiver untersucht erwiesen.
Politik
Politik ist die Strategie, der ein Agent folgt, um seine Aktionen basierend auf dem aktuellen Zustand der Umgebung zu bestimmen.
Es gibt zwei Arten von Politiken:
- Deterministische Politik: Der Agent wählt für einen gegebenen Zustand immer die gleiche Aktion;
- Stochastische Politik: Der Agent wählt Aktionen basierend auf Wahrscheinlichkeitsverteilungen.
Während des Lernprozesses besteht das Ziel des Agenten darin, eine optimale Policy zu finden. Eine optimale Policy maximiert den erwarteten Ertrag und leitet den Agenten dazu an, in jedem gegebenen Zustand die bestmöglichen Entscheidungen zu treffen.
Wertfunktionen
Wertfunktionen sind entscheidend, um zu verstehen, wie ein Agent das Potenzial eines bestimmten Zustands oder Zustand-Aktions-Paares bewertet. Sie werden verwendet, um zukünftige erwartete Belohnungen abzuschätzen und unterstützen den Agenten dabei, fundierte Entscheidungen zu treffen.
Zustandswertfunktion
Zustandswertfunktion (oder ) ist eine Funktion, die den erwarteten Ertrag angibt, wenn sich ein Agent in einem bestimmten Zustand befindet und einer spezifischen Politik folgt. Sie dient zur Bewertung der Attraktivität von Zuständen.
Der Wert eines Zustands kann mathematisch wie folgt ausgedrückt werden:
Zustands-Aktions-Wertfunktion
Zustands-Aktions-Wertfunktion (oder ) ist eine Funktion, die den erwarteten Ertrag angibt, wenn eine bestimmte Aktion in einem gegebenen Zustand ausgeführt wird und anschließend einer spezifischen Politik gefolgt wird. Sie unterstützt die Bewertung der Attraktivität von Aktionen in Zuständen.
Zustands-Aktions-Wertfunktion wird häufig auch als Aktionswertfunktion bezeichnet.
Der Wert einer Aktion kann mathematisch wie folgt ausgedrückt werden:
Beziehung zwischen Modell, Politik und Wertfunktionen
Die Konzepte Modell, Politik und Wertfunktionen sind eng miteinander verknüpft und bilden ein umfassendes Rahmenwerk zur Kategorisierung von RL-Algorithmen. Dieses Rahmenwerk wird durch zwei Hauptachsen definiert:
- Lernziel: Diese Achse repräsentiert das Spektrum der RL-Algorithmen basierend auf ihrer Abhängigkeit von Wertfunktionen, Politikfunktionen oder einer Kombination aus beiden;
- Modellanwendung: Diese Achse unterscheidet Algorithmen danach, ob sie ein Modell der Umgebung verwenden oder ausschließlich durch Interaktion lernen.
Durch die Kombination dieser Dimensionen können RL-Algorithmen in unterschiedliche Kategorien eingeteilt werden, die jeweils eigene Merkmale und ideale Anwendungsfälle besitzen. Das Verständnis dieser Zusammenhänge unterstützt bei der Auswahl des geeigneten Algorithmus für spezifische Aufgaben und gewährleistet effiziente Lern- und Entscheidungsprozesse.
Danke für Ihr Feedback!