Kursinhalt
Einführung in das Reinforcement Learning
Einführung in das Reinforcement Learning
Markow-Entscheidungsprozess
Markov-Entscheidungsprozess (MDP) ist ein mathematisches Rahmenwerk zur Modellierung von Entscheidungsproblemen, bei denen ein Agent über die Zeit mit einer Umgebung interagiert.
Reinforcement-Learning-Probleme werden häufig als MDPs formuliert, die eine strukturierte Möglichkeit zur Definition des Problems bieten. MDPs beschreiben die Umgebung anhand von vier Schlüsselelementen: Zustände, Aktionen, Übergänge und Belohnungen. Diese Komponenten arbeiten zusammen unter der Markov-Eigenschaft, die sicherstellt, dass der zukünftige Zustand nur vom aktuellen Zustand und der aktuellen Aktion abhängt, nicht von vergangenen Zuständen.
Die vier Komponenten
Zustand
Ein Zustand ist eine Darstellung der Umgebung zu einem bestimmten Zeitpunkt. Die Menge aller möglichen Zustände wird als Zustandsraum bezeichnet.
Ein Zustand wird typischerweise durch eine Menge von Parametern dargestellt, die die relevanten Merkmale der Umgebung erfassen. Diese Parameter können verschiedene Aspekte wie Position, Geschwindigkeit, Rotation usw. umfassen.
Aktion
Eine Aktion ist eine Entscheidung oder Bewegung, die vom Agenten getroffen wird, um die Umgebung zu beeinflussen. Die Menge aller möglichen Aktionen wird als Aktionsraum bezeichnet.
Die Menge der möglichen Aktionen hängt in der Regel vom aktuellen Zustand ab.
Übergang
Übergang beschreibt, wie sich der Zustand der Umgebung verändert als Reaktion auf die Aktion des Agenten. Die Übergangsfunktion gibt die Wahrscheinlichkeit an, von einem Zustand in einen anderen überzugehen, wenn eine bestimmte Aktion ausgeführt wird.
In vielen Fällen können Umgebungen entweder deterministisch oder stochastisch sein, was bedeutet, dass der Übergang entweder vorhersehbar ist oder einen gewissen Grad an Zufälligkeit beinhaltet.
Belohnung
Eine Belohnung ist ein numerischer Wert, den der Agent nach Ausführung einer Aktion in einem bestimmten Zustand erhält. Die Funktion, die Übergänge auf erwartete Belohnungen abbildet, wird als Belohnungsfunktion bezeichnet.
Belohnungen lenken den Agenten zu erwünschtem Verhalten und können sowohl positiv als auch negativ sein. Die Gestaltung von Belohnungen ist komplex, da der Agent versuchen kann, die Belohnungen auszunutzen.
Markov-Eigenschaft
Die Markov-Eigenschaft in einem Markov-Entscheidungsprozess besagt, dass der nächste Zustand und die Belohnung ausschließlich vom aktuellen Zustand und der aktuellen Aktion abhängen, nicht von vergangenen Informationen. Dies gewährleistet ein gedächtnisloses Rahmenwerk und vereinfacht den Lernprozess.
Mathematisch lässt sich diese Eigenschaft durch folgende Formel beschreiben:
wobei:
- ein Zustand zum Zeitpunkt ist;
- eine zum Zeitpunkt ausgeführte Aktion ist;
- eine Belohnung zum Zeitpunkt ist.
Die gedächtnislose Natur von MDP bedeutet nicht, dass vergangene Beobachtungen ignoriert werden. Der aktuelle Zustand sollte alle relevanten historischen Informationen enthalten.
Danke für Ihr Feedback!