Kursinhalt
Einführung in das Reinforcement Learning
Einführung in das Reinforcement Learning
Episoden und Erträge
Die Länge einer Aufgabe
RL-Aufgaben werden typischerweise als episodisch oder kontinuierlich kategorisiert, abhängig davon, wie der Lernprozess über die Zeit strukturiert ist.
Episode ist eine vollständige Abfolge von Interaktionen zwischen dem Agenten und der Umgebung, beginnend mit einem Anfangszustand und fortschreitend durch eine Reihe von Übergängen, bis ein Endzustand erreicht wird.
Episodische Aufgaben sind solche, die aus einer endlichen Abfolge von Zuständen, Aktionen und Belohnungen bestehen, wobei die Interaktion des Agenten mit der Umgebung in einzelne Episoden unterteilt ist.
Im Gegensatz dazu haben kontinuierliche Aufgaben keinen klaren Abschluss jedes Interaktionszyklus. Der Agent interagiert fortlaufend mit der Umgebung ohne Rücksetzung in einen Anfangszustand, und der Lernprozess ist fortwährend, häufig ohne einen eindeutigen Endpunkt.
Return
Es ist bereits bekannt, dass das Hauptziel des Agenten darin besteht, kumulative Belohnungen zu maximieren. Während die Belohnungsfunktion sofortige Belohnungen liefert, berücksichtigt sie keine zukünftigen Ergebnisse, was problematisch sein kann. Ein Agent, der ausschließlich darauf trainiert wird, unmittelbare Belohnungen zu maximieren, könnte langfristige Vorteile übersehen. Um dieses Problem zu lösen, wird das Konzept des Return eingeführt.
Return ist die gesamte akkumulierte Belohnung, die ein Agent ab einem bestimmten Zustand erhält. Sie umfasst alle zukünftigen Belohnungen, nicht nur die unmittelbaren.
Der Return ist eine bessere Darstellung dafür, wie gut ein bestimmter Zustand oder eine Aktion langfristig ist. Das Ziel des Reinforcement Learnings kann nun als Maximierung des Returns definiert werden.
Wenn der letzte Zeitschritt ist, sieht die Formel für den Return wie folgt aus:
Diskontierung
Während die einfache Rendite ein gutes Ziel in episodischen Aufgaben darstellt, tritt bei kontinuierlichen Aufgaben ein Problem auf. Ist die Anzahl der Zeitschritte unendlich, kann die Rendite selbst unendlich werden. Um dies zu vermeiden, wird ein Diskontfaktor verwendet, der sicherstellt, dass zukünftigen Belohnungen weniger Gewicht beigemessen wird und so verhindert wird, dass die Rendite unendlich wird.
Diskontfaktor ist ein multiplikativer Faktor, der verwendet wird, um den aktuellen Wert zukünftiger Belohnungen zu bestimmen. Er liegt zwischen 0 und 1, wobei ein Wert näher an 0 dazu führt, dass der Agent unmittelbare Belohnungen bevorzugt, während ein Wert näher an 1 dazu führt, dass der Agent zukünftige Belohnungen stärker berücksichtigt.
Return in Kombination mit einem Abzinsungsfaktor wird als abgezinster Return bezeichnet.
Die Formel für den abgezinsten Return lautet:
Selbst bei episodischen Aufgaben bietet die Verwendung eines Abzinsungsfaktors praktische Vorteile: Er motiviert den Agenten, sein Ziel so schnell wie möglich zu erreichen, was zu effizienterem Verhalten führt. Aus diesem Grund wird das Abzinsen auch in eindeutig episodischen Szenarien häufig angewendet.
Danke für Ihr Feedback!