Lernen Episoden und Erträge | Kernprinzipien des RL

Die Länge einer Aufgabe

RL-Aufgaben werden typischerweise als episodisch oder kontinuierlich kategorisiert, abhängig davon, wie der Lernprozess über die Zeit strukturiert ist.

Definition

Episode ist eine vollständige Abfolge von Interaktionen zwischen dem Agenten und der Umgebung, beginnend mit einem Anfangszustand und fortschreitend durch eine Reihe von Übergängen, bis ein Endzustand erreicht wird.

Episodische Aufgaben sind solche, die aus einer endlichen Sequenz von Zuständen, Aktionen und Belohnungen bestehen, wobei die Interaktion des Agenten mit der Umgebung in einzelne Episoden unterteilt ist.

Im Gegensatz dazu haben kontinuierliche Aufgaben keinen klaren Abschluss jedes Interaktionszyklus. Der Agent interagiert fortlaufend mit der Umgebung ohne Zurücksetzen in einen Anfangszustand, und der Lernprozess ist andauernd, häufig ohne einen eindeutigen Endpunkt.

Return

Es ist bereits bekannt, dass das Hauptziel des Agenten darin besteht, kumulative Belohnungen zu maximieren. Während die Belohnungsfunktion sofortige Belohnungen liefert, berücksichtigt sie keine zukünftigen Ergebnisse, was problematisch sein kann. Ein Agent, der ausschließlich darauf trainiert wird, unmittelbare Belohnungen zu maximieren, könnte langfristige Vorteile übersehen. Um dieses Problem zu lösen, wird das Konzept des Return eingeführt.

Definition

Return $G$ ist die gesamte akkumulierte Belohnung, die ein Agent von einem gegebenen Zustand an erhält. Sie umfasst alle zukünftigen Belohnungen, nicht nur die unmittelbaren.

Der Return ist eine bessere Darstellung dafür, wie gut ein bestimmter Zustand oder eine Aktion langfristig ist. Das Ziel des Reinforcement Learnings kann nun als Maximierung des Returns definiert werden.

Wenn $T$ der letzte Zeitschritt ist, sieht die Formel für den Return wie folgt aus:

G_t = R_{t+1} + R_{t+2} + R_{t+3} + ... + R_T

Diskontierung

Während die einfache Rendite ein gutes Ziel in episodischen Aufgaben darstellt, tritt bei kontinuierlichen Aufgaben ein Problem auf. Ist die Anzahl der Zeitschritte unendlich, kann die Rendite selbst unendlich werden. Um dies zu vermeiden, wird ein Diskontfaktor verwendet, der sicherstellt, dass zukünftige Belohnungen weniger stark gewichtet werden und so verhindert wird, dass die Rendite unendlich wird.

Definition

Diskontfaktor $\gamma$ ist ein multiplikativer Faktor, der verwendet wird, um den aktuellen Wert zukünftiger Belohnungen zu bestimmen. Er liegt zwischen 0 und 1, wobei ein Wert näher an 0 dazu führt, dass der Agent unmittelbare Belohnungen bevorzugt, während ein Wert näher an 1 dazu führt, dass der Agent zukünftige Belohnungen stärker berücksichtigt.

Return in Kombination mit einem Abzinsungsfaktor wird als abgezinste Rückgabe bezeichnet.

Die Formel für die abgezinste Rückgabe lautet:

G_t = R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + ... = \sum_{k=0}^\infty \gamma^k R_{t+k+1}

Mehr erfahren

Selbst bei episodischen Aufgaben bietet die Verwendung eines Abzinsungsfaktors praktische Vorteile: Sie motiviert den Agenten, sein Ziel so schnell wie möglich zu erreichen, was zu effizienterem Verhalten führt. Aus diesem Grund wird das Abzinsen auch in eindeutig episodischen Szenarien häufig angewendet.

War alles klar?

Danke für Ihr Feedback!

Abschnitt 1. Kapitel 4

Fragen Sie AI

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Suggested prompts:

Can you explain what the discount factor γ represents?

What are some examples of episodic and continuous tasks in real life?

Why is it important to use discounted return in reinforcement learning?

Swipe um das Menü anzuzeigen

Die Länge einer Aufgabe

RL-Aufgaben werden typischerweise als episodisch oder kontinuierlich kategorisiert, abhängig davon, wie der Lernprozess über die Zeit strukturiert ist.

Definition

Return

Definition

Return $G$ ist die gesamte akkumulierte Belohnung, die ein Agent von einem gegebenen Zustand an erhält. Sie umfasst alle zukünftigen Belohnungen, nicht nur die unmittelbaren.

Wenn $T$ der letzte Zeitschritt ist, sieht die Formel für den Return wie folgt aus:

G_t = R_{t+1} + R_{t+2} + R_{t+3} + ... + R_T

Diskontierung

Definition

Return in Kombination mit einem Abzinsungsfaktor wird als abgezinste Rückgabe bezeichnet.

Die Formel für die abgezinste Rückgabe lautet:

G_t = R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + ... = \sum_{k=0}^\infty \gamma^k R_{t+k+1}

Mehr erfahren

War alles klar?

Danke für Ihr Feedback!

Abschnitt 1. Kapitel 4