Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lernen Episoden und Erträge | Kernprinzipien des RL
Einführung in das Reinforcement Learning
course content

Kursinhalt

Einführung in das Reinforcement Learning

Einführung in das Reinforcement Learning

1. Kernprinzipien des RL
2. Multi-Armed-Bandit-Problem
3. Dynamische Programmierung
4. Monte-Carlo-Methoden
5. Temporal-Differenz-Lernen

book
Episoden und Erträge

Die Länge einer Aufgabe

RL-Aufgaben werden typischerweise als episodisch oder kontinuierlich kategorisiert, abhängig davon, wie der Lernprozess über die Zeit strukturiert ist.

Note
Definition

Episode ist eine vollständige Abfolge von Interaktionen zwischen dem Agenten und der Umgebung, beginnend mit einem Anfangszustand und fortschreitend durch eine Reihe von Übergängen, bis ein Endzustand erreicht wird.

Episodische Aufgaben sind solche, die aus einer endlichen Abfolge von Zuständen, Aktionen und Belohnungen bestehen, wobei die Interaktion des Agenten mit der Umgebung in einzelne Episoden unterteilt ist.

Im Gegensatz dazu haben kontinuierliche Aufgaben keinen klaren Abschluss jedes Interaktionszyklus. Der Agent interagiert fortlaufend mit der Umgebung ohne Rücksetzung in einen Anfangszustand, und der Lernprozess ist fortwährend, häufig ohne einen eindeutigen Endpunkt.

Return

Es ist bereits bekannt, dass das Hauptziel des Agenten darin besteht, kumulative Belohnungen zu maximieren. Während die Belohnungsfunktion sofortige Belohnungen liefert, berücksichtigt sie keine zukünftigen Ergebnisse, was problematisch sein kann. Ein Agent, der ausschließlich darauf trainiert wird, unmittelbare Belohnungen zu maximieren, könnte langfristige Vorteile übersehen. Um dieses Problem zu lösen, wird das Konzept des Return eingeführt.

Note
Definition

Return GG ist die gesamte akkumulierte Belohnung, die ein Agent ab einem bestimmten Zustand erhält. Sie umfasst alle zukünftigen Belohnungen, nicht nur die unmittelbaren.

Der Return ist eine bessere Darstellung dafür, wie gut ein bestimmter Zustand oder eine Aktion langfristig ist. Das Ziel des Reinforcement Learnings kann nun als Maximierung des Returns definiert werden.

Wenn TT der letzte Zeitschritt ist, sieht die Formel für den Return wie folgt aus:

Gt=Rt+1+Rt+2+Rt+3+...+RTG_t = R_{t+1} + R_{t+2} + R_{t+3} + ... + R_T

Diskontierung

Während die einfache Rendite ein gutes Ziel in episodischen Aufgaben darstellt, tritt bei kontinuierlichen Aufgaben ein Problem auf. Ist die Anzahl der Zeitschritte unendlich, kann die Rendite selbst unendlich werden. Um dies zu vermeiden, wird ein Diskontfaktor verwendet, der sicherstellt, dass zukünftigen Belohnungen weniger Gewicht beigemessen wird und so verhindert wird, dass die Rendite unendlich wird.

Note
Definition

Diskontfaktor γ\gamma ist ein multiplikativer Faktor, der verwendet wird, um den aktuellen Wert zukünftiger Belohnungen zu bestimmen. Er liegt zwischen 0 und 1, wobei ein Wert näher an 0 dazu führt, dass der Agent unmittelbare Belohnungen bevorzugt, während ein Wert näher an 1 dazu führt, dass der Agent zukünftige Belohnungen stärker berücksichtigt.

Return in Kombination mit einem Abzinsungsfaktor wird als abgezinster Return bezeichnet.

Die Formel für den abgezinsten Return lautet:

Gt=Rt+1+γRt+2+γ2Rt+3+...=k=0γkRt+k+1G_t = R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + ... = \sum_{k=0}^\infty \gamma^k R_{t+k+1}
Note
Mehr erfahren

Selbst bei episodischen Aufgaben bietet die Verwendung eines Abzinsungsfaktors praktische Vorteile: Er motiviert den Agenten, sein Ziel so schnell wie möglich zu erreichen, was zu effizienterem Verhalten führt. Aus diesem Grund wird das Abzinsen auch in eindeutig episodischen Szenarien häufig angewendet.

question mark

Was stellt der Abzinsungsfaktor γ\gamma dar?

Select the correct answer

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 1. Kapitel 4

Fragen Sie AI

expand

Fragen Sie AI

ChatGPT

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

course content

Kursinhalt

Einführung in das Reinforcement Learning

Einführung in das Reinforcement Learning

1. Kernprinzipien des RL
2. Multi-Armed-Bandit-Problem
3. Dynamische Programmierung
4. Monte-Carlo-Methoden
5. Temporal-Differenz-Lernen

book
Episoden und Erträge

Die Länge einer Aufgabe

RL-Aufgaben werden typischerweise als episodisch oder kontinuierlich kategorisiert, abhängig davon, wie der Lernprozess über die Zeit strukturiert ist.

Note
Definition

Episode ist eine vollständige Abfolge von Interaktionen zwischen dem Agenten und der Umgebung, beginnend mit einem Anfangszustand und fortschreitend durch eine Reihe von Übergängen, bis ein Endzustand erreicht wird.

Episodische Aufgaben sind solche, die aus einer endlichen Abfolge von Zuständen, Aktionen und Belohnungen bestehen, wobei die Interaktion des Agenten mit der Umgebung in einzelne Episoden unterteilt ist.

Im Gegensatz dazu haben kontinuierliche Aufgaben keinen klaren Abschluss jedes Interaktionszyklus. Der Agent interagiert fortlaufend mit der Umgebung ohne Rücksetzung in einen Anfangszustand, und der Lernprozess ist fortwährend, häufig ohne einen eindeutigen Endpunkt.

Return

Es ist bereits bekannt, dass das Hauptziel des Agenten darin besteht, kumulative Belohnungen zu maximieren. Während die Belohnungsfunktion sofortige Belohnungen liefert, berücksichtigt sie keine zukünftigen Ergebnisse, was problematisch sein kann. Ein Agent, der ausschließlich darauf trainiert wird, unmittelbare Belohnungen zu maximieren, könnte langfristige Vorteile übersehen. Um dieses Problem zu lösen, wird das Konzept des Return eingeführt.

Note
Definition

Return GG ist die gesamte akkumulierte Belohnung, die ein Agent ab einem bestimmten Zustand erhält. Sie umfasst alle zukünftigen Belohnungen, nicht nur die unmittelbaren.

Der Return ist eine bessere Darstellung dafür, wie gut ein bestimmter Zustand oder eine Aktion langfristig ist. Das Ziel des Reinforcement Learnings kann nun als Maximierung des Returns definiert werden.

Wenn TT der letzte Zeitschritt ist, sieht die Formel für den Return wie folgt aus:

Gt=Rt+1+Rt+2+Rt+3+...+RTG_t = R_{t+1} + R_{t+2} + R_{t+3} + ... + R_T

Diskontierung

Während die einfache Rendite ein gutes Ziel in episodischen Aufgaben darstellt, tritt bei kontinuierlichen Aufgaben ein Problem auf. Ist die Anzahl der Zeitschritte unendlich, kann die Rendite selbst unendlich werden. Um dies zu vermeiden, wird ein Diskontfaktor verwendet, der sicherstellt, dass zukünftigen Belohnungen weniger Gewicht beigemessen wird und so verhindert wird, dass die Rendite unendlich wird.

Note
Definition

Diskontfaktor γ\gamma ist ein multiplikativer Faktor, der verwendet wird, um den aktuellen Wert zukünftiger Belohnungen zu bestimmen. Er liegt zwischen 0 und 1, wobei ein Wert näher an 0 dazu führt, dass der Agent unmittelbare Belohnungen bevorzugt, während ein Wert näher an 1 dazu führt, dass der Agent zukünftige Belohnungen stärker berücksichtigt.

Return in Kombination mit einem Abzinsungsfaktor wird als abgezinster Return bezeichnet.

Die Formel für den abgezinsten Return lautet:

Gt=Rt+1+γRt+2+γ2Rt+3+...=k=0γkRt+k+1G_t = R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + ... = \sum_{k=0}^\infty \gamma^k R_{t+k+1}
Note
Mehr erfahren

Selbst bei episodischen Aufgaben bietet die Verwendung eines Abzinsungsfaktors praktische Vorteile: Er motiviert den Agenten, sein Ziel so schnell wie möglich zu erreichen, was zu effizienterem Verhalten führt. Aus diesem Grund wird das Abzinsen auch in eindeutig episodischen Szenarien häufig angewendet.

question mark

Was stellt der Abzinsungsfaktor γ\gamma dar?

Select the correct answer

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 1. Kapitel 4
some-alt