Lernen Modell, Politik und Werte | Kernprinzipien des RL

Modell

Definition

Ein Modell ist eine Darstellung der Umgebung, die die Übergangswahrscheinlichkeiten zwischen Zuständen und die erwarteten Belohnungen für ausgeführte Aktionen definiert.

Verstärkendes Lernen kann in zwei Kategorien unterteilt werden:

Modellbasiert: Bei diesem Ansatz lernt der Agent ein Modell der Umgebung oder hat Zugriff darauf, was es ihm ermöglicht, zukünftige Zustände und Belohnungen zu simulieren, bevor er Aktionen ausführt. Dadurch kann der Agent planen und fundiertere Entscheidungen treffen;
Modellfrei: Bei diesem Ansatz verfügt der Agent über kein direktes Modell der Umgebung. Er lernt ausschließlich durch Interaktion mit der Umgebung und verlässt sich auf Versuch und Irrtum, um die besten Aktionen zu entdecken.

In der Praxis sind Umgebungen mit expliziten Modellen selten, was es für Agenten schwierig macht, sich auf modellbasierte Strategien zu verlassen. Daher haben sich modellfreie Ansätze in der Forschung und Anwendung des verstärkenden Lernens als häufiger und intensiver untersucht erwiesen.

Politik

Definition

Politik $\pi$ ist die Strategie, der ein Agent folgt, um seine Aktionen basierend auf dem aktuellen Zustand der Umgebung zu bestimmen.

Es gibt zwei Arten von Politiken:

Deterministische Politik: Der Agent wählt für einen gegebenen Zustand immer die gleiche Aktion aus;
Stochastische Politik: Der Agent wählt Aktionen basierend auf Wahrscheinlichkeitsverteilungen aus.

Während des Lernprozesses besteht das Ziel des Agenten darin, eine optimale Politik zu finden. Eine optimale Politik ist eine, die den erwarteten Ertrag maximiert und den Agenten dazu anleitet, in jedem gegebenen Zustand die bestmöglichen Entscheidungen zu treffen.

Wertfunktionen

Wertfunktionen sind entscheidend, um zu verstehen, wie ein Agent das Potenzial eines bestimmten Zustands oder Zustand-Aktions-Paares bewertet. Sie werden verwendet, um zukünftige erwartete Belohnungen abzuschätzen und unterstützen den Agenten dabei, fundierte Entscheidungen zu treffen.

Zustandswertfunktion

Definition

Zustandswertfunktion $V$ (oder $v$ ) ist eine Funktion, die den erwarteten Ertrag angibt, wenn man sich in einem bestimmten Zustand befindet und einer spezifischen Politik folgt. Sie unterstützt die Bewertung der Attraktivität von Zuständen.

Der Wert eines Zustands kann mathematisch wie folgt ausgedrückt werden:

\def\E{\operatorname{\mathbb{E}}} v_\pi(s) = \E_\pi[G_t | S_t = s] = \E_\pi\Biggl[\sum_{k=0}^\infty \gamma^k R_{t+k+1} | S_t = s\Biggr]

Zustands-Aktions-Wertfunktion

Definition

Zustands-Aktions-Wertfunktion $Q$ (oder $q$ ) ist eine Funktion, die den erwarteten Ertrag angibt, wenn eine bestimmte Aktion in einem gegebenen Zustand ausgeführt und anschließend einer spezifischen Politik gefolgt wird. Sie unterstützt die Bewertung der Attraktivität von Aktionen in Zuständen.

Zustands-Aktions-Wertfunktion wird häufig auch als Aktionswertfunktion bezeichnet.

Der Wert einer Aktion kann mathematisch wie folgt ausgedrückt werden:

\def\E{\operatorname{\mathbb{E}}} q_\pi(s, a) = \E_\pi[G_t | S_t = s, A_t = a] = \E_\pi\Biggl[\sum_{k=0}^\infty \gamma^k R_{t+k+1} | S_t = s, A_t = a\Biggr]

Beziehung zwischen Modell, Politik und Wertfunktionen

Die Konzepte Modell, Politik und Wertfunktionen sind eng miteinander verknüpft und bilden ein umfassendes Rahmenwerk zur Kategorisierung von RL-Algorithmen. Dieses Rahmenwerk wird durch zwei Hauptachsen definiert:

Lernziel: Diese Achse repräsentiert das Spektrum der RL-Algorithmen basierend auf ihrer Abhängigkeit von Wertfunktionen, Politikfunktionen oder einer Kombination aus beiden;
Modellanwendung: Diese Achse unterscheidet Algorithmen danach, ob sie ein Modell der Umgebung verwenden oder ausschließlich durch Interaktion lernen.

Durch die Kombination dieser Dimensionen lassen sich RL-Algorithmen in unterschiedliche Kategorien einteilen, die jeweils eigene Merkmale und ideale Anwendungsfälle aufweisen. Das Verständnis dieser Beziehungen unterstützt die Auswahl des geeigneten Algorithmus für spezifische Aufgaben und gewährleistet effiziente Lern- und Entscheidungsprozesse.

War alles klar?

Danke für Ihr Feedback!

Abschnitt 1. Kapitel 5

Fragen Sie AI

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Suggested prompts:

Can you explain the difference between model-based and model-free reinforcement learning in more detail?

What is the significance of value functions in reinforcement learning?

How do deterministic and stochastic policies affect an agent's behavior?

Swipe um das Menü anzuzeigen

Modell

Definition

Ein Modell ist eine Darstellung der Umgebung, die die Übergangswahrscheinlichkeiten zwischen Zuständen und die erwarteten Belohnungen für ausgeführte Aktionen definiert.

Verstärkendes Lernen kann in zwei Kategorien unterteilt werden:

Modellbasiert: Bei diesem Ansatz lernt der Agent ein Modell der Umgebung oder hat Zugriff darauf, was es ihm ermöglicht, zukünftige Zustände und Belohnungen zu simulieren, bevor er Aktionen ausführt. Dadurch kann der Agent planen und fundiertere Entscheidungen treffen;
Modellfrei: Bei diesem Ansatz verfügt der Agent über kein direktes Modell der Umgebung. Er lernt ausschließlich durch Interaktion mit der Umgebung und verlässt sich auf Versuch und Irrtum, um die besten Aktionen zu entdecken.

Politik

Definition

Politik $\pi$ ist die Strategie, der ein Agent folgt, um seine Aktionen basierend auf dem aktuellen Zustand der Umgebung zu bestimmen.

Es gibt zwei Arten von Politiken:

Deterministische Politik: Der Agent wählt für einen gegebenen Zustand immer die gleiche Aktion aus;
Stochastische Politik: Der Agent wählt Aktionen basierend auf Wahrscheinlichkeitsverteilungen aus.

Wertfunktionen

Zustandswertfunktion

Definition

Der Wert eines Zustands kann mathematisch wie folgt ausgedrückt werden:

\def\E{\operatorname{\mathbb{E}}} v_\pi(s) = \E_\pi[G_t | S_t = s] = \E_\pi\Biggl[\sum_{k=0}^\infty \gamma^k R_{t+k+1} | S_t = s\Biggr]

Zustands-Aktions-Wertfunktion

Definition

Zustands-Aktions-Wertfunktion wird häufig auch als Aktionswertfunktion bezeichnet.

Der Wert einer Aktion kann mathematisch wie folgt ausgedrückt werden:

\def\E{\operatorname{\mathbb{E}}} q_\pi(s, a) = \E_\pi[G_t | S_t = s, A_t = a] = \E_\pi\Biggl[\sum_{k=0}^\infty \gamma^k R_{t+k+1} | S_t = s, A_t = a\Biggr]

Beziehung zwischen Modell, Politik und Wertfunktionen

Lernziel: Diese Achse repräsentiert das Spektrum der RL-Algorithmen basierend auf ihrer Abhängigkeit von Wertfunktionen, Politikfunktionen oder einer Kombination aus beiden;
Modellanwendung: Diese Achse unterscheidet Algorithmen danach, ob sie ein Modell der Umgebung verwenden oder ausschließlich durch Interaktion lernen.

War alles klar?

Danke für Ihr Feedback!

Abschnitt 1. Kapitel 5