Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lernen Modell, Politik und Werte | Kernprinzipien des RL
Einführung in das Reinforcement Learning
course content

Kursinhalt

Einführung in das Reinforcement Learning

Einführung in das Reinforcement Learning

1. Kernprinzipien des RL
2. Multi-Armed-Bandit-Problem
3. Dynamische Programmierung
4. Monte-Carlo-Methoden
5. Temporal-Differenz-Lernen

book
Modell, Politik und Werte

Modell

Note
Definition

Ein Modell ist eine Darstellung der Umgebung, die die Übergangswahrscheinlichkeiten zwischen Zuständen und die erwarteten Belohnungen für ausgeführte Aktionen definiert.

Verstärkendes Lernen kann in zwei Kategorien unterteilt werden:

  • Modellbasiert: Bei diesem Ansatz lernt der Agent ein Modell der Umgebung oder hat Zugriff darauf, was es ihm ermöglicht, zukünftige Zustände und Belohnungen zu simulieren, bevor er Aktionen ausführt. Dadurch kann der Agent planen und fundiertere Entscheidungen treffen;
  • Modellfrei: Bei diesem Ansatz verfügt der Agent über kein direktes Modell der Umgebung. Er lernt ausschließlich durch Interaktion mit der Umgebung und verlässt sich auf Versuch und Irrtum, um die besten Aktionen zu entdecken.

In der Praxis sind Umgebungen mit expliziten Modellen selten, was es für Agenten schwierig macht, sich auf modellbasierte Strategien zu verlassen. Daher haben sich modellfreie Ansätze in der Forschung und Anwendung des verstärkenden Lernens als häufiger und intensiver untersucht erwiesen.

Politik

Note
Definition

Politik π\pi ist die Strategie, der ein Agent folgt, um seine Aktionen basierend auf dem aktuellen Zustand der Umgebung zu bestimmen.

Es gibt zwei Arten von Politiken:

  • Deterministische Politik: Der Agent wählt für einen gegebenen Zustand immer die gleiche Aktion;
  • Stochastische Politik: Der Agent wählt Aktionen basierend auf Wahrscheinlichkeitsverteilungen.

Während des Lernprozesses besteht das Ziel des Agenten darin, eine optimale Policy zu finden. Eine optimale Policy maximiert den erwarteten Ertrag und leitet den Agenten dazu an, in jedem gegebenen Zustand die bestmöglichen Entscheidungen zu treffen.

Wertfunktionen

Wertfunktionen sind entscheidend, um zu verstehen, wie ein Agent das Potenzial eines bestimmten Zustands oder Zustand-Aktions-Paares bewertet. Sie werden verwendet, um zukünftige erwartete Belohnungen abzuschätzen und unterstützen den Agenten dabei, fundierte Entscheidungen zu treffen.

Zustandswertfunktion

Note
Definition

Zustandswertfunktion VV (oder vv) ist eine Funktion, die den erwarteten Ertrag angibt, wenn sich ein Agent in einem bestimmten Zustand befindet und einer spezifischen Politik folgt. Sie dient zur Bewertung der Attraktivität von Zuständen.

Der Wert eines Zustands kann mathematisch wie folgt ausgedrückt werden:

vπ(s)=Eπ[GtSt=s]=Eπ[k=0γkRt+k+1St=s]\def\E{\operatorname{\mathbb{E}}} v_\pi(s) = \E_\pi[G_t | S_t = s] = \E_\pi\Biggl[\sum_{k=0}^\infty \gamma^k R_{t+k+1} | S_t = s\Biggr]

Zustands-Aktions-Wertfunktion

Note
Definition

Zustands-Aktions-Wertfunktion QQ (oder qq) ist eine Funktion, die den erwarteten Ertrag angibt, wenn eine bestimmte Aktion in einem gegebenen Zustand ausgeführt wird und anschließend einer spezifischen Politik gefolgt wird. Sie unterstützt die Bewertung der Attraktivität von Aktionen in Zuständen.

Zustands-Aktions-Wertfunktion wird häufig auch als Aktionswertfunktion bezeichnet.

Der Wert einer Aktion kann mathematisch wie folgt ausgedrückt werden:

qπ(s,a)=Eπ[GtSt=s,At=a]=Eπ[k=0γkRt+k+1St=s,At=a]\def\E{\operatorname{\mathbb{E}}} q_\pi(s, a) = \E_\pi[G_t | S_t = s, A_t = a] = \E_\pi\Biggl[\sum_{k=0}^\infty \gamma^k R_{t+k+1} | S_t = s, A_t = a\Biggr]

Beziehung zwischen Modell, Politik und Wertfunktionen

Die Konzepte Modell, Politik und Wertfunktionen sind eng miteinander verknüpft und bilden ein umfassendes Rahmenwerk zur Kategorisierung von RL-Algorithmen. Dieses Rahmenwerk wird durch zwei Hauptachsen definiert:

  • Lernziel: Diese Achse repräsentiert das Spektrum der RL-Algorithmen basierend auf ihrer Abhängigkeit von Wertfunktionen, Politikfunktionen oder einer Kombination aus beiden;
  • Modellanwendung: Diese Achse unterscheidet Algorithmen danach, ob sie ein Modell der Umgebung verwenden oder ausschließlich durch Interaktion lernen.

Durch die Kombination dieser Dimensionen können RL-Algorithmen in unterschiedliche Kategorien eingeteilt werden, die jeweils eigene Merkmale und ideale Anwendungsfälle besitzen. Das Verständnis dieser Zusammenhänge unterstützt bei der Auswahl des geeigneten Algorithmus für spezifische Aufgaben und gewährleistet effiziente Lern- und Entscheidungsprozesse.

question-icon

Lücken ausfüllen

To predict the response of the environment, a can be used.
A
is a model of an agent's behavior.
To determine the value of a/an
, state value function is used.
To determine the value of a/an
, state-action value function is used.

Click or drag`n`drop items and fill in the blanks

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 1. Kapitel 5

Fragen Sie AI

expand

Fragen Sie AI

ChatGPT

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

course content

Kursinhalt

Einführung in das Reinforcement Learning

Einführung in das Reinforcement Learning

1. Kernprinzipien des RL
2. Multi-Armed-Bandit-Problem
3. Dynamische Programmierung
4. Monte-Carlo-Methoden
5. Temporal-Differenz-Lernen

book
Modell, Politik und Werte

Modell

Note
Definition

Ein Modell ist eine Darstellung der Umgebung, die die Übergangswahrscheinlichkeiten zwischen Zuständen und die erwarteten Belohnungen für ausgeführte Aktionen definiert.

Verstärkendes Lernen kann in zwei Kategorien unterteilt werden:

  • Modellbasiert: Bei diesem Ansatz lernt der Agent ein Modell der Umgebung oder hat Zugriff darauf, was es ihm ermöglicht, zukünftige Zustände und Belohnungen zu simulieren, bevor er Aktionen ausführt. Dadurch kann der Agent planen und fundiertere Entscheidungen treffen;
  • Modellfrei: Bei diesem Ansatz verfügt der Agent über kein direktes Modell der Umgebung. Er lernt ausschließlich durch Interaktion mit der Umgebung und verlässt sich auf Versuch und Irrtum, um die besten Aktionen zu entdecken.

In der Praxis sind Umgebungen mit expliziten Modellen selten, was es für Agenten schwierig macht, sich auf modellbasierte Strategien zu verlassen. Daher haben sich modellfreie Ansätze in der Forschung und Anwendung des verstärkenden Lernens als häufiger und intensiver untersucht erwiesen.

Politik

Note
Definition

Politik π\pi ist die Strategie, der ein Agent folgt, um seine Aktionen basierend auf dem aktuellen Zustand der Umgebung zu bestimmen.

Es gibt zwei Arten von Politiken:

  • Deterministische Politik: Der Agent wählt für einen gegebenen Zustand immer die gleiche Aktion;
  • Stochastische Politik: Der Agent wählt Aktionen basierend auf Wahrscheinlichkeitsverteilungen.

Während des Lernprozesses besteht das Ziel des Agenten darin, eine optimale Policy zu finden. Eine optimale Policy maximiert den erwarteten Ertrag und leitet den Agenten dazu an, in jedem gegebenen Zustand die bestmöglichen Entscheidungen zu treffen.

Wertfunktionen

Wertfunktionen sind entscheidend, um zu verstehen, wie ein Agent das Potenzial eines bestimmten Zustands oder Zustand-Aktions-Paares bewertet. Sie werden verwendet, um zukünftige erwartete Belohnungen abzuschätzen und unterstützen den Agenten dabei, fundierte Entscheidungen zu treffen.

Zustandswertfunktion

Note
Definition

Zustandswertfunktion VV (oder vv) ist eine Funktion, die den erwarteten Ertrag angibt, wenn sich ein Agent in einem bestimmten Zustand befindet und einer spezifischen Politik folgt. Sie dient zur Bewertung der Attraktivität von Zuständen.

Der Wert eines Zustands kann mathematisch wie folgt ausgedrückt werden:

vπ(s)=Eπ[GtSt=s]=Eπ[k=0γkRt+k+1St=s]\def\E{\operatorname{\mathbb{E}}} v_\pi(s) = \E_\pi[G_t | S_t = s] = \E_\pi\Biggl[\sum_{k=0}^\infty \gamma^k R_{t+k+1} | S_t = s\Biggr]

Zustands-Aktions-Wertfunktion

Note
Definition

Zustands-Aktions-Wertfunktion QQ (oder qq) ist eine Funktion, die den erwarteten Ertrag angibt, wenn eine bestimmte Aktion in einem gegebenen Zustand ausgeführt wird und anschließend einer spezifischen Politik gefolgt wird. Sie unterstützt die Bewertung der Attraktivität von Aktionen in Zuständen.

Zustands-Aktions-Wertfunktion wird häufig auch als Aktionswertfunktion bezeichnet.

Der Wert einer Aktion kann mathematisch wie folgt ausgedrückt werden:

qπ(s,a)=Eπ[GtSt=s,At=a]=Eπ[k=0γkRt+k+1St=s,At=a]\def\E{\operatorname{\mathbb{E}}} q_\pi(s, a) = \E_\pi[G_t | S_t = s, A_t = a] = \E_\pi\Biggl[\sum_{k=0}^\infty \gamma^k R_{t+k+1} | S_t = s, A_t = a\Biggr]

Beziehung zwischen Modell, Politik und Wertfunktionen

Die Konzepte Modell, Politik und Wertfunktionen sind eng miteinander verknüpft und bilden ein umfassendes Rahmenwerk zur Kategorisierung von RL-Algorithmen. Dieses Rahmenwerk wird durch zwei Hauptachsen definiert:

  • Lernziel: Diese Achse repräsentiert das Spektrum der RL-Algorithmen basierend auf ihrer Abhängigkeit von Wertfunktionen, Politikfunktionen oder einer Kombination aus beiden;
  • Modellanwendung: Diese Achse unterscheidet Algorithmen danach, ob sie ein Modell der Umgebung verwenden oder ausschließlich durch Interaktion lernen.

Durch die Kombination dieser Dimensionen können RL-Algorithmen in unterschiedliche Kategorien eingeteilt werden, die jeweils eigene Merkmale und ideale Anwendungsfälle besitzen. Das Verständnis dieser Zusammenhänge unterstützt bei der Auswahl des geeigneten Algorithmus für spezifische Aufgaben und gewährleistet effiziente Lern- und Entscheidungsprozesse.

question-icon

Lücken ausfüllen

To predict the response of the environment, a can be used.
A
is a model of an agent's behavior.
To determine the value of a/an
, state value function is used.
To determine the value of a/an
, state-action value function is used.

Click or drag`n`drop items and fill in the blanks

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 1. Kapitel 5
some-alt