Lernen Markow-Entscheidungsprozess | Kernprinzipien des RL

Definition

Markow-Entscheidungsprozess (MDP) ist ein mathematisches Rahmenwerk zur Modellierung von Entscheidungsproblemen, bei denen ein Agent über die Zeit mit einer Umgebung interagiert.

Reinforcement Learning-Probleme werden häufig als MDPs formuliert, die eine strukturierte Möglichkeit zur Definition des Problems bieten. MDPs beschreiben die Umgebung anhand von vier Schlüsselelementen: Zustände, Aktionen, Übergänge und Belohnungen. Diese Komponenten arbeiten zusammen unter der Markow-Eigenschaft, die sicherstellt, dass der zukünftige Zustand nur vom aktuellen Zustand und der aktuellen Aktion abhängt, nicht von vergangenen Zuständen.

Die vier Komponenten

Zustand

Definition

Ein Zustand $s$ ist eine Darstellung der Umgebung zu einem bestimmten Zeitpunkt. Die Menge aller möglichen Zustände wird als Zustandsraum $S$ bezeichnet.

Ein Zustand wird typischerweise durch eine Menge von Parametern dargestellt, die die relevanten Merkmale der Umgebung erfassen. Diese Parameter können verschiedene Aspekte wie Position, Geschwindigkeit, Rotation usw. umfassen.

Aktion

Definition

Eine Aktion $a$ ist eine Entscheidung oder ein Schritt, den der Agent unternimmt, um die Umgebung zu beeinflussen. Die Menge aller möglichen Aktionen wird als Aktionsraum $A$ bezeichnet.

Die Menge der möglichen Aktionen hängt in der Regel vom aktuellen Zustand ab.

Übergang

Definition

Übergang beschreibt, wie sich der Zustand der Umgebung ändert als Reaktion auf die Aktion des Agenten. Die Übergangsfunktion $p$ gibt die Wahrscheinlichkeit an, von einem Zustand in einen anderen überzugehen, gegeben eine bestimmte Aktion.

In vielen Fällen können Umgebungen entweder deterministisch oder stochastisch sein, was bedeutet, dass der Übergang entweder vorhersehbar ist oder einen gewissen Grad an Zufälligkeit beinhalten kann.

Belohnung

Definition

Eine Belohnung $r$ ist ein numerischer Wert, den der Agent nach der Ausführung einer Aktion in einem bestimmten Zustand erhält. Die Funktion, die Übergänge auf erwartete Belohnungen abbildet, wird als Belohnungsfunktion $R$ bezeichnet.

Belohnungen lenken den Agenten zu erwünschtem Verhalten und können sowohl positiv als auch negativ sein. Die Gestaltung von Belohnungen ist komplex, da der Agent versuchen kann, die Belohnungen auszunutzen.

Markov-Eigenschaft

Die Markov-Eigenschaft in einem Markov-Entscheidungsprozess besagt, dass der nächste Zustand und die Belohnung ausschließlich vom aktuellen Zustand und der aktuellen Aktion abhängen, nicht von vergangenen Informationen. Dies gewährleistet ein gedächtnisloses Rahmenwerk und vereinfacht den Lernprozess.

Mathematisch lässt sich diese Eigenschaft durch folgende Formel beschreiben:

\begin{aligned} &P(R_{t+1} = r, S_{t+1} = s' | S_t, A_t)=\\ =&P(R_{t+1} = r, S_{t+1} = s' | S_0, A_0, R_1,..., S_{t-1}, A_{t-1}, R_t, S_t, A_t) \end{aligned}

wobei:

$S_t$ ein Zustand zum Zeitpunkt $t$ ist;
$A_t$ eine zum Zeitpunkt $t$ ausgeführte Aktion ist;
$R_t$ eine Belohnung zum Zeitpunkt $t$ ist.

Hinweis

Die gedächtnislose Natur eines MDP bedeutet nicht, dass vergangene Beobachtungen ignoriert werden. Der aktuelle Zustand sollte alle relevanten historischen Informationen enthalten.

War alles klar?

Danke für Ihr Feedback!

Abschnitt 1. Kapitel 3

Fragen Sie AI

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Suggested prompts:

Can you explain more about how the Markov property simplifies reinforcement learning?

What are some examples of states, actions, transitions, and rewards in real-world problems?

How does reward engineering impact the behavior of reinforcement learning agents?

Swipe um das Menü anzuzeigen

Definition

Markow-Entscheidungsprozess (MDP) ist ein mathematisches Rahmenwerk zur Modellierung von Entscheidungsproblemen, bei denen ein Agent über die Zeit mit einer Umgebung interagiert.

Die vier Komponenten

Zustand

Definition

Ein Zustand $s$ ist eine Darstellung der Umgebung zu einem bestimmten Zeitpunkt. Die Menge aller möglichen Zustände wird als Zustandsraum $S$ bezeichnet.

Aktion

Definition

Eine Aktion $a$ ist eine Entscheidung oder ein Schritt, den der Agent unternimmt, um die Umgebung zu beeinflussen. Die Menge aller möglichen Aktionen wird als Aktionsraum $A$ bezeichnet.

Die Menge der möglichen Aktionen hängt in der Regel vom aktuellen Zustand ab.

Übergang

Definition

Belohnung

Definition

Markov-Eigenschaft

Mathematisch lässt sich diese Eigenschaft durch folgende Formel beschreiben:

\begin{aligned} &P(R_{t+1} = r, S_{t+1} = s' | S_t, A_t)=\\ =&P(R_{t+1} = r, S_{t+1} = s' | S_0, A_0, R_1,..., S_{t-1}, A_{t-1}, R_t, S_t, A_t) \end{aligned}

wobei:

$S_t$ ein Zustand zum Zeitpunkt $t$ ist;
$A_t$ eine zum Zeitpunkt $t$ ausgeführte Aktion ist;
$R_t$ eine Belohnung zum Zeitpunkt $t$ ist.

Hinweis

War alles klar?

Danke für Ihr Feedback!

Abschnitt 1. Kapitel 3