Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lernen Markow-Entscheidungsprozess | RL-Kernprinzipien der Theorie
Einführung in Reinforcement Learning

bookMarkow-Entscheidungsprozess

Note
Definition

Markow-Entscheidungsprozess (MDP) ist ein mathematisches Rahmenwerk zur Modellierung von Entscheidungsproblemen, bei denen ein Agent über die Zeit mit einer Umgebung interagiert.

Reinforcement-Learning-Probleme werden häufig als MDPs formuliert, die eine strukturierte Möglichkeit zur Definition des Problems bieten. MDPs beschreiben die Umgebung anhand von vier Schlüsselelementen: Zustände, Aktionen, Übergänge und Belohnungen. Diese Komponenten arbeiten zusammen unter der Markow-Eigenschaft, die sicherstellt, dass der zukünftige Zustand nur vom aktuellen Zustand und der aktuellen Aktion abhängt, nicht von vergangenen Zuständen.

Die vier Komponenten

Zustand

Note
Definition

Ein Zustand ss ist eine Darstellung der Umgebung zu einem bestimmten Zeitpunkt. Die Menge aller möglichen Zustände wird als Zustandsraum SS bezeichnet.

Ein Zustand wird typischerweise durch eine Menge von Parametern dargestellt, die die relevanten Merkmale der Umgebung erfassen. Diese Parameter können verschiedene Aspekte wie Position, Geschwindigkeit, Rotation usw. umfassen.

Aktion

Note
Definition

Eine Aktion aa ist eine Entscheidung oder ein Schritt, den der Agent unternimmt, um die Umgebung zu beeinflussen. Die Menge aller möglichen Aktionen wird als Aktionsraum AA bezeichnet.

Die Menge der möglichen Aktionen hängt in der Regel vom aktuellen Zustand ab.

Übergang

Note
Definition

Übergang beschreibt, wie sich der Zustand der Umgebung ändert als Reaktion auf die Aktion des Agenten. Die Übergangsfunktion pp gibt die Wahrscheinlichkeit an, von einem Zustand in einen anderen überzugehen, gegeben eine bestimmte Aktion.

In vielen Fällen können Umgebungen entweder deterministisch oder stochastisch sein, was bedeutet, dass der Übergang entweder vorhersehbar ist oder einen gewissen Grad an Zufälligkeit beinhalten kann.

Belohnung

Note
Definition

Eine Belohnung rr ist ein numerischer Wert, den der Agent nach Ausführung einer Aktion in einem bestimmten Zustand erhält. Die Funktion, die Übergänge auf erwartete Belohnungen abbildet, wird als Belohnungsfunktion RR bezeichnet.

Belohnungen lenken den Agenten zu erwünschtem Verhalten und können sowohl positiv als auch negativ sein. Die Gestaltung von Belohnungen ist komplex, da der Agent versuchen kann, die Belohnungen auszunutzen.

Markov-Eigenschaft

Die Markov-Eigenschaft in einem Markov-Entscheidungsprozess besagt, dass der nächste Zustand und die Belohnung ausschließlich vom aktuellen Zustand und der aktuellen Aktion abhängen und nicht von vergangenen Informationen. Dies gewährleistet ein gedächtnisloses Rahmenwerk und vereinfacht den Lernprozess.

Mathematisch lässt sich diese Eigenschaft durch folgende Formel beschreiben:

P(Rt+1=r,St+1=sSt,At)==P(Rt+1=r,St+1=sS0,A0,R1,...,St1,At1,Rt,St,At)\begin{aligned} &P(R_{t+1} = r, S_{t+1} = s' | S_t, A_t)=\\ =&P(R_{t+1} = r, S_{t+1} = s' | S_0, A_0, R_1,..., S_{t-1}, A_{t-1}, R_t, S_t, A_t) \end{aligned}

wobei:

  • StS_t ein Zustand zum Zeitpunkt tt ist;
  • AtA_t eine zum Zeitpunkt tt ausgeführte Aktion ist;
  • RtR_t eine Belohnung zum Zeitpunkt tt ist.
Note
Hinweis

Die gedächtnislose Natur eines MDP bedeutet nicht, dass vergangene Beobachtungen ignoriert werden. Der aktuelle Zustand sollte alle relevanten historischen Informationen enthalten.

question mark

Stellen Sie sich vor, der Agent spielt ein Spiel. Welche dieser Optionen ist eine gute Darstellung des Zustands einer Umgebung in einem MDP?

Select the correct answer

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 1. Kapitel 3

Fragen Sie AI

expand

Fragen Sie AI

ChatGPT

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Awesome!

Completion rate improved to 2.7

bookMarkow-Entscheidungsprozess

Swipe um das Menü anzuzeigen

Note
Definition

Markow-Entscheidungsprozess (MDP) ist ein mathematisches Rahmenwerk zur Modellierung von Entscheidungsproblemen, bei denen ein Agent über die Zeit mit einer Umgebung interagiert.

Reinforcement-Learning-Probleme werden häufig als MDPs formuliert, die eine strukturierte Möglichkeit zur Definition des Problems bieten. MDPs beschreiben die Umgebung anhand von vier Schlüsselelementen: Zustände, Aktionen, Übergänge und Belohnungen. Diese Komponenten arbeiten zusammen unter der Markow-Eigenschaft, die sicherstellt, dass der zukünftige Zustand nur vom aktuellen Zustand und der aktuellen Aktion abhängt, nicht von vergangenen Zuständen.

Die vier Komponenten

Zustand

Note
Definition

Ein Zustand ss ist eine Darstellung der Umgebung zu einem bestimmten Zeitpunkt. Die Menge aller möglichen Zustände wird als Zustandsraum SS bezeichnet.

Ein Zustand wird typischerweise durch eine Menge von Parametern dargestellt, die die relevanten Merkmale der Umgebung erfassen. Diese Parameter können verschiedene Aspekte wie Position, Geschwindigkeit, Rotation usw. umfassen.

Aktion

Note
Definition

Eine Aktion aa ist eine Entscheidung oder ein Schritt, den der Agent unternimmt, um die Umgebung zu beeinflussen. Die Menge aller möglichen Aktionen wird als Aktionsraum AA bezeichnet.

Die Menge der möglichen Aktionen hängt in der Regel vom aktuellen Zustand ab.

Übergang

Note
Definition

Übergang beschreibt, wie sich der Zustand der Umgebung ändert als Reaktion auf die Aktion des Agenten. Die Übergangsfunktion pp gibt die Wahrscheinlichkeit an, von einem Zustand in einen anderen überzugehen, gegeben eine bestimmte Aktion.

In vielen Fällen können Umgebungen entweder deterministisch oder stochastisch sein, was bedeutet, dass der Übergang entweder vorhersehbar ist oder einen gewissen Grad an Zufälligkeit beinhalten kann.

Belohnung

Note
Definition

Eine Belohnung rr ist ein numerischer Wert, den der Agent nach Ausführung einer Aktion in einem bestimmten Zustand erhält. Die Funktion, die Übergänge auf erwartete Belohnungen abbildet, wird als Belohnungsfunktion RR bezeichnet.

Belohnungen lenken den Agenten zu erwünschtem Verhalten und können sowohl positiv als auch negativ sein. Die Gestaltung von Belohnungen ist komplex, da der Agent versuchen kann, die Belohnungen auszunutzen.

Markov-Eigenschaft

Die Markov-Eigenschaft in einem Markov-Entscheidungsprozess besagt, dass der nächste Zustand und die Belohnung ausschließlich vom aktuellen Zustand und der aktuellen Aktion abhängen und nicht von vergangenen Informationen. Dies gewährleistet ein gedächtnisloses Rahmenwerk und vereinfacht den Lernprozess.

Mathematisch lässt sich diese Eigenschaft durch folgende Formel beschreiben:

P(Rt+1=r,St+1=sSt,At)==P(Rt+1=r,St+1=sS0,A0,R1,...,St1,At1,Rt,St,At)\begin{aligned} &P(R_{t+1} = r, S_{t+1} = s' | S_t, A_t)=\\ =&P(R_{t+1} = r, S_{t+1} = s' | S_0, A_0, R_1,..., S_{t-1}, A_{t-1}, R_t, S_t, A_t) \end{aligned}

wobei:

  • StS_t ein Zustand zum Zeitpunkt tt ist;
  • AtA_t eine zum Zeitpunkt tt ausgeführte Aktion ist;
  • RtR_t eine Belohnung zum Zeitpunkt tt ist.
Note
Hinweis

Die gedächtnislose Natur eines MDP bedeutet nicht, dass vergangene Beobachtungen ignoriert werden. Der aktuelle Zustand sollte alle relevanten historischen Informationen enthalten.

question mark

Stellen Sie sich vor, der Agent spielt ein Spiel. Welche dieser Optionen ist eine gute Darstellung des Zustands einer Umgebung in einem MDP?

Select the correct answer

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 1. Kapitel 3
some-alt