Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lernen Markow-Entscheidungsprozess | Kernprinzipien des RL
Einführung in das Reinforcement Learning
course content

Kursinhalt

Einführung in das Reinforcement Learning

Einführung in das Reinforcement Learning

1. Kernprinzipien des RL
2. Multi-Armed-Bandit-Problem
3. Dynamische Programmierung
4. Monte-Carlo-Methoden
5. Temporal-Differenz-Lernen

book
Markow-Entscheidungsprozess

Note
Definition

Markov-Entscheidungsprozess (MDP) ist ein mathematisches Rahmenwerk zur Modellierung von Entscheidungsproblemen, bei denen ein Agent über die Zeit mit einer Umgebung interagiert.

Reinforcement-Learning-Probleme werden häufig als MDPs formuliert, die eine strukturierte Möglichkeit zur Definition des Problems bieten. MDPs beschreiben die Umgebung anhand von vier Schlüsselelementen: Zustände, Aktionen, Übergänge und Belohnungen. Diese Komponenten arbeiten zusammen unter der Markov-Eigenschaft, die sicherstellt, dass der zukünftige Zustand nur vom aktuellen Zustand und der aktuellen Aktion abhängt, nicht von vergangenen Zuständen.

Die vier Komponenten

Zustand

Note
Definition

Ein Zustand ss ist eine Darstellung der Umgebung zu einem bestimmten Zeitpunkt. Die Menge aller möglichen Zustände wird als Zustandsraum SS bezeichnet.

Ein Zustand wird typischerweise durch eine Menge von Parametern dargestellt, die die relevanten Merkmale der Umgebung erfassen. Diese Parameter können verschiedene Aspekte wie Position, Geschwindigkeit, Rotation usw. umfassen.

Aktion

Note
Definition

Eine Aktion aa ist eine Entscheidung oder Bewegung, die vom Agenten getroffen wird, um die Umgebung zu beeinflussen. Die Menge aller möglichen Aktionen wird als Aktionsraum AA bezeichnet.

Die Menge der möglichen Aktionen hängt in der Regel vom aktuellen Zustand ab.

Übergang

Note
Definition

Übergang beschreibt, wie sich der Zustand der Umgebung verändert als Reaktion auf die Aktion des Agenten. Die Übergangsfunktion pp gibt die Wahrscheinlichkeit an, von einem Zustand in einen anderen überzugehen, wenn eine bestimmte Aktion ausgeführt wird.

In vielen Fällen können Umgebungen entweder deterministisch oder stochastisch sein, was bedeutet, dass der Übergang entweder vorhersehbar ist oder einen gewissen Grad an Zufälligkeit beinhaltet.

Belohnung

Note
Definition

Eine Belohnung rr ist ein numerischer Wert, den der Agent nach Ausführung einer Aktion in einem bestimmten Zustand erhält. Die Funktion, die Übergänge auf erwartete Belohnungen abbildet, wird als Belohnungsfunktion RR bezeichnet.

Belohnungen lenken den Agenten zu erwünschtem Verhalten und können sowohl positiv als auch negativ sein. Die Gestaltung von Belohnungen ist komplex, da der Agent versuchen kann, die Belohnungen auszunutzen.

Markov-Eigenschaft

Die Markov-Eigenschaft in einem Markov-Entscheidungsprozess besagt, dass der nächste Zustand und die Belohnung ausschließlich vom aktuellen Zustand und der aktuellen Aktion abhängen, nicht von vergangenen Informationen. Dies gewährleistet ein gedächtnisloses Rahmenwerk und vereinfacht den Lernprozess.

Mathematisch lässt sich diese Eigenschaft durch folgende Formel beschreiben:

P(Rt+1=r,St+1=sSt,At)==P(Rt+1=r,St+1=sS0,A0,R1,...,St1,At1,Rt,St,At)\begin{aligned} &P(R_{t+1} = r, S_{t+1} = s' | S_t, A_t)=\\ =&P(R_{t+1} = r, S_{t+1} = s' | S_0, A_0, R_1,..., S_{t-1}, A_{t-1}, R_t, S_t, A_t) \end{aligned}

wobei:

  • StS_t ein Zustand zum Zeitpunkt tt ist;
  • AtA_t eine zum Zeitpunkt tt ausgeführte Aktion ist;
  • RtR_t eine Belohnung zum Zeitpunkt tt ist.
Note
Hinweis

Die gedächtnislose Natur von MDP bedeutet nicht, dass vergangene Beobachtungen ignoriert werden. Der aktuelle Zustand sollte alle relevanten historischen Informationen enthalten.

question mark

Stellen Sie sich vor, der Agent spielt ein Spiel. Welche dieser Optionen ist eine gute Darstellung des Zustands einer Umgebung in einem MDP?

Select the correct answer

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 1. Kapitel 3

Fragen Sie AI

expand

Fragen Sie AI

ChatGPT

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

course content

Kursinhalt

Einführung in das Reinforcement Learning

Einführung in das Reinforcement Learning

1. Kernprinzipien des RL
2. Multi-Armed-Bandit-Problem
3. Dynamische Programmierung
4. Monte-Carlo-Methoden
5. Temporal-Differenz-Lernen

book
Markow-Entscheidungsprozess

Note
Definition

Markov-Entscheidungsprozess (MDP) ist ein mathematisches Rahmenwerk zur Modellierung von Entscheidungsproblemen, bei denen ein Agent über die Zeit mit einer Umgebung interagiert.

Reinforcement-Learning-Probleme werden häufig als MDPs formuliert, die eine strukturierte Möglichkeit zur Definition des Problems bieten. MDPs beschreiben die Umgebung anhand von vier Schlüsselelementen: Zustände, Aktionen, Übergänge und Belohnungen. Diese Komponenten arbeiten zusammen unter der Markov-Eigenschaft, die sicherstellt, dass der zukünftige Zustand nur vom aktuellen Zustand und der aktuellen Aktion abhängt, nicht von vergangenen Zuständen.

Die vier Komponenten

Zustand

Note
Definition

Ein Zustand ss ist eine Darstellung der Umgebung zu einem bestimmten Zeitpunkt. Die Menge aller möglichen Zustände wird als Zustandsraum SS bezeichnet.

Ein Zustand wird typischerweise durch eine Menge von Parametern dargestellt, die die relevanten Merkmale der Umgebung erfassen. Diese Parameter können verschiedene Aspekte wie Position, Geschwindigkeit, Rotation usw. umfassen.

Aktion

Note
Definition

Eine Aktion aa ist eine Entscheidung oder Bewegung, die vom Agenten getroffen wird, um die Umgebung zu beeinflussen. Die Menge aller möglichen Aktionen wird als Aktionsraum AA bezeichnet.

Die Menge der möglichen Aktionen hängt in der Regel vom aktuellen Zustand ab.

Übergang

Note
Definition

Übergang beschreibt, wie sich der Zustand der Umgebung verändert als Reaktion auf die Aktion des Agenten. Die Übergangsfunktion pp gibt die Wahrscheinlichkeit an, von einem Zustand in einen anderen überzugehen, wenn eine bestimmte Aktion ausgeführt wird.

In vielen Fällen können Umgebungen entweder deterministisch oder stochastisch sein, was bedeutet, dass der Übergang entweder vorhersehbar ist oder einen gewissen Grad an Zufälligkeit beinhaltet.

Belohnung

Note
Definition

Eine Belohnung rr ist ein numerischer Wert, den der Agent nach Ausführung einer Aktion in einem bestimmten Zustand erhält. Die Funktion, die Übergänge auf erwartete Belohnungen abbildet, wird als Belohnungsfunktion RR bezeichnet.

Belohnungen lenken den Agenten zu erwünschtem Verhalten und können sowohl positiv als auch negativ sein. Die Gestaltung von Belohnungen ist komplex, da der Agent versuchen kann, die Belohnungen auszunutzen.

Markov-Eigenschaft

Die Markov-Eigenschaft in einem Markov-Entscheidungsprozess besagt, dass der nächste Zustand und die Belohnung ausschließlich vom aktuellen Zustand und der aktuellen Aktion abhängen, nicht von vergangenen Informationen. Dies gewährleistet ein gedächtnisloses Rahmenwerk und vereinfacht den Lernprozess.

Mathematisch lässt sich diese Eigenschaft durch folgende Formel beschreiben:

P(Rt+1=r,St+1=sSt,At)==P(Rt+1=r,St+1=sS0,A0,R1,...,St1,At1,Rt,St,At)\begin{aligned} &P(R_{t+1} = r, S_{t+1} = s' | S_t, A_t)=\\ =&P(R_{t+1} = r, S_{t+1} = s' | S_0, A_0, R_1,..., S_{t-1}, A_{t-1}, R_t, S_t, A_t) \end{aligned}

wobei:

  • StS_t ein Zustand zum Zeitpunkt tt ist;
  • AtA_t eine zum Zeitpunkt tt ausgeführte Aktion ist;
  • RtR_t eine Belohnung zum Zeitpunkt tt ist.
Note
Hinweis

Die gedächtnislose Natur von MDP bedeutet nicht, dass vergangene Beobachtungen ignoriert werden. Der aktuelle Zustand sollte alle relevanten historischen Informationen enthalten.

question mark

Stellen Sie sich vor, der Agent spielt ein Spiel. Welche dieser Optionen ist eine gute Darstellung des Zustands einer Umgebung in einem MDP?

Select the correct answer

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 1. Kapitel 3
some-alt