Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Leer Beleiditeratie | Dynamisch Programmeren
Introductie tot Reinforcement Learning
course content

Cursusinhoud

Introductie tot Reinforcement Learning

Introductie tot Reinforcement Learning

1. Kernprincipes van RL
2. Multi-Armed Bandit Probleem
3. Dynamisch Programmeren
4. Monte Carlo-Methoden
5. Temporale Verschil Leren

book
Beleiditeratie

Het idee achter policy iteration is eenvoudig:

  1. Neem een initiële π\pi en vv;
  2. Gebruik beleidsevaluatie om vv bij te werken totdat deze consistent is met π\pi;
  3. Gebruik beleidsverbetering om π\pi bij te werken totdat deze gulzig is ten opzichte van vv;
  4. Herhaal stappen 2-3 tot convergentie.

Bij deze methode zijn er geen gedeeltelijke updates:

  • Tijdens beleidsevaluatie worden waarden voor elke toestand bijgewerkt totdat ze consistent zijn met het huidige beleid;
  • Tijdens beleidsverbetering wordt het beleid gulzig gemaakt ten opzichte van de waardefunctie.

Pseudocode

question mark

Op basis van de pseudocode, welke voorwaarde zorgt ervoor dat de buitenste lus van policy iteration stopt?

Select the correct answer

Was alles duidelijk?

Hoe kunnen we het verbeteren?

Bedankt voor je feedback!

Sectie 3. Hoofdstuk 7

Vraag AI

expand

Vraag AI

ChatGPT

Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.

course content

Cursusinhoud

Introductie tot Reinforcement Learning

Introductie tot Reinforcement Learning

1. Kernprincipes van RL
2. Multi-Armed Bandit Probleem
3. Dynamisch Programmeren
4. Monte Carlo-Methoden
5. Temporale Verschil Leren

book
Beleiditeratie

Het idee achter policy iteration is eenvoudig:

  1. Neem een initiële π\pi en vv;
  2. Gebruik beleidsevaluatie om vv bij te werken totdat deze consistent is met π\pi;
  3. Gebruik beleidsverbetering om π\pi bij te werken totdat deze gulzig is ten opzichte van vv;
  4. Herhaal stappen 2-3 tot convergentie.

Bij deze methode zijn er geen gedeeltelijke updates:

  • Tijdens beleidsevaluatie worden waarden voor elke toestand bijgewerkt totdat ze consistent zijn met het huidige beleid;
  • Tijdens beleidsverbetering wordt het beleid gulzig gemaakt ten opzichte van de waardefunctie.

Pseudocode

question mark

Op basis van de pseudocode, welke voorwaarde zorgt ervoor dat de buitenste lus van policy iteration stopt?

Select the correct answer

Was alles duidelijk?

Hoe kunnen we het verbeteren?

Bedankt voor je feedback!

Sectie 3. Hoofdstuk 7
some-alt