Beleidsevaluatie
Beleidswaardering is het proces waarbij de waardefunctie van een gegeven beleid wordt bepaald.
Beleidswaardering kan worden gebruikt om zowel de toestandswaardefunctie als de actie-waardefunctie te schatten. Voor DP-methoden wordt echter de toestandswaardefunctie gebruikt.
Zoals bekend kan een toestandswaardefunctie van een gegeven beleid worden bepaald door het oplossen van een Bellman-vergelijking:
vπ(s)=a∑π(a∣s)s′,r∑p(s′,r∣s,a)(r+γvπ(s′))Als u een volledig model van de omgeving heeft (d.w.z. bekende overgangswaarschijnlijkheden en verwachte beloningen voor alle toestand-actieparen), zijn de enige onbekende variabelen in de vergelijking de toestandswaarden. Daarom kan de bovenstaande vergelijking worden geherformuleerd als een systeem van ∣S∣ lineaire vergelijkingen met ∣S∣ onbekenden.
Bijvoorbeeld, als een MDP 2 toestanden heeft (s1, s2) en 2 acties (verplaats naar s1, verplaats naar s2), kan de toestandswaardefunctie als volgt worden gedefinieerd:
{V(s1)=0.5⋅(5+0.9⋅V(s1))+0.5⋅(10+0.9⋅V(s2))V(s2)=0.7⋅(2+0.9⋅V(s1))+0.3⋅(0+0.9⋅V(s2))Dit kan worden opgelost met standaard lineaire algebra technieken.
Een unieke oplossing voor zo'n lineair systeem is gegarandeerd als aan ten minste één van de volgende voorwaarden wordt voldaan:
- De discontovoet voldoet aan γ<1;
- Het beleid π, gevolgd vanuit elke toestand s, zorgt ervoor dat de episode uiteindelijk eindigt.
Iteratieve Beleidswaardering
De oplossing kan direct worden berekend, maar een iteratieve benadering wordt vaker gebruikt vanwege de eenvoudige implementatie. Deze methode begint met het toekennen van willekeurige beginwaarden aan alle toestanden, behalve voor terminale toestanden, die worden ingesteld op 0. De waarden worden vervolgens iteratief bijgewerkt met behulp van de Bellman-vergelijking als update-regel:
vk+1(s)←a∑π(a∣s)s′,r∑p(s′,r∣s,a)(r+γvk(s′))De geschatte toestandswaardefunctie vk convergeert uiteindelijk naar een werkelijke toestandswaardefunctie vπ als k→∞, mits vπ bestaat.
Strategieën voor waarde-backup
Bij het bijwerken van waarde-inschattingen worden nieuwe schattingen berekend op basis van eerdere waarden. Het proces van het behouden van eerdere schattingen wordt een backup genoemd. Er zijn twee gangbare strategieën voor het uitvoeren van backups:
- Volledige backup: deze methode houdt in dat de nieuwe schattingen worden opgeslagen in een aparte array, gescheiden van de array met de eerdere (back-up) waarden. Hierdoor zijn er twee arrays nodig — één voor het bijhouden van de eerdere schattingen en één voor het opslaan van de nieuw berekende waarden;
- In-place backup: bij deze aanpak worden alle waarden in één enkele array bijgehouden. Elke nieuwe schatting vervangt direct de vorige waarde. Deze methode vermindert het geheugengebruik, omdat slechts één array nodig is.
Doorgaans heeft de in-place backup-methode de voorkeur, omdat deze minder geheugen vereist en sneller convergeert, dankzij het directe gebruik van de meest recente schattingen.
Wanneer stoppen met bijwerken?
Bij iteratieve beleidsevaluatie is er geen exact moment waarop het algoritme moet stoppen. Hoewel convergentie in de limiet gegarandeerd is, zijn verdere berekeningen na een bepaald punt onnodig in de praktijk. Een eenvoudige en effectieve stopcriterium is het bijhouden van het absolute verschil tussen opeenvolgende waarde-inschattingen, ∣vk+1(s)−vk(s)∣, en dit te vergelijken met een kleine drempelwaarde θ. Indien na een volledige updatecyclus (waarbij waarden voor alle toestanden zijn bijgewerkt) geen enkele wijziging groter is dan θ, kan het proces veilig worden beëindigd.
Pseudocode
Bedankt voor je feedback!
Vraag AI
Vraag AI
Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.
Awesome!
Completion rate improved to 2.7
Beleidsevaluatie
Veeg om het menu te tonen
Beleidswaardering is het proces waarbij de waardefunctie van een gegeven beleid wordt bepaald.
Beleidswaardering kan worden gebruikt om zowel de toestandswaardefunctie als de actie-waardefunctie te schatten. Voor DP-methoden wordt echter de toestandswaardefunctie gebruikt.
Zoals bekend kan een toestandswaardefunctie van een gegeven beleid worden bepaald door het oplossen van een Bellman-vergelijking:
vπ(s)=a∑π(a∣s)s′,r∑p(s′,r∣s,a)(r+γvπ(s′))Als u een volledig model van de omgeving heeft (d.w.z. bekende overgangswaarschijnlijkheden en verwachte beloningen voor alle toestand-actieparen), zijn de enige onbekende variabelen in de vergelijking de toestandswaarden. Daarom kan de bovenstaande vergelijking worden geherformuleerd als een systeem van ∣S∣ lineaire vergelijkingen met ∣S∣ onbekenden.
Bijvoorbeeld, als een MDP 2 toestanden heeft (s1, s2) en 2 acties (verplaats naar s1, verplaats naar s2), kan de toestandswaardefunctie als volgt worden gedefinieerd:
{V(s1)=0.5⋅(5+0.9⋅V(s1))+0.5⋅(10+0.9⋅V(s2))V(s2)=0.7⋅(2+0.9⋅V(s1))+0.3⋅(0+0.9⋅V(s2))Dit kan worden opgelost met standaard lineaire algebra technieken.
Een unieke oplossing voor zo'n lineair systeem is gegarandeerd als aan ten minste één van de volgende voorwaarden wordt voldaan:
- De discontovoet voldoet aan γ<1;
- Het beleid π, gevolgd vanuit elke toestand s, zorgt ervoor dat de episode uiteindelijk eindigt.
Iteratieve Beleidswaardering
De oplossing kan direct worden berekend, maar een iteratieve benadering wordt vaker gebruikt vanwege de eenvoudige implementatie. Deze methode begint met het toekennen van willekeurige beginwaarden aan alle toestanden, behalve voor terminale toestanden, die worden ingesteld op 0. De waarden worden vervolgens iteratief bijgewerkt met behulp van de Bellman-vergelijking als update-regel:
vk+1(s)←a∑π(a∣s)s′,r∑p(s′,r∣s,a)(r+γvk(s′))De geschatte toestandswaardefunctie vk convergeert uiteindelijk naar een werkelijke toestandswaardefunctie vπ als k→∞, mits vπ bestaat.
Strategieën voor waarde-backup
Bij het bijwerken van waarde-inschattingen worden nieuwe schattingen berekend op basis van eerdere waarden. Het proces van het behouden van eerdere schattingen wordt een backup genoemd. Er zijn twee gangbare strategieën voor het uitvoeren van backups:
- Volledige backup: deze methode houdt in dat de nieuwe schattingen worden opgeslagen in een aparte array, gescheiden van de array met de eerdere (back-up) waarden. Hierdoor zijn er twee arrays nodig — één voor het bijhouden van de eerdere schattingen en één voor het opslaan van de nieuw berekende waarden;
- In-place backup: bij deze aanpak worden alle waarden in één enkele array bijgehouden. Elke nieuwe schatting vervangt direct de vorige waarde. Deze methode vermindert het geheugengebruik, omdat slechts één array nodig is.
Doorgaans heeft de in-place backup-methode de voorkeur, omdat deze minder geheugen vereist en sneller convergeert, dankzij het directe gebruik van de meest recente schattingen.
Wanneer stoppen met bijwerken?
Bij iteratieve beleidsevaluatie is er geen exact moment waarop het algoritme moet stoppen. Hoewel convergentie in de limiet gegarandeerd is, zijn verdere berekeningen na een bepaald punt onnodig in de praktijk. Een eenvoudige en effectieve stopcriterium is het bijhouden van het absolute verschil tussen opeenvolgende waarde-inschattingen, ∣vk+1(s)−vk(s)∣, en dit te vergelijken met een kleine drempelwaarde θ. Indien na een volledige updatecyclus (waarbij waarden voor alle toestanden zijn bijgewerkt) geen enkele wijziging groter is dan θ, kan het proces veilig worden beëindigd.
Pseudocode
Bedankt voor je feedback!