Kursusindhold
Introduktion til Reinforcement Learning
Introduktion til Reinforcement Learning
Model, Politik og Værdier
Model
En model er en repræsentation af miljøet, der definerer overgangssandsynlighederne mellem tilstande og de forventede belønninger for udførte handlinger.
Forstærkningslæringsalgoritmer kan opdeles i to kategorier:
- Modelbaseret: I denne tilgang lærer agenten eller har adgang til en model af miljøet, hvilket gør det muligt at simulere fremtidige tilstande og belønninger, før handlinger udføres. Dette gør det muligt for agenten at planlægge og træffe mere informerede beslutninger;
- Modelfri: I denne tilgang har agenten ikke en direkte model af miljøet. Den lærer udelukkende gennem interaktion med miljøet og benytter trial and error for at finde de bedste handlinger.
I praksis er miljøer med eksplicitte modeller sjældne, hvilket gør det vanskeligt for agenter at benytte modelbaserede strategier. Derfor er modelfrie tilgange blevet mere udbredte og grundigt studeret inden for forskning og anvendelse af forstærkningslæring.
Politik
Politik er den strategi, en agent følger for at bestemme sine handlinger baseret på miljøets nuværende tilstand.
Der findes to typer af politikker:
- Deterministisk politik: agenten vælger altid den samme handling for en given tilstand;
- Stokastisk politik: agenten vælger handlinger baseret på sandsynlighedsfordelinger.
Under læringsprocessen er agentens mål at finde en optimal politik. En optimal politik er en, der maksimerer den forventede belønning, og guider agenten til at træffe de bedst mulige beslutninger i enhver given tilstand.
Værdifunktioner
Værdifunktioner er afgørende for at forstå, hvordan en agent vurderer potentialet af en bestemt tilstand eller tilstand-handlingspar. De bruges til at estimere fremtidige forventede belønninger, hvilket hjælper agenten med at træffe informerede beslutninger.
Tilstands-værdi funktion
Tilstands-værdi funktion (eller ) er en funktion, der angiver det forventede afkast ved at befinde sig i en bestemt tilstand og følge en specifik politik. Den hjælper med at vurdere tilstandes ønskværdighed.
Værdien af en tilstand kan udtrykkes matematisk således:
Tilstands-handlingsværdifunktion
Tilstands-handlingsværdifunktion (eller ) er en funktion, der angiver det forventede afkast ved at tage en bestemt handling i en givet tilstand og derefter følge en specifik politik. Den hjælper med at vurdere hensigtsmæssigheden af handlinger i tilstande.
Tilstands-handlingsværdifunktion kaldes ofte handlingsværdifunktion.
Værdien af en handling kan udtrykkes matematisk således:
Forholdet mellem model, politik og værdifunktioner
Begreberne model, politik og værdifunktioner er tæt forbundne og danner en omfattende ramme for kategorisering af RL-algoritmer. Denne ramme defineres af to primære akser:
- Læringsmål: denne akse repræsenterer spektret af RL-algoritmer baseret på deres afhængighed af værdifunktioner, politikfunktioner eller en kombination af begge;
- Modelanvendelse: denne akse adskiller algoritmer baseret på, om de anvender en model af miljøet eller udelukkende lærer gennem interaktion.
Ved at kombinere disse dimensioner kan vi klassificere RL-algoritmer i adskilte kategorier, hver med deres egne karakteristika og ideelle anvendelsestilfælde. Forståelse af disse relationer hjælper med at vælge den passende algoritme til specifikke opgaver og sikrer effektive lærings- og beslutningsprocesser.
Tak for dine kommentarer!