Kursinnhold
Introduksjon til Forsterkende Læring
Introduksjon til Forsterkende Læring
Modell, policy og verdier
Modell
En modell er en representasjon av miljøet som definerer overgangssannsynlighetene mellom tilstander og de forventede belønningene for utførte handlinger.
Forsterkningslæringsalgoritmer kan deles inn i to kategorier:
- Modellbasert: I denne tilnærmingen lærer agenten eller har tilgang til en modell av miljøet, noe som gjør det mulig å simulere fremtidige tilstander og belønninger før handlinger utføres. Dette gjør det mulig for agenten å planlegge og ta mer informerte beslutninger;
- Modellfri: I denne tilnærmingen har ikke agenten en direkte modell av miljøet. Den lærer utelukkende gjennom interaksjon med miljøet, og er avhengig av prøving og feiling for å finne de beste handlingene.
I praksis er miljøer med eksplisitte modeller sjeldne, noe som gjør det vanskelig for agenter å basere seg på modellbaserte strategier. Som et resultat har modelfrie tilnærminger blitt mer utbredt og grundig studert innen forskning og anvendelser av forsterkningslæring.
Policy
Policy er strategien en agent følger for å bestemme sine handlinger basert på nåværende tilstand i miljøet.
Det finnes to typer policyer:
- Deterministisk policy: agenten velger alltid den samme handlingen for en gitt tilstand;
- Stokastisk policy: agenten velger handlinger basert på sannsynlighetsfordelinger.
Under læringsprosessen er agentens mål å finne en optimal policy. En optimal policy er en som maksimerer den forventede avkastningen, og veileder agenten til å ta de best mulige beslutningene i enhver gitt tilstand.
Verdi-funksjoner
Verdi-funksjoner er avgjørende for å forstå hvordan en agent vurderer potensialet til en bestemt tilstand eller tilstand-handlingspar. De brukes til å estimere fremtidige forventede belønninger, og hjelper agenten med å ta informerte beslutninger.
Tilstandsverdifunksjon
Tilstandsverdifunksjon (eller ) er en funksjon som gir forventet avkastning ved å være i en spesifikk tilstand og følge en spesiell policy. Den hjelper med å evaluere hvor ønskelige tilstandene er.
Verdien av en tilstand kan uttrykkes matematisk slik:
Tilstands-handlingsverdi-funksjon
Tilstands-handlingsverdi-funksjon (eller ) er en funksjon som gir den forventede avkastningen ved å ta en spesifikk handling i en gitt tilstand og deretter følge en spesiell policy. Den hjelper med å vurdere hvor ønskelige handlingene er i ulike tilstander.
Tilstands-handlingsverdi-funksjon kalles ofte handlingsverdi-funksjon.
Verdien av en handling kan uttrykkes matematisk slik:
Forholdet mellom modell, policy og verdifunksjoner
Begrepene modell, policy og verdifunksjoner er tett sammenknyttet, og danner et omfattende rammeverk for kategorisering av RL-algoritmer. Dette rammeverket defineres av to hovedakser:
- Læringsmål: denne aksen representerer spekteret av RL-algoritmer basert på deres avhengighet av verdifunksjoner, policy-funksjoner eller en kombinasjon av begge;
- Modellbruk: denne aksen skiller algoritmer basert på om de benytter en modell av miljøet eller kun lærer gjennom interaksjon.
Ved å kombinere disse dimensjonene kan vi klassifisere RL-algoritmer i ulike kategorier, hver med sine egne egenskaper og ideelle bruksområder. Å forstå disse sammenhengene hjelper med å velge riktig algoritme for spesifikke oppgaver, og sikrer effektiv læring og beslutningsprosesser.
Takk for tilbakemeldingene dine!