Off-Policy Monte Carlo-Kontrol
Mens on-policy-metoder lærer ved at følge og forbedre den samme politik, introducerer off-policy-metoder en variation: de lærer om én politik (målpolitikken), mens de følger en anden (adfærdspolitikken). Denne adskillelse er kraftfuld — det gør det muligt at evaluere eller forbedre en målpolitik uden at skulle følge den under dataindsamlingen.
Analogi
Lad os vende tilbage til isbutikken fra det forrige kapitel. Du og din ven går ind, og igen tilbydes de tre velkendte smagsvarianter: chokolade, vanilje og jordbær. Chokolade er din personlige favorit, og din første indskydelse er at bestille den. Men denne butik er ny for dig, og du er ikke helt sikker på, om det er det rigtige valg. Heldigvis er din ven en fremtrædende iselsker, der har besøgt næsten alle butikker i byen. Du spørger om deres mening. "Chokoladen her er okay," siger de, "men tro mig — jordbærisen er enestående." Så på baggrund af deres erfaring vælger du at springe din sædvanlige favorit over og i stedet vælge jordbær.
Denne beslutning — at stole på andres erfaring for at vejlede dit eget valg — er essensen af off-policy metoder. Du forsøger at forbedre din beslutningstagning ved at bruge data indsamlet under en andens adfærd. Det er stadig udforskning — men det er styret af ekstern erfaring i stedet for din egen.
Importance Sampling
Fordi agenten følger adfærdspolitikken under generering af episoder, skal vi tage højde for forskellen mellem hvad adfærdspolitikken genererer og hvad målpolitikken ville generere. Det er her, importance sampling kommer ind i billedet.
Importance sampling giver en metode til at justere de afkast, der observeres under adfærdsstrategien, så de er gyldige estimater for målstrategien.
Lad os betragte en sekvens, der starter fra en bestemt tilstand St og følger en bestemt strategi π, indtil episoden afsluttes på tidspunktet T. Specifikt observeres:
At,St+1,At+1,...,STHvad er sandsynligheden for, at denne sekvens opstår under en strategi π? Det afhænger både af strategiens aktionssandsynligheder og miljøets overgangsdynamik:
p(trajectory∣π)=k=t∏T−1π(Ak∣Sk)p(Sk+1∣Sk,Ak)Antag nu, at sekvensen faktisk blev genereret af en anden strategi — adfærdsstrategien b. For korrekt at bruge denne sekvens til at estimere forventninger under målstrategien π, skal vi tage højde for, hvor meget mere eller mindre sandsynlig denne aktionssekvens ville have været under π sammenlignet med b.
Her kommer importance sampling-ratioen ind i billedet. Den defineres som den relative sandsynlighed for sekvensen under de to strategier:
ρ=p(trajectory∣b)p(trajectory∣π)=k=t∏T−1b(Ak∣Sk)p(Sk+1∣Sk,Ak)π(Ak∣Sk)p(Sk+1∣Sk,Ak)=k=t∏T−1b(Ak∣Sk)π(Ak∣Sk)Til sidst udlignes overgangssandsynlighederne, da begge strategier opererer i det samme miljø, og værdien af ρ afhænger kun af strategierne, ikke af miljøet.
Hvorfor dette er vigtigt
Forholdet ρ angiver, hvordan afkastet Gt observeret under adfærdsstrategien skal omvægtes, så det bliver et uvildigt estimat af, hvad afkastet ville have været under målstrategien:
Eπ[Gt]=Eb[ρ⋅Gt]Med andre ord, selvom dataene blev indsamlet ved brug af b, kan vi stadig estimere forventede afkast under π — forudsat at b tildeler en ikke-nul sandsynlighed til enhver handling, som π kunne vælge (antagelse om dækning).
Praktiske Overvejelser
Varians ved Importance Sampling
Inkorporering af importance sampling er konceptuelt ligetil. Den estimerede handlingsværdifunktion q(s,a) justeres ved at vægte hver observeret returnering med den tilsvarende importance sampling-ratio. Den simpleste formulering ser således ud:
q(s,a)=N(s,a)∑i=0N(s,a)ρi(s,a)⋅Returnsi(s,a)hvor:
- ρi(s,a) er importance sampling-ratioen for den i-te trajektorie, der starter fra (s,a);
- Returnsi(s,a) er returneringen fra denne trajektorie;
- N(s,a) er antallet af gange (s,a) er blevet besøgt.
Dette kaldes ordinær importance sampling. Det giver et unbiased estimat af q(s,a), men kan have meget høj varians, især når adfærds- og målfunktionerne adskiller sig væsentligt.
For at afbøde variansproblemet kan en mere stabil metode anvendes: vægtet importance sampling. Denne metode normaliserer importance-vægtene, hvilket reducerer effekten af store ratioer og fører til mere stabil indlæring:
q(s,a)=∑i=0N(s,a)ρi(s,a)∑i=0N(s,a)ρi(s,a)⋅Returnsi(s,a)I denne version er tælleren den samme vægtede sum af returneringer, men nævneren er nu summen af importance-vægtene i stedet for blot et simpelt antal.
Dette gør estimatet biased, men biasen mindskes, efterhånden som flere prøver indsamles. I praksis foretrækkes vægtet importance sampling på grund af den markant lavere varians og større numerisk stabilitet.
Politikker
Som i on-policy-tilfældet anvendes ε-grådige politikker for både målpolitikken π(a∣s) og adfærdspolitikken b(a∣s).
Ved første øjekast virker det naturligt at gøre målpolitikken fuldt ud grådig — vores endelige mål er trods alt en grådig politik. I praksis medfører dette dog et stort problem: hvis på noget tidspunkt π(a∣s)=0 for den handling, som faktisk blev udført af adfærdspolitikken, bliver importance sampling-forholdet ρ nul, og resten af episoden bliver reelt ignoreret.
Ved at anvende en lille ε (f.eks. ε=0.01) i målpolitikken sikres det, at π(a∣s)>0 for enhver handling, så ρ aldrig kollapser til nul midt i episoden. Når træningen er færdig, er det trivielt at konvertere den lærte ε-grådige politik til en strikt grådig politik. Som ved on-policy-læring bør ε aftage i adfærdspolitikken, men denne gang er det primært for numerisk stabilitet, da ρ stadig kan falde til nul midt i episoden på grund af, hvordan tal repræsenteres i computere.
Pseudokode
Tak for dine kommentarer!
Spørg AI
Spørg AI
Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat
Awesome!
Completion rate improved to 2.7
Off-Policy Monte Carlo-Kontrol
Stryg for at vise menuen
Mens on-policy-metoder lærer ved at følge og forbedre den samme politik, introducerer off-policy-metoder en variation: de lærer om én politik (målpolitikken), mens de følger en anden (adfærdspolitikken). Denne adskillelse er kraftfuld — det gør det muligt at evaluere eller forbedre en målpolitik uden at skulle følge den under dataindsamlingen.
Analogi
Lad os vende tilbage til isbutikken fra det forrige kapitel. Du og din ven går ind, og igen tilbydes de tre velkendte smagsvarianter: chokolade, vanilje og jordbær. Chokolade er din personlige favorit, og din første indskydelse er at bestille den. Men denne butik er ny for dig, og du er ikke helt sikker på, om det er det rigtige valg. Heldigvis er din ven en fremtrædende iselsker, der har besøgt næsten alle butikker i byen. Du spørger om deres mening. "Chokoladen her er okay," siger de, "men tro mig — jordbærisen er enestående." Så på baggrund af deres erfaring vælger du at springe din sædvanlige favorit over og i stedet vælge jordbær.
Denne beslutning — at stole på andres erfaring for at vejlede dit eget valg — er essensen af off-policy metoder. Du forsøger at forbedre din beslutningstagning ved at bruge data indsamlet under en andens adfærd. Det er stadig udforskning — men det er styret af ekstern erfaring i stedet for din egen.
Importance Sampling
Fordi agenten følger adfærdspolitikken under generering af episoder, skal vi tage højde for forskellen mellem hvad adfærdspolitikken genererer og hvad målpolitikken ville generere. Det er her, importance sampling kommer ind i billedet.
Importance sampling giver en metode til at justere de afkast, der observeres under adfærdsstrategien, så de er gyldige estimater for målstrategien.
Lad os betragte en sekvens, der starter fra en bestemt tilstand St og følger en bestemt strategi π, indtil episoden afsluttes på tidspunktet T. Specifikt observeres:
At,St+1,At+1,...,STHvad er sandsynligheden for, at denne sekvens opstår under en strategi π? Det afhænger både af strategiens aktionssandsynligheder og miljøets overgangsdynamik:
p(trajectory∣π)=k=t∏T−1π(Ak∣Sk)p(Sk+1∣Sk,Ak)Antag nu, at sekvensen faktisk blev genereret af en anden strategi — adfærdsstrategien b. For korrekt at bruge denne sekvens til at estimere forventninger under målstrategien π, skal vi tage højde for, hvor meget mere eller mindre sandsynlig denne aktionssekvens ville have været under π sammenlignet med b.
Her kommer importance sampling-ratioen ind i billedet. Den defineres som den relative sandsynlighed for sekvensen under de to strategier:
ρ=p(trajectory∣b)p(trajectory∣π)=k=t∏T−1b(Ak∣Sk)p(Sk+1∣Sk,Ak)π(Ak∣Sk)p(Sk+1∣Sk,Ak)=k=t∏T−1b(Ak∣Sk)π(Ak∣Sk)Til sidst udlignes overgangssandsynlighederne, da begge strategier opererer i det samme miljø, og værdien af ρ afhænger kun af strategierne, ikke af miljøet.
Hvorfor dette er vigtigt
Forholdet ρ angiver, hvordan afkastet Gt observeret under adfærdsstrategien skal omvægtes, så det bliver et uvildigt estimat af, hvad afkastet ville have været under målstrategien:
Eπ[Gt]=Eb[ρ⋅Gt]Med andre ord, selvom dataene blev indsamlet ved brug af b, kan vi stadig estimere forventede afkast under π — forudsat at b tildeler en ikke-nul sandsynlighed til enhver handling, som π kunne vælge (antagelse om dækning).
Praktiske Overvejelser
Varians ved Importance Sampling
Inkorporering af importance sampling er konceptuelt ligetil. Den estimerede handlingsværdifunktion q(s,a) justeres ved at vægte hver observeret returnering med den tilsvarende importance sampling-ratio. Den simpleste formulering ser således ud:
q(s,a)=N(s,a)∑i=0N(s,a)ρi(s,a)⋅Returnsi(s,a)hvor:
- ρi(s,a) er importance sampling-ratioen for den i-te trajektorie, der starter fra (s,a);
- Returnsi(s,a) er returneringen fra denne trajektorie;
- N(s,a) er antallet af gange (s,a) er blevet besøgt.
Dette kaldes ordinær importance sampling. Det giver et unbiased estimat af q(s,a), men kan have meget høj varians, især når adfærds- og målfunktionerne adskiller sig væsentligt.
For at afbøde variansproblemet kan en mere stabil metode anvendes: vægtet importance sampling. Denne metode normaliserer importance-vægtene, hvilket reducerer effekten af store ratioer og fører til mere stabil indlæring:
q(s,a)=∑i=0N(s,a)ρi(s,a)∑i=0N(s,a)ρi(s,a)⋅Returnsi(s,a)I denne version er tælleren den samme vægtede sum af returneringer, men nævneren er nu summen af importance-vægtene i stedet for blot et simpelt antal.
Dette gør estimatet biased, men biasen mindskes, efterhånden som flere prøver indsamles. I praksis foretrækkes vægtet importance sampling på grund af den markant lavere varians og større numerisk stabilitet.
Politikker
Som i on-policy-tilfældet anvendes ε-grådige politikker for både målpolitikken π(a∣s) og adfærdspolitikken b(a∣s).
Ved første øjekast virker det naturligt at gøre målpolitikken fuldt ud grådig — vores endelige mål er trods alt en grådig politik. I praksis medfører dette dog et stort problem: hvis på noget tidspunkt π(a∣s)=0 for den handling, som faktisk blev udført af adfærdspolitikken, bliver importance sampling-forholdet ρ nul, og resten af episoden bliver reelt ignoreret.
Ved at anvende en lille ε (f.eks. ε=0.01) i målpolitikken sikres det, at π(a∣s)>0 for enhver handling, så ρ aldrig kollapser til nul midt i episoden. Når træningen er færdig, er det trivielt at konvertere den lærte ε-grådige politik til en strikt grådig politik. Som ved on-policy-læring bør ε aftage i adfærdspolitikken, men denne gang er det primært for numerisk stabilitet, da ρ stadig kan falde til nul midt i episoden på grund af, hvordan tal repræsenteres i computere.
Pseudokode
Tak for dine kommentarer!