Lære Off-Policy Monte Carlo-Kontrol

Mens on-policy-metoder lærer ved at følge og forbedre den samme politik, introducerer off-policy-metoder en variation: de lærer om én politik (målpolitikken), mens de følger en anden (adfærdspolitikken). Denne adskillelse er kraftfuld — det gør det muligt at evaluere eller forbedre en målpolitik uden at skulle følge den under dataindsamlingen.

Analogi

Lad os vende tilbage til isbutikken fra det forrige kapitel. Du og din ven går ind, og igen tilbydes de tre velkendte smagsvarianter: chokolade, vanilje og jordbær. Chokolade er din personlige favorit, og din første indskydelse er at bestille den. Men denne butik er ny for dig, og du er ikke helt sikker på, om det er det rigtige valg. Heldigvis er din ven en fremtrædende iselsker, der har besøgt næsten alle butikker i byen. Du spørger om deres mening. "Chokoladen her er okay," siger de, "men tro mig — jordbærisen er enestående." Så på baggrund af deres erfaring vælger du at springe din sædvanlige favorit over og i stedet vælge jordbær.

Denne beslutning — at stole på andres erfaring for at vejlede dit eget valg — er essensen af off-policy metoder. Du forsøger at forbedre din beslutningstagning ved at bruge data indsamlet under en andens adfærd. Det er stadig udforskning — men det er styret af ekstern erfaring i stedet for din egen.

Importance Sampling

Fordi agenten følger adfærdspolitikken under generering af episoder, skal vi tage højde for forskellen mellem hvad adfærdspolitikken genererer og hvad målpolitikken ville generere. Det er her, importance sampling kommer ind i billedet.

Importance sampling giver en metode til at justere de afkast, der observeres under adfærdsstrategien, så de er gyldige estimater for målstrategien.

Lad os betragte en sekvens, der starter fra en bestemt tilstand $S_t$ og følger en bestemt strategi $\pi$ , indtil episoden afsluttes på tidspunktet $T$ . Specifikt observeres:

A_t, S_{t+1}, A_{t+1}, ..., S_{T}

Hvad er sandsynligheden for, at denne sekvens opstår under en strategi $\pi$ ? Det afhænger både af strategiens aktionssandsynligheder og miljøets overgangsdynamik:

p(trajectory | \pi) = \prod_{k=t}^{T-1} \pi(A_k | S_k)p(S_{k+1} | S_k, A_k)

Antag nu, at sekvensen faktisk blev genereret af en anden strategi — adfærdsstrategien $b$ . For korrekt at bruge denne sekvens til at estimere forventninger under målstrategien $\pi$ , skal vi tage højde for, hvor meget mere eller mindre sandsynlig denne aktionssekvens ville have været under $\pi$ sammenlignet med $b$ .

Her kommer importance sampling-ratioen ind i billedet. Den defineres som den relative sandsynlighed for sekvensen under de to strategier:

\rho = \frac{p(trajectory | \pi)}{p(trajectory | b)} = \prod_{k=t}^{T-1} \frac{\pi(A_k | S_k)p(S_{k+1} | S_k, A_k)}{b(A_k | S_k)p(S_{k+1} | S_k, A_k)} = \prod_{k=t}^{T-1} \frac{\pi(A_k | S_k)}{b(A_k | S_k)}

Til sidst udlignes overgangssandsynlighederne, da begge strategier opererer i det samme miljø, og værdien af $\rho$ afhænger kun af strategierne, ikke af miljøet.

Hvorfor dette er vigtigt

Forholdet $\rho$ angiver, hvordan afkastet $G_t$ observeret under adfærdsstrategien skal omvægtes, så det bliver et uvildigt estimat af, hvad afkastet ville have været under målstrategien:

\def\E{\operatorname{\mathbb{E}}} \E_\pi[G_t] = \E_b[\rho \cdot G_t]

Med andre ord, selvom dataene blev indsamlet ved brug af $b$ , kan vi stadig estimere forventede afkast under $\pi$ — forudsat at $b$ tildeler en ikke-nul sandsynlighed til enhver handling, som $\pi$ kunne vælge (antagelse om dækning).

Praktiske Overvejelser

Varians ved Importance Sampling

Inkorporering af importance sampling er konceptuelt ligetil. Den estimerede handlingsværdifunktion $q(s, a)$ justeres ved at vægte hver observeret returnering med den tilsvarende importance sampling-ratio. Den simpleste formulering ser således ud:

q(s, a) = \frac{\sum_{i=0}^{N(s, a)} \rho_i(s, a) \cdot Returns_i(s, a)}{N(s, a)}

hvor:

$\rho_i(s, a)$ er importance sampling-ratioen for den $i$ -te trajektorie, der starter fra $(s, a)$ ;
$Returns_i(s, a)$ er returneringen fra denne trajektorie;
$N(s, a)$ er antallet af gange $(s, a)$ er blevet besøgt.

Dette kaldes ordinær importance sampling. Det giver et unbiased estimat af $q(s, a)$ , men kan have meget høj varians, især når adfærds- og målfunktionerne adskiller sig væsentligt.

For at afbøde variansproblemet kan en mere stabil metode anvendes: vægtet importance sampling. Denne metode normaliserer importance-vægtene, hvilket reducerer effekten af store ratioer og fører til mere stabil indlæring:

q(s, a) = \frac{\sum_{i=0}^{N(s, a)} \rho_i(s, a) \cdot Returns_i(s, a)}{\sum_{i=0}^{N(s, a)} \rho_i(s, a)}

I denne version er tælleren den samme vægtede sum af returneringer, men nævneren er nu summen af importance-vægtene i stedet for blot et simpelt antal.

Dette gør estimatet biased, men biasen mindskes, efterhånden som flere prøver indsamles. I praksis foretrækkes vægtet importance sampling på grund af den markant lavere varians og større numerisk stabilitet.

Politikker

Som i on-policy-tilfældet anvendes $\varepsilon$ -grådige politikker for både målpolitikken $\pi(a | s)$ og adfærdspolitikken $b(a | s)$ .

Ved første øjekast virker det naturligt at gøre målpolitikken fuldt ud grådig — vores endelige mål er trods alt en grådig politik. I praksis medfører dette dog et stort problem: hvis på noget tidspunkt $\pi(a | s) = 0$ for den handling, som faktisk blev udført af adfærdspolitikken, bliver importance sampling-forholdet $\rho$ nul, og resten af episoden bliver reelt ignoreret.

Ved at anvende en lille $\varepsilon$ (f.eks. $\varepsilon = 0.01$ ) i målpolitikken sikres det, at $\pi(a | s) > 0$ for enhver handling, så $\rho$ aldrig kollapser til nul midt i episoden. Når træningen er færdig, er det trivielt at konvertere den lærte $\varepsilon$ -grådige politik til en strikt grådig politik. Som ved on-policy-læring bør $\varepsilon$ aftage i adfærdspolitikken, men denne gang er det primært for numerisk stabilitet, da $\rho$ stadig kan falde til nul midt i episoden på grund af, hvordan tal repræsenteres i computere.

Pseudokode

Var alt klart?

Tak for dine kommentarer!

Sektion 4. Kapitel 6

Spørg AI

Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat

Suggested prompts:

Can you explain the difference between ordinary and weighted importance sampling in more detail?

Why does using a fully greedy target policy cause problems in off-policy learning?

Can you summarize the key advantages of off-policy methods compared to on-policy methods?

Stryg for at vise menuen