Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære On-Policy Monte Carlo-Kontrol | Monte Carlo-metoder
Introduktion til Forstærkningslæring

bookOn-Policy Monte Carlo-Kontrol

Ideen bag on-policy metoder er intuitiv: en agent lærer ved at følge sin nuværende politik og forbedrer denne politik baseret på de resultater, den oplever. For at opdage bedre handlinger og undgå at sidde fast i suboptimal adfærd, indfører agenten en vis grad af tilfældighed — den prøver lejlighedsvis alternative handlinger for at fremme udforskning.

Analogi

Forestil dig, at du er i en isbutik, og der er tre smagsvarianter tilgængelige: chokolade, vanilje og jordbær. Du elsker chokolade, så det vælger du som regel. Men en dag, af nysgerrighed, beslutter du dig for at prøve jordbær i stedet. Det viser sig, at jordbærisen i denne butik er utroligt velsmagende, og du beslutter dig for at vælge den, hver gang du besøger butikken.

At prøve en ny smag var ikke nødvendigvis det mest logiske valg baseret på tidligere erfaringer, men det gav dig mulighed for at opdage noget nyt. Og denne form for udforskning er kernen i on-policy metoder.

Stokastiske politikker

Formelt betyder denne tilgang, at man erstatter de deterministiske (hårde) politikker anvendt i dynamisk programmering med stokastiske (bløde) politikker, betegnet som π(as)\pi(a | s), hvor:

π(as)>0sS,aA(s)\pi(a | s) > 0 \qquad \forall s \in S, a \in A(s)

Med andre ord har hver handling i hver tilstand en ikke-nul sandsynlighed for at blive valgt. Dette sikrer, at alle dele af miljøet på sigt kan blive udforsket, hvilket er essentielt, når man lærer af erfaring.

ε\Large\varepsilon-grådige politikker

For at indarbejde udforskning i politikken, anvendes begrebet ε\varepsilon-grådig udforskning fra multi-armed bandit-problemet. Dette gør det muligt at definere en stokastisk politik, der balancerer udnyttelse af den bedst kendte handling med udforskning af alternativer:

π(as){1ε+εA(s)hvis a=arg maxaqπ(s,a)εA(s)ellers\pi(a | s) \gets \begin{dcases} 1 - \varepsilon + \frac{\varepsilon}{|A(s)|} & \text{hvis } a = \argmax_{a'} q_\pi(s, a') \\ \frac{\varepsilon}{|A(s)|} & \text{ellers} \end{dcases}

Denne politik opfører sig grådigt det meste af tiden — vælger handlingen med den højeste estimerede værdi — men med sandsynlighed ε\varepsilon vælges en tilfældig handling, hvilket sikrer, at alle handlinger har en ikke-nul sandsynlighed for at blive valgt (selv den grådige igen, via uniform sampling).

Ved første øjekast kan denne tilgang virke problematisk: da politikken aldrig bliver rent grådig, vil den aldrig konvergere til den præcist optimale politik. Derfor opfylder den ikke strengt betingelserne for GPI, hvis man forventer nøjagtig optimalitet i grænsen.

Dog kræver GPI ikke, at politikken bliver optimal med det samme — det kræver kun, at hver politik forbedres (eller forbliver den samme) sammenlignet med den forrige, og gradvist bevæger sig mod optimalitet. ε\varepsilon-grådige politikker opfylder denne betingelse: de forbedrer politikken i gennemsnit og sikrer løbende udforskning for bedre estimater.

For at løse problemet med konvergens mod den egentlige optimale politik kan ε\varepsilon gradvist reduceres over tid. Denne strategi gør politikken mere og mere grådig, efterhånden som læringen skrider frem. I de tidlige faser hjælper udforskning med at indsamle varieret erfaring, mens agenten i de senere faser udnytter sin forbedrede viden. Med en passende aftagende ε\varepsilon konvergerer metoden til en optimal politik i grænsen.

Pseudokode

question mark

Hvordan kan stokastiske politikker hjælpe med udforskning?

Select the correct answer

Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 4. Kapitel 5

Spørg AI

expand

Spørg AI

ChatGPT

Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat

Awesome!

Completion rate improved to 2.7

bookOn-Policy Monte Carlo-Kontrol

Stryg for at vise menuen

Ideen bag on-policy metoder er intuitiv: en agent lærer ved at følge sin nuværende politik og forbedrer denne politik baseret på de resultater, den oplever. For at opdage bedre handlinger og undgå at sidde fast i suboptimal adfærd, indfører agenten en vis grad af tilfældighed — den prøver lejlighedsvis alternative handlinger for at fremme udforskning.

Analogi

Forestil dig, at du er i en isbutik, og der er tre smagsvarianter tilgængelige: chokolade, vanilje og jordbær. Du elsker chokolade, så det vælger du som regel. Men en dag, af nysgerrighed, beslutter du dig for at prøve jordbær i stedet. Det viser sig, at jordbærisen i denne butik er utroligt velsmagende, og du beslutter dig for at vælge den, hver gang du besøger butikken.

At prøve en ny smag var ikke nødvendigvis det mest logiske valg baseret på tidligere erfaringer, men det gav dig mulighed for at opdage noget nyt. Og denne form for udforskning er kernen i on-policy metoder.

Stokastiske politikker

Formelt betyder denne tilgang, at man erstatter de deterministiske (hårde) politikker anvendt i dynamisk programmering med stokastiske (bløde) politikker, betegnet som π(as)\pi(a | s), hvor:

π(as)>0sS,aA(s)\pi(a | s) > 0 \qquad \forall s \in S, a \in A(s)

Med andre ord har hver handling i hver tilstand en ikke-nul sandsynlighed for at blive valgt. Dette sikrer, at alle dele af miljøet på sigt kan blive udforsket, hvilket er essentielt, når man lærer af erfaring.

ε\Large\varepsilon-grådige politikker

For at indarbejde udforskning i politikken, anvendes begrebet ε\varepsilon-grådig udforskning fra multi-armed bandit-problemet. Dette gør det muligt at definere en stokastisk politik, der balancerer udnyttelse af den bedst kendte handling med udforskning af alternativer:

π(as){1ε+εA(s)hvis a=arg maxaqπ(s,a)εA(s)ellers\pi(a | s) \gets \begin{dcases} 1 - \varepsilon + \frac{\varepsilon}{|A(s)|} & \text{hvis } a = \argmax_{a'} q_\pi(s, a') \\ \frac{\varepsilon}{|A(s)|} & \text{ellers} \end{dcases}

Denne politik opfører sig grådigt det meste af tiden — vælger handlingen med den højeste estimerede værdi — men med sandsynlighed ε\varepsilon vælges en tilfældig handling, hvilket sikrer, at alle handlinger har en ikke-nul sandsynlighed for at blive valgt (selv den grådige igen, via uniform sampling).

Ved første øjekast kan denne tilgang virke problematisk: da politikken aldrig bliver rent grådig, vil den aldrig konvergere til den præcist optimale politik. Derfor opfylder den ikke strengt betingelserne for GPI, hvis man forventer nøjagtig optimalitet i grænsen.

Dog kræver GPI ikke, at politikken bliver optimal med det samme — det kræver kun, at hver politik forbedres (eller forbliver den samme) sammenlignet med den forrige, og gradvist bevæger sig mod optimalitet. ε\varepsilon-grådige politikker opfylder denne betingelse: de forbedrer politikken i gennemsnit og sikrer løbende udforskning for bedre estimater.

For at løse problemet med konvergens mod den egentlige optimale politik kan ε\varepsilon gradvist reduceres over tid. Denne strategi gør politikken mere og mere grådig, efterhånden som læringen skrider frem. I de tidlige faser hjælper udforskning med at indsamle varieret erfaring, mens agenten i de senere faser udnytter sin forbedrede viden. Med en passende aftagende ε\varepsilon konvergerer metoden til en optimal politik i grænsen.

Pseudokode

question mark

Hvordan kan stokastiske politikker hjælpe med udforskning?

Select the correct answer

Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 4. Kapitel 5
some-alt