Kursinnehåll
Introduktion till Förstärkningsinlärning
Introduktion till Förstärkningsinlärning
Utforskningsmetoder
Antagandet om exploring starts är användbart för att säkerställa att alla tillstånd (tillstånd-handlingspar) besöks över tid. I de flesta verkliga uppgifter har det dock en stor nackdel: det kräver en modell för att initiera agenten i godtyckliga tillstånd.
I sällsynta fall – när miljön naturligt startar episoder från slumpmässiga tillstånd som täcker hela tillståndsrymden – kan exploring starts tillämpas utan problem. Men oftare har uppgifter en fast eller begränsad uppsättning starttillstånd, vilket gör sådan randomisering omöjlig utan en partiell modell. Denna modell bör åtminstone kunna simulera ett steg av miljön från vilket tillstånd som helst. Även om detta fortfarande är mindre krävande än att behöva en fullständig modell, är det ofta opraktiskt.
Alternativa utforskningsmetoder
Om det inte är möjligt att starta från ett slumpmässigt tillstånd (tillstånd-handlingspar), är alternativet att säkerställa att varje handling har en icke-noll sannolikhet att väljas i varje tillstånd. Detta garanterar att agenten över tid kommer att utforska alla nåbara delar av tillståndsrymden. Om ett tillstånd kan nås genom någon giltig sekvens av handlingar, kommer det så småningom att nås; och om det inte kan nås alls under miljöns dynamik, är det irrelevant för inlärningsprocessen.
Denna idé leder till användningen av stokastiska policys, där agenten inte alltid väljer den bäst kända handlingen, utan istället väljer handlingar med viss grad av slumpmässighet. En vanlig strategi för detta är den välkända -greedy policy, som väljer den giriga handlingen för det mesta, men med sannolikheten väljer en slumpmässig handling istället. Detta säkerställer kontinuerlig utforskning samtidigt som handlingar med högt värde prioriteras.
Vid denna punkt är det också användbart att skilja mellan två huvudklasser av metoder:
- On-policy-metoder utvärderar och förbättrar samma policy som används för att generera data;
- Off-policy-metoder utvärderar och förbättrar en policy, och genererar data med en annan policy.
1. Vad är det huvudsakliga problemet med antagandet om utforskande starter?
2. Vad är skillnaden mellan on-policy och off-policy-metoder inom förstärkningsinlärning?
Tack för dina kommentarer!