Kursinnehåll
Introduktion till Förstärkningsinlärning
Introduktion till Förstärkningsinlärning
Vad är Temporär Differensinlärning?
Både dynamisk programmering och Monte Carlo-metoder har vissa fördelar men också betydande nackdelar.
Dynamisk programmering
Dynamisk programmering möjliggör effektiv beräkning av tillståndsvärdesfunktionen och härledning av en optimal policy från denna. Den använder bootstrapping — beräkning av nuvarande tillstånds värde baserat på framtida tillstånds värden — för att uppnå detta.
Även om idén med bootstrapping är kraftfull, har dynamisk programmering två stora nackdelar:
- Den kräver en fullständig och explicit modell av miljön;
- Tillståndsvärden beräknas för varje tillstånd, även om tillståndet inte ligger nära den optimala vägen.
Monte Carlo-metoder
Monte Carlo-metoder åtgärdar de två nackdelarna som dynamisk programmering har:
- De kräver ingen modell, eftersom de lär sig av erfarenhet;
- Sättet de lär sig av erfarenhet begränsar utforskningen, så oviktiga tillstånd besöks sällan.
Men de introducerar en ny nackdel — inlärningsprocessen sker endast efter att episoden avslutats. Detta begränsar användbarheten av Monte Carlo-metoder till små episodiska uppgifter, eftersom större uppgifter skulle kräva ett orimligt stort antal handlingar innan episoden avslutas.
Temporal Difference-inlärning
Temporal difference (TD) learning är resultatet av att kombinera idéer från både dynamisk programmering och Monte Carlo-metoder. Det tar lärande från erfarenhet-tillvägagångssättet från Monte Carlo-metoder och kombinerar det med bootstrapping från dynamisk programmering.
Som ett resultat åtgärdar TD-lärande de största problemen som de två metoderna har:
- Lärande från erfarenhet hanterar problemet med att kräva en modell och problemet med stora tillståndsrymder;
- Bootstrapping hanterar problemet med episodiskt lärande.
Hur fungerar det?
TD-inlärning fungerar genom en enkel slinga:
- Uppskatta värdet: agenten börjar med en initial uppskattning av hur bra det nuvarande tillståndet är;
- Utför en handling: den utför en handling, får en belöning och hamnar i ett nytt tillstånd;
- Uppdatera uppskattningen: med hjälp av belöningen och värdet av det nya tillståndet justerar agenten sin ursprungliga uppskattning något för att göra den mer exakt;
- Upprepa: över tid, genom att upprepa denna slinga, bygger agenten gradvis upp bättre och mer exakta värdeuppskattningar för olika tillstånd.
Jämförelsetabell
Tack för dina kommentarer!