Lära Vad är temporär differensinlärning? | Temporär Differensinlärning

Både dynamisk programmering och Monte Carlo-metoder har vissa fördelar men också betydande nackdelar.

Dynamisk programmering

Dynamisk programmering möjliggör effektiv beräkning av tillståndsvärdesfunktionen och härledning av en optimal policy utifrån denna. Den använder bootstrapping — beräkning av nuvarande tillstånds värde baserat på framtida tillstånds värden — för att uppnå detta.

Även om idén med bootstrapping är kraftfull, har dynamisk programmering två stora nackdelar:

Den kräver en fullständig och explicit modell av miljön;
Tillståndsvärden beräknas för varje tillstånd, även om tillståndet inte ligger nära den optimala vägen.

Monte Carlo-metoder

Monte Carlo-metoder åtgärdar de två nackdelarna som dynamisk programmering har:

De kräver ingen modell, eftersom de lär sig av erfarenhet;
Sättet de lär sig av erfarenhet begränsar utforskningen, så oviktiga tillstånd besöks sällan.

Men de introducerar en ny nackdel — inlärningsprocessen sker först efter att episoden avslutats. Detta begränsar användbarheten av Monte Carlo-metoder till små episodiska uppgifter, eftersom större uppgifter skulle kräva ett orimligt stort antal åtgärder innan episoden avslutas.

Temporär differensinlärning

Definition

Temporal difference (TD) learning är resultatet av att kombinera idéer från både dynamisk programmering och Monte Carlo-metoder. Det tar lärande från erfarenhet-tillvägagångssättet från Monte Carlo-metoder och kombinerar det med bootstrapping från dynamisk programmering.

Som ett resultat åtgärdar TD-lärande de huvudsakliga problemen som de två metoderna har:

Lärande från erfarenhet hanterar problemet med att kräva en modell och problemet med stora tillståndsrymder;
Bootstrapping hanterar problemet med episodiskt lärande.

Hur fungerar det?

TD-inlärning fungerar genom en enkel slinga:

Uppskatta värdet: agenten börjar med en initial gissning om hur bra det nuvarande tillståndet är;
Utför en handling: den utför en handling, får en belöning och hamnar i ett nytt tillstånd;
Uppdatera uppskattningen: med hjälp av belöningen och värdet av det nya tillståndet justerar agenten sin ursprungliga uppskattning något för att göra den mer exakt;
Upprepa: över tid, genom att upprepa denna slinga, bygger agenten gradvis upp bättre och mer exakta värdeuppskattningar för olika tillstånd.

Jämförelsetabell

Var allt tydligt?

Tack för dina kommentarer!

Avsnitt 5. Kapitel 1

Fråga AI

Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal

Suggested prompts:

Can you explain what bootstrapping means in this context?

What are some real-world examples where TD learning is used?

How does TD learning combine the strengths of dynamic programming and Monte Carlo methods?

Svep för att visa menyn