Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lära Vad är Temporär Differensinlärning? | Temporär Differensinlärning
Introduktion till Förstärkningsinlärning
course content

Kursinnehåll

Introduktion till Förstärkningsinlärning

Introduktion till Förstärkningsinlärning

1. RL Kärnteori
2. Multi-Armed Bandit-Problemet
3. Dynamisk Programmering
4. Monte Carlo-metoder
5. Temporär Differensinlärning

book
Vad är Temporär Differensinlärning?

Både dynamisk programmering och Monte Carlo-metoder har vissa fördelar men också betydande nackdelar.

Dynamisk programmering

Dynamisk programmering möjliggör effektiv beräkning av tillståndsvärdesfunktionen och härledning av en optimal policy från denna. Den använder bootstrapping — beräkning av nuvarande tillstånds värde baserat på framtida tillstånds värden — för att uppnå detta.

Även om idén med bootstrapping är kraftfull, har dynamisk programmering två stora nackdelar:

  • Den kräver en fullständig och explicit modell av miljön;
  • Tillståndsvärden beräknas för varje tillstånd, även om tillståndet inte ligger nära den optimala vägen.

Monte Carlo-metoder

Monte Carlo-metoder åtgärdar de två nackdelarna som dynamisk programmering har:

  • De kräver ingen modell, eftersom de lär sig av erfarenhet;
  • Sättet de lär sig av erfarenhet begränsar utforskningen, så oviktiga tillstånd besöks sällan.

Men de introducerar en ny nackdel — inlärningsprocessen sker endast efter att episoden avslutats. Detta begränsar användbarheten av Monte Carlo-metoder till små episodiska uppgifter, eftersom större uppgifter skulle kräva ett orimligt stort antal handlingar innan episoden avslutas.

Temporal Difference-inlärning

Note
Definition

Temporal difference (TD) learning är resultatet av att kombinera idéer från både dynamisk programmering och Monte Carlo-metoder. Det tar lärande från erfarenhet-tillvägagångssättet från Monte Carlo-metoder och kombinerar det med bootstrapping från dynamisk programmering.

Som ett resultat åtgärdar TD-lärande de största problemen som de två metoderna har:

  • Lärande från erfarenhet hanterar problemet med att kräva en modell och problemet med stora tillståndsrymder;
  • Bootstrapping hanterar problemet med episodiskt lärande.

Hur fungerar det?

TD-inlärning fungerar genom en enkel slinga:

  1. Uppskatta värdet: agenten börjar med en initial uppskattning av hur bra det nuvarande tillståndet är;
  2. Utför en handling: den utför en handling, får en belöning och hamnar i ett nytt tillstånd;
  3. Uppdatera uppskattningen: med hjälp av belöningen och värdet av det nya tillståndet justerar agenten sin ursprungliga uppskattning något för att göra den mer exakt;
  4. Upprepa: över tid, genom att upprepa denna slinga, bygger agenten gradvis upp bättre och mer exakta värdeuppskattningar för olika tillstånd.

Jämförelsetabell

question mark

Hur kombinerar Temporal Difference-inlärning styrkorna från dynamisk programmering och Monte Carlo-metoder?

Select the correct answer

Var allt tydligt?

Hur kan vi förbättra det?

Tack för dina kommentarer!

Avsnitt 5. Kapitel 1

Fråga AI

expand

Fråga AI

ChatGPT

Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal

course content

Kursinnehåll

Introduktion till Förstärkningsinlärning

Introduktion till Förstärkningsinlärning

1. RL Kärnteori
2. Multi-Armed Bandit-Problemet
3. Dynamisk Programmering
4. Monte Carlo-metoder
5. Temporär Differensinlärning

book
Vad är Temporär Differensinlärning?

Både dynamisk programmering och Monte Carlo-metoder har vissa fördelar men också betydande nackdelar.

Dynamisk programmering

Dynamisk programmering möjliggör effektiv beräkning av tillståndsvärdesfunktionen och härledning av en optimal policy från denna. Den använder bootstrapping — beräkning av nuvarande tillstånds värde baserat på framtida tillstånds värden — för att uppnå detta.

Även om idén med bootstrapping är kraftfull, har dynamisk programmering två stora nackdelar:

  • Den kräver en fullständig och explicit modell av miljön;
  • Tillståndsvärden beräknas för varje tillstånd, även om tillståndet inte ligger nära den optimala vägen.

Monte Carlo-metoder

Monte Carlo-metoder åtgärdar de två nackdelarna som dynamisk programmering har:

  • De kräver ingen modell, eftersom de lär sig av erfarenhet;
  • Sättet de lär sig av erfarenhet begränsar utforskningen, så oviktiga tillstånd besöks sällan.

Men de introducerar en ny nackdel — inlärningsprocessen sker endast efter att episoden avslutats. Detta begränsar användbarheten av Monte Carlo-metoder till små episodiska uppgifter, eftersom större uppgifter skulle kräva ett orimligt stort antal handlingar innan episoden avslutas.

Temporal Difference-inlärning

Note
Definition

Temporal difference (TD) learning är resultatet av att kombinera idéer från både dynamisk programmering och Monte Carlo-metoder. Det tar lärande från erfarenhet-tillvägagångssättet från Monte Carlo-metoder och kombinerar det med bootstrapping från dynamisk programmering.

Som ett resultat åtgärdar TD-lärande de största problemen som de två metoderna har:

  • Lärande från erfarenhet hanterar problemet med att kräva en modell och problemet med stora tillståndsrymder;
  • Bootstrapping hanterar problemet med episodiskt lärande.

Hur fungerar det?

TD-inlärning fungerar genom en enkel slinga:

  1. Uppskatta värdet: agenten börjar med en initial uppskattning av hur bra det nuvarande tillståndet är;
  2. Utför en handling: den utför en handling, får en belöning och hamnar i ett nytt tillstånd;
  3. Uppdatera uppskattningen: med hjälp av belöningen och värdet av det nya tillståndet justerar agenten sin ursprungliga uppskattning något för att göra den mer exakt;
  4. Upprepa: över tid, genom att upprepa denna slinga, bygger agenten gradvis upp bättre och mer exakta värdeuppskattningar för olika tillstånd.

Jämförelsetabell

question mark

Hur kombinerar Temporal Difference-inlärning styrkorna från dynamisk programmering och Monte Carlo-metoder?

Select the correct answer

Var allt tydligt?

Hur kan vi förbättra det?

Tack för dina kommentarer!

Avsnitt 5. Kapitel 1
some-alt