Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lära Utforskningsmetoder | Monte Carlo-metoder
Introduktion till Förstärkningsinlärning
course content

Kursinnehåll

Introduktion till Förstärkningsinlärning

Introduktion till Förstärkningsinlärning

1. RL Kärnteori
2. Multi-Armed Bandit-Problemet
3. Dynamisk Programmering
4. Monte Carlo-metoder
5. Temporär Differensinlärning

book
Utforskningsmetoder

Antagandet om exploring starts är användbart för att säkerställa att alla tillstånd (tillstånd-handlingspar) besöks över tid. I de flesta verkliga uppgifter har det dock en stor nackdel: det kräver en modell för att initiera agenten i godtyckliga tillstånd.

I sällsynta fall – när miljön naturligt startar episoder från slumpmässiga tillstånd som täcker hela tillståndsrymden – kan exploring starts tillämpas utan problem. Men oftare har uppgifter en fast eller begränsad uppsättning starttillstånd, vilket gör sådan randomisering omöjlig utan en partiell modell. Denna modell bör åtminstone kunna simulera ett steg av miljön från vilket tillstånd som helst. Även om detta fortfarande är mindre krävande än att behöva en fullständig modell, är det ofta opraktiskt.

Alternativa utforskningsmetoder

Om det inte är möjligt att starta från ett slumpmässigt tillstånd (tillstånd-handlingspar), är alternativet att säkerställa att varje handling har en icke-noll sannolikhet att väljas i varje tillstånd. Detta garanterar att agenten över tid kommer att utforska alla nåbara delar av tillståndsrymden. Om ett tillstånd kan nås genom någon giltig sekvens av handlingar, kommer det så småningom att nås; och om det inte kan nås alls under miljöns dynamik, är det irrelevant för inlärningsprocessen.

Denna idé leder till användningen av stokastiska policys, där agenten inte alltid väljer den bäst kända handlingen, utan istället väljer handlingar med viss grad av slumpmässighet. En vanlig strategi för detta är den välkända ε\varepsilon-greedy policy, som väljer den giriga handlingen för det mesta, men med sannolikheten ε\varepsilon väljer en slumpmässig handling istället. Detta säkerställer kontinuerlig utforskning samtidigt som handlingar med högt värde prioriteras.

Vid denna punkt är det också användbart att skilja mellan två huvudklasser av metoder:

  • On-policy-metoder utvärderar och förbättrar samma policy som används för att generera data;
  • Off-policy-metoder utvärderar och förbättrar en policy, och genererar data med en annan policy.

1. Vad är det huvudsakliga problemet med antagandet om utforskande starter?

2. Vad är skillnaden mellan on-policy och off-policy-metoder inom förstärkningsinlärning?

question mark

Vad är det huvudsakliga problemet med antagandet om utforskande starter?

Select the correct answer

question mark

Vad är skillnaden mellan on-policy och off-policy-metoder inom förstärkningsinlärning?

Select the correct answer

Var allt tydligt?

Hur kan vi förbättra det?

Tack för dina kommentarer!

Avsnitt 4. Kapitel 4

Fråga AI

expand

Fråga AI

ChatGPT

Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal

course content

Kursinnehåll

Introduktion till Förstärkningsinlärning

Introduktion till Förstärkningsinlärning

1. RL Kärnteori
2. Multi-Armed Bandit-Problemet
3. Dynamisk Programmering
4. Monte Carlo-metoder
5. Temporär Differensinlärning

book
Utforskningsmetoder

Antagandet om exploring starts är användbart för att säkerställa att alla tillstånd (tillstånd-handlingspar) besöks över tid. I de flesta verkliga uppgifter har det dock en stor nackdel: det kräver en modell för att initiera agenten i godtyckliga tillstånd.

I sällsynta fall – när miljön naturligt startar episoder från slumpmässiga tillstånd som täcker hela tillståndsrymden – kan exploring starts tillämpas utan problem. Men oftare har uppgifter en fast eller begränsad uppsättning starttillstånd, vilket gör sådan randomisering omöjlig utan en partiell modell. Denna modell bör åtminstone kunna simulera ett steg av miljön från vilket tillstånd som helst. Även om detta fortfarande är mindre krävande än att behöva en fullständig modell, är det ofta opraktiskt.

Alternativa utforskningsmetoder

Om det inte är möjligt att starta från ett slumpmässigt tillstånd (tillstånd-handlingspar), är alternativet att säkerställa att varje handling har en icke-noll sannolikhet att väljas i varje tillstånd. Detta garanterar att agenten över tid kommer att utforska alla nåbara delar av tillståndsrymden. Om ett tillstånd kan nås genom någon giltig sekvens av handlingar, kommer det så småningom att nås; och om det inte kan nås alls under miljöns dynamik, är det irrelevant för inlärningsprocessen.

Denna idé leder till användningen av stokastiska policys, där agenten inte alltid väljer den bäst kända handlingen, utan istället väljer handlingar med viss grad av slumpmässighet. En vanlig strategi för detta är den välkända ε\varepsilon-greedy policy, som väljer den giriga handlingen för det mesta, men med sannolikheten ε\varepsilon väljer en slumpmässig handling istället. Detta säkerställer kontinuerlig utforskning samtidigt som handlingar med högt värde prioriteras.

Vid denna punkt är det också användbart att skilja mellan två huvudklasser av metoder:

  • On-policy-metoder utvärderar och förbättrar samma policy som används för att generera data;
  • Off-policy-metoder utvärderar och förbättrar en policy, och genererar data med en annan policy.

1. Vad är det huvudsakliga problemet med antagandet om utforskande starter?

2. Vad är skillnaden mellan on-policy och off-policy-metoder inom förstärkningsinlärning?

question mark

Vad är det huvudsakliga problemet med antagandet om utforskande starter?

Select the correct answer

question mark

Vad är skillnaden mellan on-policy och off-policy-metoder inom förstärkningsinlärning?

Select the correct answer

Var allt tydligt?

Hur kan vi förbättra det?

Tack för dina kommentarer!

Avsnitt 4. Kapitel 4
some-alt