Summary  
This chapter explains the exploration vs. exploitation trade-off, a decision-making strategy where an algorithm balances trying new actions to gather information against using known rewarding actions to maximize long-term gains.

General domain of usage  
Recommendation systems

Problemet med **utforskning kontra exploatering** är ett grundläggande dilemma inom förstärkningsinlärning. Det uppstår när en agent måste välja mellan två konkurrerande strategier:

1. **Utforskning**: att prova nya alternativ för att samla mer information, även om den omedelbara belöningen är osäker;
2. **Exploatering**: att välja det bästa kända alternativet baserat på tidigare erfarenheter för att maximera omedelbara belöningar.

Detta problem uppstår i scenarier där beslut påverkar framtida utfall. Om en agent enbart **exploaterar** det den känner till, kan den gå miste om bättre möjligheter. Å andra sidan kan överdriven **utforskning** leda till onödiga risker eller slöseri med resurser utan att garantera bättre resultat.

- **Online-rekommendationer**: en streamingtjänst kan antingen rekommendera en populär film **(exploatering)** eller föreslå en mindre känd film för att lära sig mer om användarens preferenser **(utforskning)**;
- **Produktutveckling**: ett företag kan fokusera på att förbättra en populär produkt som har varit konsekvent framgångsrik på marknaden **(exploatering)** eller investera i att utveckla helt nya produkter eller funktioner **(utforskning)**;
- **Investeringsstrategier**: en aktiehandlare måste avgöra om hen ska investera i välpresterande aktier **(exploatering)** eller experimentera med nya investeringar som kan ge högre avkastning **(utforskning)**.

Svårigheten ligger i att effektivt balansera dessa två strategier. För mycket **exploatering** kan leda till suboptimala långsiktiga vinster, medan överdriven **utforskning** kan vara ineffektivt och kostsamt. Nyckeln är att hitta en optimal balans som maximerar långsiktiga fördelar samtidigt som riskerna minimeras.

Även om det finns olika metoder för att balansera **utforskning** och **exploatering**, kan varje problem kräva en **anpassad strategi**, med hänsyn till faktorer som belöningsstruktur, förändringstakt i miljön och graden av osäkerhet kring konsekvenserna av olika handlingar.


Notering

Du tränar en förstärkningsinlärningsagent att navigera genom en labyrint. Efter mycket lång tid har den lärt sig att pålitligt lämna labyrinten, men vägen den tar är långt ifrån optimal. Vad skulle du göra?

Reinforcement Learning (RL) är en kraftfull gren av maskininlärning som fokuserar på att träna intelligenta agenter genom interaktion med sin omgivning. I denna kurs lär du dig hur agenter gradvis upptäcker effektiva beteenden genom försök och misstag. Med början i grundläggande begrepp som Markovbeslutsprocesser och multiarmade banditer, går du vidare till dynamisk programmering, Monte Carlo-metoder och temporär differensinlärning.

Upptäck hur agenter tränas att fatta optimala beslut genom trial and error. Utforska grunderna i förstärkningsinlärningens teori. Få praktisk erfarenhet av att konfigurera och köra en Gymnasium-miljö.

Bemästra utforsknings- och exploateringsavvägningen genom multi-armed bandit-problemet. Implementera åtgärdsvärdesuppskattning, ε-girig, övre konfidensgräns och gradient-banditmetoder. Utvärdera algoritmers prestanda på simulerade belöningsmaximeringsuppgifter.

Behärska dynamisk programmering för modellbaserad RL. Upptäck hur Bellmans ekvationer kan användas för att utvärdera och förbättra policies.
Implementera algoritmer för policy- och värdeiteration.
Utforska generaliserad policyiteration som den teoretiska grunden för modellfria metoder.

Behärska Monte Carlo-metoder för modellfri RL. Uppskatta värdefunktioner och härled optimala policies från fullständiga episoder. Implementera on-policy och off-policy Monte Carlo-kontrollalgoritmer. Utforska strategier för utforskning för att optimera modellfritt lärande.

Behärska temporär differensinlärning för modellfri RL. Skatta värdefunktioner från partiella episoder med hjälp av TD(0)-uppdateringar. Implementera on-policy SARSA och off-policy Q-Learning-algoritmer. Utforska hur Monte Carlo-metoder och TD-inlärning kombineras i n-stegs TD och TD(λ).

Utforskning kontra Exploatering

Avvägningen

Exempel från verkliga livet

Utmaningen