Summary  
This chapter explains the exploration vs. exploitation trade-off, a decision-making strategy where an algorithm balances trying new actions to gather information against using known rewarding actions to maximize long-term gains.

General domain of usage  
Recommendation systems

Problemet med **udforskning vs udnyttelse** er et grundlæggende dilemma inden for reinforcement learning. Det opstår, når en agent skal vælge mellem to konkurrerende strategier:

1. **Udforskning**: afprøvning af nye muligheder for at indsamle mere information, selvom den umiddelbare belønning er usikker;
2. **Udnyttelse**: valg af den bedst kendte mulighed baseret på tidligere erfaringer for at maksimere de umiddelbare belønninger.

Dette problem opstår i situationer, hvor beslutninger påvirker fremtidige resultater. Hvis en agent kun **udnytter** det, den kender, kan den gå glip af bedre muligheder. Omvendt kan overdreven **udforskning** føre til unødvendige risici eller spildte ressourcer uden garanti for bedre resultater.

- **Online anbefalinger**: en streamingtjeneste kan enten anbefale en populær film **(udnyttelse)** eller foreslå en mindre kendt film for at lære om en brugers præferencer **(udforskning)**;
- **Produktudvikling**: en virksomhed kan fokusere på at forbedre et populært produkt, der konsekvent har haft succes på markedet **(udnyttelse)** eller investere i at udvikle helt nye produkter eller funktioner **(udforskning)**;
- **Investeringsstrategier**: en aktiehandler skal beslutte, om der skal investeres i veldrevne aktier **(udnyttelse)** eller eksperimentere med nye investeringer, der potentielt kan give højere afkast **(udforskning)**.

Udfordringen ligger i effektivt at balancere disse to strategier. For meget **udnyttelse** kan føre til suboptimale gevinster på lang sigt, mens overdreven **udforskning** kan være ineffektiv og omkostningstung. Nøglen er at finde en optimal balance, der maksimerer de langsigtede fordele og samtidig minimerer risici.

Selvom der findes forskellige metoder til at balancere **udforskning** og **udnyttelse**, kan hvert problem kræve en **tilpasset tilgang**, hvor der tages højde for faktorer som belønningsstruktur, ændringshastighed i miljøet og graden af usikkerhed om konsekvenserne af forskellige handlinger.


Bemærk

Du træner en reinforcement learning-agent til at navigere gennem en labyrint. Efter meget lang tid har den lært pålideligt at finde udgangen, men den rute, den tager, er langt fra optimal. Hvad ville du gøre?

Reinforcement Learning (RL) er en kraftfuld gren af maskinlæring, der fokuserer på at træne intelligente agenter gennem interaktion med deres miljø. I dette kursus lærer du, hvordan agenter gradvist opdager effektive adfærdsmønstre gennem trial and error. Med udgangspunkt i kernebegreber som Markov beslutningsprocesser og multi-armed bandits arbejder du dig igennem dynamisk programmering, Monte Carlo-metoder og temporal difference learning.

Opdag, hvordan man træner agenter til at træffe optimale beslutninger gennem trial and error. Udforsk det grundlæggende i reinforcement learning teori. Få praktisk erfaring med opsætning og kørsel af et Gymnasium-miljø.

Behersk udfordringen med udforskning kontra udnyttelse gennem multi-armed bandit-problemet. Implementering af handlingsværdiestimering, ε-grådig, øvre konfidensgrænse og gradient-bandit-metoder. Evaluering af algoritmers ydeevne på simulerede opgaver med belønningsmaksimering.

Behersk dynamisk programmering til modelbaseret RL. Opdag, hvordan Bellman-ligninger kan bruges til at evaluere og forbedre politikker. Implementer algoritmer til politik- og værdiforløb. Udforsk generaliseret politikforløb som det teoretiske grundlag for modelfrie metoder.

Behersk Monte Carlo-metoder til modellfri RL. Estimer værdifunktioner og udled optimale politikker fra fuldstændige episoder. Implementer on-policy og off-policy Monte Carlo-kontrolalgoritmer. Udforsk strategier for udforskning til optimering af modellfri læring.

Behersk temporal difference learning til model-fri RL. Estimer værdifunktioner ud fra delvise episoder ved hjælp af TD(0)-opdateringer. Implementer on-policy SARSA og off-policy Q-Learning algoritmer. Undersøg hvordan Monte Carlo-metoder og TD learning kombineres i n-step TD og TD(λ).

Udforskning vs Udnyttelse

Afvejningen

Virkelige eksempler

Udfordringen