Summary  
This chapter explains the exploration vs. exploitation trade-off, a decision-making strategy where an algorithm balances trying new actions to gather information against using known rewarding actions to maximize long-term gains.

General domain of usage  
Recommendation systems

**Utforsking vs utnyttelse**-problemet er et grunnleggende dilemma innenfor forsterkende læring. Det oppstår når en agent må velge mellom to konkurrerende strategier:

1. **Utforsking**: prøve nye alternativer for å samle mer informasjon, selv om den umiddelbare belønningen er usikker;
2. **Utnyttelse**: velge det beste kjente alternativet basert på tidligere erfaringer for å maksimere umiddelbare belønninger.

Dette problemet oppstår i situasjoner der beslutninger påvirker fremtidige utfall. Hvis en agent kun **utnytter** det den allerede vet, kan den gå glipp av bedre muligheter. På den annen side kan overdreven **utforsking** føre til unødvendig risiko eller sløsing med ressurser uten å garantere bedre resultater.

- **Nettbaserte anbefalinger**: en strømmetjeneste kan enten anbefale en populær film **(utnyttelse)** eller foreslå en mindre kjent film for å lære mer om brukerens preferanser **(utforskning)**;
- **Produktutvikling**: et selskap kan fokusere på å forbedre et populært produkt som har vært konsekvent suksessfullt i markedet **(utnyttelse)** eller investere i å utvikle helt nye produkter eller funksjoner **(utforskning)**;
- **Investeringsstrategier**: en aksjehandler må avgjøre om man skal investere i aksjer som allerede presterer godt **(utnyttelse)** eller eksperimentere med nye investeringer som kan gi høyere avkastning **(utforskning)**.

Utfordringen ligger i å balansere disse to strategiene effektivt. For mye **utnyttelse** kan føre til suboptimale gevinster på lang sikt, mens overdreven **utforskning** kan være ineffektivt og kostbart. Nøkkelen er å finne en optimal balanse som maksimerer langsiktige fordeler samtidig som risikoen minimeres.

Selv om det finnes ulike metoder for å balansere **utforskning** og **utnyttelse**, kan hvert problem kreve en **tilpasset tilnærming**, med hensyn til faktorer som belønningsstruktur, endringshastighet i miljøet og graden av usikkerhet rundt konsekvensene av ulike handlinger.


Merk

Du trener en forsterkningslæringsagent til å navigere gjennom en labyrint. Etter svært lang tid har den lært å komme seg ut av labyrinten pålitelig, men ruten den tar er langt fra optimal. Hva ville du gjort?

Reinforcement Learning (RL) er en kraftig gren av maskinlæring som fokuserer på å trene intelligente agenter gjennom interaksjon med sitt miljø. I dette kurset lærer du hvordan agenter gradvis oppdager effektive atferder gjennom prøving og feiling. Du starter med grunnleggende konsepter som Markov beslutningsprosesser og multi-armede banditter, og fortsetter med dynamisk programmering, Monte Carlo-metoder og temporal difference-læring.

Lær hvordan man trener agenter til å ta optimale beslutninger gjennom prøving og feiling. Utforsk det grunnleggende innenfor teori om forsterkende læring. Få praktisk erfaring med å sette opp og kjøre et Gymnasium-miljø.

Forstå utforskning-utnyttelse-avveiningen gjennom multi-armet bandittproblem. Implementering av handlingsverdiestimering, ε-grådig, øvre konfidensgrense og gradient-bandittmetoder. Evaluering av algoritmers ytelse på simulerte belønningsmaksimeringsoppgaver.

Behersk dynamisk programmering for modellbasert RL. Oppdag hvordan Bellman-likninger kan brukes til å evaluere og forbedre policyer. Implementering av policy- og verdiiterasjonsalgoritmer. Utforsk generalisert policyiterasjon som det teoretiske grunnlaget for modellfrie metoder.

Behersk Monte Carlo-metoder for modellfri RL. Estimer verdifunksjoner og utled optimale policyer fra fullstendige episoder. Implementer on-policy og off-policy Monte Carlo-kontrollalgoritmer. Utforsk strategier for utforskning for å optimalisere modellfri læring.

Behersk temporal difference-læring for modellfri RL. Estimeringsmetoder for verdifunksjoner fra delvise episoder ved bruk av TD(0)-oppdateringer. Implementering av on-policy SARSA og off-policy Q-Learning-algoritmer. Utforsk hvordan Monte Carlo-metoder og TD-læring kombineres i n-trinns TD og TD(λ).

Utforskning vs Utnyttelse

Avveiningen

Eksempler fra virkeligheten

Utfordringen