Summary  
This chapter explains the exploration vs. exploitation trade-off, a decision-making strategy where an algorithm balances trying new actions to gather information against using known rewarding actions to maximize long-term gains.

General domain of usage  
Recommendation systems

Het **exploratie versus exploitatie** probleem is een fundamenteel dilemma binnen reinforcement learning. Het doet zich voor wanneer een agent moet kiezen tussen twee concurrerende strategieën:

1. **Exploratie**: het uitproberen van nieuwe opties om meer informatie te verzamelen, zelfs als de directe beloning onzeker is;
2. **Exploitatie**: het kiezen van de best bekende optie op basis van eerdere ervaringen om directe beloningen te maximaliseren.

Dit probleem doet zich voor in scenario's waarbij beslissingen toekomstige uitkomsten beïnvloeden. Als een agent alleen **exploiteert** wat hij weet, kan hij betere kansen mislopen. Aan de andere kant kan overmatige **exploratie** leiden tot onnodige risico's of verspilde middelen zonder garantie op betere resultaten.

- **Online aanbevelingen**: een streamingdienst kan ervoor kiezen om een populaire film aan te bevelen **(exploitatie)** of een minder bekende film voor te stellen om meer te leren over de voorkeuren van een gebruiker **(exploratie)**;
- **Productontwikkeling**: een bedrijf kan zich richten op het verbeteren van een populair product dat consequent succesvol is op de markt **(exploitatie)** of investeren in het ontwikkelen van geheel nieuwe producten of functies **(exploratie)**;
- **Beleggingsstrategieën**: een aandelenhandelaar moet beslissen of hij investeert in goed presterende aandelen **(exploitatie)** of experimenteert met nieuwe investeringen die mogelijk een hoger rendement opleveren **(exploratie)**.

De uitdaging ligt in het effectief balanceren van deze twee strategieën. Te veel **exploitatie** kan leiden tot suboptimale langetermijnopbrengsten, terwijl overmatige **exploratie** inefficiënt en kostbaar kan zijn. De sleutel is het vinden van een optimaal evenwicht dat de langetermijnvoordelen maximaliseert en tegelijkertijd de risico's minimaliseert.

Hoewel er verschillende methoden zijn om **exploratie** en **exploitatie** in balans te brengen, kan elk probleem een **aangepaste aanpak** vereisen, rekening houdend met factoren zoals de beloningsstructuur, de mate van verandering in de omgeving en het niveau van onzekerheid over de gevolgen van verschillende acties.


Opmerking

Je traint een reinforcement learning-agent om door een doolhof te navigeren. Na een zeer lange tijd heeft de agent geleerd het doolhof betrouwbaar te verlaten, maar het pad dat hij neemt is verre van optimaal. Wat zou je doen?

Reinforcement Learning (RL) is een krachtige tak van machine learning die zich richt op het trainen van intelligente agenten door interactie met hun omgeving. In deze cursus leer je hoe agenten geleidelijk effectieve gedragingen ontdekken via trial-and-error. Beginnend met kernconcepten zoals Markov-beslissingsprocessen en multi-armed bandits, werk je verder met dynamisch programmeren, Monte Carlo-methoden en temporal difference learning.

Ontdek hoe agenten getraind kunnen worden om optimale beslissingen te nemen via trial-and-error. Verken de essentiële theorie van reinforcement learning. Doe praktische ervaring op met het opzetten en uitvoeren van een Gymnasium-omgeving.

Beheers de exploratie-exploitatie-afweging via het multi-armed bandit probleem. Implementeer actie-waarde schatting, ε-greedy, upper confidence bound en gradient-bandit methoden. Evalueer de prestaties van algoritmen op gesimuleerde beloningsmaximalisatietaken.

Beheers dynamisch programmeren voor modelgebaseerde RL. Ontdek hoe Bellman-vergelijkingen kunnen worden gebruikt om beleid te evalueren en te verbeteren. Implementeer algoritmen voor beleid- en waarde-iteratie. Verken gegeneraliseerde beleid-iteratie als het theoretische fundament voor modelvrije methoden.

Beheers Monte Carlo-methoden voor modelvrije RL. Waarde-functies schatten en optimale beleidslijnen afleiden uit volledige episodes. Implementatie van on-policy en off-policy Monte Carlo-controle-algoritmen. Ontdek verkenningsstrategieën om modelvrij leren te optimaliseren.

Beheers tijdverschil leren voor modelvrije RL. Waarde-functies schatten uit gedeeltelijke episodes met behulp van TD(0)-updates. Implementeer on-policy SARSA- en off-policy Q-Learning-algoritmen. Ontdek hoe Monte Carlo-methoden en TD-leren worden gecombineerd in n-staps TD en TD(λ).

Exploratie Versus Exploitatie

De Afweging

Voorbeelden uit de praktijk

De uitdaging