Cursusinhoud
Introductie tot Reinforcement Learning
Introductie tot Reinforcement Learning
Probleemintroductie
Het multi-armed bandit (MAB) probleem is een bekend vraagstuk binnen reinforcement learning, besluitvorming en waarschijnlijkheidstheorie. Hierbij kiest een agent herhaaldelijk tussen meerdere acties, waarbij elke actie een beloning oplevert volgens een vaste kansverdeling. Het doel is om de opbrengst te maximaliseren over een vast aantal tijdstappen.
Oorsprong van het probleem
De term "multi-armed bandit" komt voort uit de analogie met een gokautomaat, vaak een "one-armed bandit" genoemd vanwege zijn hendel. Stel je in dit scenario voor dat er meerdere gokautomaten zijn, of een gokautomaat met meerdere hendels (armen), waarbij elke arm is gekoppeld aan een unieke kansverdeling voor beloningen. Het doel is om de opbrengst te maximaliseren binnen een beperkt aantal pogingen door zorgvuldig te kiezen aan welke hendel wordt getrokken.
De Uitdaging
Het MAB-probleem omvat de uitdaging van het balanceren tussen exploratie en exploitatie:
- Exploratie: verschillende hendels proberen om informatie te verzamelen over hun uitbetalingen;
- Exploitatie: de hendel kiezen die op dit moment het beste lijkt om directe beloningen te maximaliseren.
Een naïeve benadering — herhaaldelijk dezelfde hendel gebruiken — kan leiden tot suboptimale opbrengsten als er een betere hendel bestaat die niet wordt onderzocht. Omgekeerd kan overmatige exploratie middelen verspillen aan opties met lage beloning.
Toepassingen in de praktijk
Hoewel het oorspronkelijk werd gezien als een gokprobleem, komt het MAB-probleem voor in veel verschillende vakgebieden:
- Online adverteren: het kiezen van de beste advertentie om weer te geven op basis van gebruikersbetrokkenheid;
- Klinische proeven: het testen van meerdere behandelingen om de meest effectieve te vinden;
- Aanbevelingssystemen: het aanbieden van de meest relevante inhoud aan gebruikers.
Bedankt voor je feedback!