Summary  
This chapter introduces the multi-armed bandit algorithm, covering how to implement a probabilistic decision-making strategy that balances exploration and exploitation to maximize cumulative rewards.

General domain of usage  
Online advertising

**Multi-armed bandit (MAB) -ongelma** on tunnettu haaste vahvistusoppimisessa, päätöksenteossa ja todennäköisyysteoriassa. Siinä agentti valitsee toistuvasti **useiden toimintojen** välillä, joista jokainen tuottaa palkkion jostakin kiinteästä **todennäköisyysjakaumasta**. Tavoitteena on **maksimoida tuotto** ennalta määrätyn **aikajakson** aikana.

Termi **"multi-armed bandit"** juontaa juurensa analogiasta kolikkopeliin, jota kutsutaan usein **"yksikätiseksi rosvoksi"** sen vivun vuoksi. Tässä tilanteessa kuvitellaan, että käytössä on **useita kolikkopelejä** tai kolikkopeli, jossa on **useita vipuja (käsivarsia)**, ja jokainen vipu liittyy **erilliseen todennäköisyysjakaumaan** palkkioiden suhteen. Tavoitteena on **maksimoida tuotto** rajallisen yritysmäärän aikana valitsemalla huolellisesti, mitä vipua vetää.

**MAB-ongelma** kuvaa tasapainottelun haastetta **etsinnän** ja **hyödyntämisen** välillä:

- **Etsintä**: erilaisten vipujen kokeileminen tietojen keräämiseksi niiden tuotoista;
- **Hyödyntäminen**: sen vivun vetäminen, joka vaikuttaa tällä hetkellä parhaalta välittömien palkkioiden maksimoimiseksi.

**Naivi lähestymistapa** — yhden vivun toistuva pelaaminen — voi johtaa **epäoptimaalisiin tuottoihin**, jos parempi vipu jää tutkimatta. Toisaalta **liiallinen etsintä** voi **tuhlata resursseja** matalan tuoton vaihtoehtoihin.

Vaikka **MAB-ongelma** alun perin kehitettiin uhkapelaamiseen, se esiintyy **monilla aloilla**:
- **Verkkomainonta**: parhaan mainoksen valinta käyttäjän sitoutumisen perusteella;
- **Kliiniset tutkimukset**: useiden hoitojen testaaminen tehokkaimman löytämiseksi;
- **Suositusjärjestelmät**: käyttäjille merkityksellisimmän sisällön tarjoaminen.

Mikä on moniaseisen bandiitti -ongelman keskeinen haaste?

Vahvistusoppiminen (RL) on koneoppimisen tehokas osa-alue, joka keskittyy älykkäiden agenttien kouluttamiseen vuorovaikutuksessa ympäristönsä kanssa. Tällä kurssilla opit, kuinka agentit löytävät vähitellen tehokkaita toimintatapoja kokeilun ja erehdyksen kautta. Aloitat keskeisistä käsitteistä, kuten Markovin päätösprosesseista ja moniaseisista bandiiteista, ja etenet dynaamiseen ohjelmointiin, Monte Carlo -menetelmiin ja ajallisen eron oppimiseen.

Opi, kuinka agentteja koulutetaan tekemään optimaalisia päätöksiä kokeilun ja erehdyksen kautta. Tutustu vahvistusoppimisen teorian perusteisiin. Saat käytännön kokemusta Gymnasium-ympäristön asettamisesta ja suorittamisesta.

Hallitse tutkimisen ja hyödyntämisen välinen tasapaino moniaseisen bandiittiongelman avulla. Toteuta toimenpidearvon estimointi, ε-ahne, yläluottamusraja ja gradienttibandiitti -menetelmät. Arvioi algoritmien suorituskykyä simuloiduissa palkkioiden maksimointitehtävissä.

Hallitse dynaaminen ohjelmointi mallipohjaisessa RL:ssä. Opi, kuinka Bellmanin yhtälöitä voidaan käyttää politiikkojen arviointiin ja parantamiseen. Toteuta politiikka- ja arvoiterointialgoritmit. Tutustu yleistettyyn politiikkaiterointiin mallittomien menetelmien teoreettisena perustana.

Monte Carlo -menetelmien hallinta mallittomassa RL:ssä. Arvofunktioiden estimointi ja optimaalisten politiikkojen johtaminen täydellisistä episodeista. On-policy- ja off-policy-Monte Carlo -ohjausalgoritmien toteutus. Tutkimusstrategioiden löytäminen mallittoman oppimisen optimointiin.

Aikaisen eron oppimisen hallinta mallittomassa RL:ssä. Arvofunktioiden estimointi osittaisista episodeista TD(0)-päivityksiä käyttäen. On-policy SARSA- ja off-policy Q-Learning -algoritmien toteutus. Monte Carlo -menetelmien ja TD-oppimisen yhdistäminen n-askeleen TD:ssä ja TD(λ):ssa.

Ongelman Esittely

Ongelman alkuperä

Haaste

Reaalielämän sovellukset

Ongelman Esittely

Ongelman alkuperä

Haaste

Reaali­elämän sovellukset

Reaalielämän sovellukset