Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Oppiskele Ongelman Esittely | Moniaseinen Bandiittiongelma
Johdatus Vahvistusoppimiseen
course content

Kurssisisältö

Johdatus Vahvistusoppimiseen

Johdatus Vahvistusoppimiseen

1. RL:n Ydinteoria
2. Moniaseinen Bandiittiongelma
3. Dynaaminen Ohjelmointi
4. Monte Carlo -Menetelmät
5. Aikaisen Eron Oppiminen

book
Ongelman Esittely

Moniaseinen bandiitti (MAB) -ongelma on tunnettu haaste vahvistusoppimisessa, päätöksenteossa ja todennäköisyysteoriassa. Siinä agentti valitsee toistuvasti useiden toimintojen välillä, joista jokainen tarjoaa palkkion jostakin kiinteästä todennäköisyysjakaumasta. Tavoitteena on maksimoida tuotto ennalta määrätyn aikajakson aikana.

Ongelman alkuperä

Termi "moniaseinen bandiitti" juontaa juurensa analogiasta peliautomaattiin, jota kutsutaan usein "yksiaseiseksi bandiitiksi" sen vivun vuoksi. Tässä tilanteessa kuvitellaan, että käytössä on useita peliautomaatteja tai peliautomaatti, jossa on useita vipuja (aseita), ja jokainen vipu liittyy erilliseen todennäköisyysjakaumaan palkkioiden suhteen. Tavoitteena on maksimoida tuotto rajallisen yritysmäärän aikana valitsemalla huolellisesti, mitä vipua vetää.

Haaste

MAB-ongelma kuvaa tasapainottelun haastetta etsinnän ja hyödyntämisen välillä:

  • Etsintä: eri vipujen kokeileminen tietojen keräämiseksi niiden tuotoista;
  • Hyödyntäminen: sen vivun vetäminen, joka tällä hetkellä vaikuttaa parhaalta välittömien palkkioiden maksimoimiseksi.

Naivi lähestymistapa — yhden vivun toistuva pelaaminen — voi johtaa epäoptimaalisiin tuottoihin, jos parempi vipu jää tutkimatta. Toisaalta, liiallinen etsintä voi tuhlata resursseja matalan tuoton vaihtoehtoihin.

Reaali­elämän sovellukset

Vaikka alun perin kehitetty uhkapelaamiseen, MAB-ongelma esiintyy monilla aloilla:

  • Verkkomainonta: parhaan mainoksen valitseminen käyttäjän sitoutumisen perusteella;
  • Kliiniset tutkimukset: useiden hoitojen testaaminen tehokkaimman löytämiseksi;
  • Suositusjärjestelmät: käyttäjille merkityksellisimmän sisällön tarjoaminen.
question mark

Mikä on moniaseisen bandiitti -ongelman keskeinen haaste?

Select the correct answer

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 2. Luku 1

Kysy tekoälyä

expand

Kysy tekoälyä

ChatGPT

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

course content

Kurssisisältö

Johdatus Vahvistusoppimiseen

Johdatus Vahvistusoppimiseen

1. RL:n Ydinteoria
2. Moniaseinen Bandiittiongelma
3. Dynaaminen Ohjelmointi
4. Monte Carlo -Menetelmät
5. Aikaisen Eron Oppiminen

book
Ongelman Esittely

Moniaseinen bandiitti (MAB) -ongelma on tunnettu haaste vahvistusoppimisessa, päätöksenteossa ja todennäköisyysteoriassa. Siinä agentti valitsee toistuvasti useiden toimintojen välillä, joista jokainen tarjoaa palkkion jostakin kiinteästä todennäköisyysjakaumasta. Tavoitteena on maksimoida tuotto ennalta määrätyn aikajakson aikana.

Ongelman alkuperä

Termi "moniaseinen bandiitti" juontaa juurensa analogiasta peliautomaattiin, jota kutsutaan usein "yksiaseiseksi bandiitiksi" sen vivun vuoksi. Tässä tilanteessa kuvitellaan, että käytössä on useita peliautomaatteja tai peliautomaatti, jossa on useita vipuja (aseita), ja jokainen vipu liittyy erilliseen todennäköisyysjakaumaan palkkioiden suhteen. Tavoitteena on maksimoida tuotto rajallisen yritysmäärän aikana valitsemalla huolellisesti, mitä vipua vetää.

Haaste

MAB-ongelma kuvaa tasapainottelun haastetta etsinnän ja hyödyntämisen välillä:

  • Etsintä: eri vipujen kokeileminen tietojen keräämiseksi niiden tuotoista;
  • Hyödyntäminen: sen vivun vetäminen, joka tällä hetkellä vaikuttaa parhaalta välittömien palkkioiden maksimoimiseksi.

Naivi lähestymistapa — yhden vivun toistuva pelaaminen — voi johtaa epäoptimaalisiin tuottoihin, jos parempi vipu jää tutkimatta. Toisaalta, liiallinen etsintä voi tuhlata resursseja matalan tuoton vaihtoehtoihin.

Reaali­elämän sovellukset

Vaikka alun perin kehitetty uhkapelaamiseen, MAB-ongelma esiintyy monilla aloilla:

  • Verkkomainonta: parhaan mainoksen valitseminen käyttäjän sitoutumisen perusteella;
  • Kliiniset tutkimukset: useiden hoitojen testaaminen tehokkaimman löytämiseksi;
  • Suositusjärjestelmät: käyttäjille merkityksellisimmän sisällön tarjoaminen.
question mark

Mikä on moniaseisen bandiitti -ongelman keskeinen haaste?

Select the correct answer

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 2. Luku 1
some-alt