Toimintoarvot
Toimintoarvo on keskeinen käsite MAB-ongelmassa. Sillä on olennainen rooli useissa algoritmeissa, kuten epsilon-ahneessa ja yläluottamusraja-menetelmässä. Toimintoarvon ensisijainen tarkoitus on antaa arvio odotetusta palkkiosta, kun tietty toiminto valitaan. Se muistuttaa tila-toimintoarvoa, mutta on riippumaton tilasta MAB-ongelman tilattoman luonteen vuoksi.
Toimintoarvon määritelmä
Muodollisesti toimintoarvo, merkittynä Q(a), edustaa odotettua palkkiota, kun valitaan toiminto a:
Q(a)=E[R∣A=a]missä:
- R on saatu palkkio;
- A on valittu toiminto.
Koska todellinen palkkioiden jakauma on tyypillisesti tuntematon, meidän täytyy arvioida Q(a) havaittujen tietojen perusteella.
Toimintoarvojen estimointi
On olemassa useita tapoja estimoida Q(a) havaittujen palkkioiden perusteella. Yleisin menetelmä on otoskeskiarvoestimaatti, joka laskee toiminnon a valitsemisesta ajanhetkeen t mennessä saadun keskimääräisen palkkion:
Qt(a)=Nt(a)R1+R2+...+RNt(a)=Nt(a)∑i=1Nt(a)Rimissä:
- Qt(a) on toiminnon a estimaatti ajanhetkellä t;
- Nt(a) on niiden kertojen määrä, jolloin toimintoa a on valittu ajanhetkeen t mennessä;
- Ri on palkkio, joka on saatu aina, kun toimintoa a on käytetty.
Kun näytteitä kerätään lisää, tämä estimaatti lähestyy todellista odotettua palkkiota Q∗(a) olettaen, että palkkioiden jakauma pysyy stationaarisena.
Stationaarinen jakauma on jakauma, joka ei muutu ajan myötä riippumatta siitä, mitä toimintoja valitaan tai miten ympäristö muuttuu.
Inkrementaalinen päivityssääntö
Vaikka yllä olevaa kaavaa voidaan käyttää toimintojen arvojen arvioimiseen, se vaatii kaikkien aiempien palkkioiden tallentamista ja niiden summan uudelleenlaskemista jokaisella aikavälillä. Inkrementaalisten päivitysten avulla tämä ei ole tarpeen. Inkrementaalisen päivityksen kaava voidaan johtaa seuraavasti:
Qk+1=k1i=1∑kRi=k1(Rk+i=1∑k−1Ri)=k1(Rk+(k−1)Qk)=k1(Rk+kQk−Qk)=Qk+k1(Rk−Qk)missä jollekin toiminnolle:
- Qk on arvio k:nnen palkkion arvosta, joka voidaan ilmaista ensimmäisten k−1 palkkion keskiarvona;
- Rk on todellinen k:s palkkio.
Intuitio
Kun tiedetään k:nnen palkkion arvio Qk ja todellinen k:s palkkio Rk, virhe voidaan mitata näiden arvojen erotuksena. Seuraava arvio voidaan laskea säätämällä edellistä arviota hieman todellisen palkkion suuntaan virheen pienentämiseksi.
Tämä intuitio johtaa toiseen kaavaan, joka on seuraavanlainen:
Qk+1=Qk+α(Rk−Qk)missä α on oppimisnopeutta säätelevä askelkokoparametri. Kuten aiemmassa kaavassa, alfa voi olla k1, jolloin saadaan otoskeskiarvoarvio. Vaihtoehtoisesti käytetään usein vakioarvoista α:aa, koska se ei vaadi lisätilaa (toiminnon suoritusmäärän tallentamiseen) ja mahdollistaa sopeutumisen ei-stationaarisiin ympäristöihin painottamalla enemmän viimeaikaisia havaintoja.
Optimistinen alustaminen
Koulutusprosessin alussa toimintojen arvojen arviot voivat vaihdella merkittävästi, mikä voi johtaa ennenaikaiseen hyödyntämiseen. Tämä tarkoittaa, että agentti saattaa hyödyntää alkuperäistä tietämystään liian aikaisin, suosien epäoptimaalisia toimintoja rajallisen kokemuksen perusteella. Tämän ongelman lieventämiseksi ja alkuperäisen tutkimisen edistämiseksi yksi yksinkertainen ja tehokas tekniikka on optimistinen alustaminen.
Optimistisessa alustamisessa toimintojen arvot alustetaan suhteellisen korkeiksi (esim. Q0(a)=1 nollan sijaan). Tämä luo vaikutelman, että kaikki toiminnot ovat aluksi lupaavia. Tämän seurauksena agentti kannustetaan tutkimaan jokaista toimintoa useita kertoja ennen parhaan vaihtoehdon valitsemista. Tämä tekniikka on tehokkaimmillaan, kun sitä käytetään yhdessä vakioaskelkoon kanssa.
Optimaalisen toiminnon osuus tässä ja tulevissa kuvaajissa viittaa niiden ympäristöjen osuuteen, joissa optimaalinen toiminto valittiin tietyllä aikavälillä.
Esimerkiksi, jos on 10 testausympäristöä ja optimaalinen toiminto valittiin 6:ssa niistä aikavälillä 200, optimaalisen toiminnon osuus kyseisellä aikavälillä olisi 0.6. Tämä mittari on hyödyllinen suorituskyvyn arvioinnissa, koska se korreloi palkkion maksimoinnin kanssa riippumatta tarkasta palkkioarvosta.
Kiitos palautteestasi!
Kysy tekoälyä
Kysy tekoälyä
Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme
Can you explain more about the difference between sample average and incremental update methods?
How does optimistic initialization affect the exploration-exploitation tradeoff?
What are some practical scenarios where constant step-size is preferred over sample average?
Awesome!
Completion rate improved to 2.7
Toimintoarvot
Pyyhkäise näyttääksesi valikon
Toimintoarvo on keskeinen käsite MAB-ongelmassa. Sillä on olennainen rooli useissa algoritmeissa, kuten epsilon-ahneessa ja yläluottamusraja-menetelmässä. Toimintoarvon ensisijainen tarkoitus on antaa arvio odotetusta palkkiosta, kun tietty toiminto valitaan. Se muistuttaa tila-toimintoarvoa, mutta on riippumaton tilasta MAB-ongelman tilattoman luonteen vuoksi.
Toimintoarvon määritelmä
Muodollisesti toimintoarvo, merkittynä Q(a), edustaa odotettua palkkiota, kun valitaan toiminto a:
Q(a)=E[R∣A=a]missä:
- R on saatu palkkio;
- A on valittu toiminto.
Koska todellinen palkkioiden jakauma on tyypillisesti tuntematon, meidän täytyy arvioida Q(a) havaittujen tietojen perusteella.
Toimintoarvojen estimointi
On olemassa useita tapoja estimoida Q(a) havaittujen palkkioiden perusteella. Yleisin menetelmä on otoskeskiarvoestimaatti, joka laskee toiminnon a valitsemisesta ajanhetkeen t mennessä saadun keskimääräisen palkkion:
Qt(a)=Nt(a)R1+R2+...+RNt(a)=Nt(a)∑i=1Nt(a)Rimissä:
- Qt(a) on toiminnon a estimaatti ajanhetkellä t;
- Nt(a) on niiden kertojen määrä, jolloin toimintoa a on valittu ajanhetkeen t mennessä;
- Ri on palkkio, joka on saatu aina, kun toimintoa a on käytetty.
Kun näytteitä kerätään lisää, tämä estimaatti lähestyy todellista odotettua palkkiota Q∗(a) olettaen, että palkkioiden jakauma pysyy stationaarisena.
Stationaarinen jakauma on jakauma, joka ei muutu ajan myötä riippumatta siitä, mitä toimintoja valitaan tai miten ympäristö muuttuu.
Inkrementaalinen päivityssääntö
Vaikka yllä olevaa kaavaa voidaan käyttää toimintojen arvojen arvioimiseen, se vaatii kaikkien aiempien palkkioiden tallentamista ja niiden summan uudelleenlaskemista jokaisella aikavälillä. Inkrementaalisten päivitysten avulla tämä ei ole tarpeen. Inkrementaalisen päivityksen kaava voidaan johtaa seuraavasti:
Qk+1=k1i=1∑kRi=k1(Rk+i=1∑k−1Ri)=k1(Rk+(k−1)Qk)=k1(Rk+kQk−Qk)=Qk+k1(Rk−Qk)missä jollekin toiminnolle:
- Qk on arvio k:nnen palkkion arvosta, joka voidaan ilmaista ensimmäisten k−1 palkkion keskiarvona;
- Rk on todellinen k:s palkkio.
Intuitio
Kun tiedetään k:nnen palkkion arvio Qk ja todellinen k:s palkkio Rk, virhe voidaan mitata näiden arvojen erotuksena. Seuraava arvio voidaan laskea säätämällä edellistä arviota hieman todellisen palkkion suuntaan virheen pienentämiseksi.
Tämä intuitio johtaa toiseen kaavaan, joka on seuraavanlainen:
Qk+1=Qk+α(Rk−Qk)missä α on oppimisnopeutta säätelevä askelkokoparametri. Kuten aiemmassa kaavassa, alfa voi olla k1, jolloin saadaan otoskeskiarvoarvio. Vaihtoehtoisesti käytetään usein vakioarvoista α:aa, koska se ei vaadi lisätilaa (toiminnon suoritusmäärän tallentamiseen) ja mahdollistaa sopeutumisen ei-stationaarisiin ympäristöihin painottamalla enemmän viimeaikaisia havaintoja.
Optimistinen alustaminen
Koulutusprosessin alussa toimintojen arvojen arviot voivat vaihdella merkittävästi, mikä voi johtaa ennenaikaiseen hyödyntämiseen. Tämä tarkoittaa, että agentti saattaa hyödyntää alkuperäistä tietämystään liian aikaisin, suosien epäoptimaalisia toimintoja rajallisen kokemuksen perusteella. Tämän ongelman lieventämiseksi ja alkuperäisen tutkimisen edistämiseksi yksi yksinkertainen ja tehokas tekniikka on optimistinen alustaminen.
Optimistisessa alustamisessa toimintojen arvot alustetaan suhteellisen korkeiksi (esim. Q0(a)=1 nollan sijaan). Tämä luo vaikutelman, että kaikki toiminnot ovat aluksi lupaavia. Tämän seurauksena agentti kannustetaan tutkimaan jokaista toimintoa useita kertoja ennen parhaan vaihtoehdon valitsemista. Tämä tekniikka on tehokkaimmillaan, kun sitä käytetään yhdessä vakioaskelkoon kanssa.
Optimaalisen toiminnon osuus tässä ja tulevissa kuvaajissa viittaa niiden ympäristöjen osuuteen, joissa optimaalinen toiminto valittiin tietyllä aikavälillä.
Esimerkiksi, jos on 10 testausympäristöä ja optimaalinen toiminto valittiin 6:ssa niistä aikavälillä 200, optimaalisen toiminnon osuus kyseisellä aikavälillä olisi 0.6. Tämä mittari on hyödyllinen suorituskyvyn arvioinnissa, koska se korreloi palkkion maksimoinnin kanssa riippumatta tarkasta palkkioarvosta.
Kiitos palautteestasi!