Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Oppiskele Episodit ja tuotot | RL:n Ydinteoria
Johdatus Vahvistusoppimiseen
course content

Kurssisisältö

Johdatus Vahvistusoppimiseen

Johdatus Vahvistusoppimiseen

1. RL:n Ydinteoria
2. Moniaseinen Bandiittiongelma
3. Dynaaminen Ohjelmointi
4. Monte Carlo -Menetelmät
5. Aikaisen Eron Oppiminen

book
Episodit ja tuotot

Tehtävän kesto

RL-tehtävät luokitellaan tyypillisesti episodisiin tai jatkuviin sen mukaan, miten oppimisprosessi jäsennetään ajan suhteen.

Note
Määritelmä

Episodi on täydellinen vuorovaikutusjakso agentin ja ympäristön välillä, joka alkaa alkutilasta ja etenee siirtymien kautta, kunnes saavutetaan päättävä tila.

Episodiset tehtävät ovat tehtäviä, jotka koostuvat rajallisesta jaksosta tiloja, toimintoja ja palkkioita, joissa agentin vuorovaikutus ympäristön kanssa on jaettu erillisiin episodeihin.

Vastaavasti jatkuvilla tehtävillä ei ole selkeää loppua jokaiselle vuorovaikutussyklille. Agentti jatkaa vuorovaikutusta ympäristön kanssa ilman palautumista alkuperäiseen tilaan, ja oppimisprosessi on jatkuvaa, usein ilman selkeää päätepistettä.

Tuotto

Tiedät jo, että agentin keskeinen tavoite on maksimoida kumulatiiviset palkkiot. Vaikka palkkiofunktio antaa välittömiä palkkioita, se ei huomioi tulevia seurauksia, mikä voi olla ongelmallista. Agentti, joka on koulutettu maksimoimaan vain välittömät palkkiot, saattaa jättää pitkän aikavälin hyödyt huomiotta. Tämän ongelman ratkaisemiseksi otetaan käyttöön käsite nimeltä tuotto.

Note
Määritelmä

Palautus GG on agentin saama kertyneen palkkion kokonaismäärä tietystä tilasta eteenpäin, joka sisältää kaikki tulevat palkkiot, ei vain välittömiä.

Palautus kuvaa paremmin, kuinka hyvä tietty tila tai toiminto on pitkällä aikavälillä. Vahvistusoppimisen tavoitteena voidaan nyt määritellä palautuksen maksimointi.

Jos TT on viimeinen aikaleima, palautuksen kaava on seuraava:

Gt=Rt+1+Rt+2+Rt+3+...+RTG_t = R_{t+1} + R_{t+2} + R_{t+3} + ... + R_T

Diskonttaus

Vaikka yksinkertainen tuotto toimii hyvänä tavoitteena episodisissa tehtävissä, jatkuvissa tehtävissä ilmenee ongelma. Jos aika-askeleiden määrä on ääretön, tuotto voi itsessään olla ääretön. Tämän ratkaisemiseksi käytetään diskonttaustekijää, joka varmistaa, että tuleville palkkioille annetaan vähemmän painoarvoa, estää tuoton muuttumisen äärettömäksi.

Note
Määritelmä

Diskonttaustekijä γ\gamma on kertoluku, jota käytetään määrittämään tulevien palkkioiden nykyarvo. Sen arvo on välillä 0 ja 1, missä arvo lähempänä 0 saa agentin painottamaan välittömiä palkkioita, kun taas arvo lähempänä 1 saa agentin huomioimaan tulevat palkkiot merkittävämpinä.

Tuotto yhdistettynä diskonttokertoimeen kutsutaan diskontatuksi tuotoksi.

Diskontatun tuoton kaava näyttää tältä:

Gt=Rt+1+γRt+2+γ2Rt+3+...=k=0γkRt+k+1G_t = R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + ... = \sum_{k=0}^\infty \gamma^k R_{t+k+1}
Note
Opiskele lisää

Jopa episodisissa tehtävissä diskonttokertoimen käyttö tarjoaa käytännön etuja: se motivoi agenttia saavuttamaan tavoitteensa mahdollisimman nopeasti, mikä johtaa tehokkaampaan toimintaan. Tästä syystä diskonttausta käytetään yleisesti myös selvästi episodisissa tilanteissa.

question mark

Mitä diskonttaustekijä γ\gamma edustaa?

Select the correct answer

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 1. Luku 4

Kysy tekoälyä

expand

Kysy tekoälyä

ChatGPT

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

course content

Kurssisisältö

Johdatus Vahvistusoppimiseen

Johdatus Vahvistusoppimiseen

1. RL:n Ydinteoria
2. Moniaseinen Bandiittiongelma
3. Dynaaminen Ohjelmointi
4. Monte Carlo -Menetelmät
5. Aikaisen Eron Oppiminen

book
Episodit ja tuotot

Tehtävän kesto

RL-tehtävät luokitellaan tyypillisesti episodisiin tai jatkuviin sen mukaan, miten oppimisprosessi jäsennetään ajan suhteen.

Note
Määritelmä

Episodi on täydellinen vuorovaikutusjakso agentin ja ympäristön välillä, joka alkaa alkutilasta ja etenee siirtymien kautta, kunnes saavutetaan päättävä tila.

Episodiset tehtävät ovat tehtäviä, jotka koostuvat rajallisesta jaksosta tiloja, toimintoja ja palkkioita, joissa agentin vuorovaikutus ympäristön kanssa on jaettu erillisiin episodeihin.

Vastaavasti jatkuvilla tehtävillä ei ole selkeää loppua jokaiselle vuorovaikutussyklille. Agentti jatkaa vuorovaikutusta ympäristön kanssa ilman palautumista alkuperäiseen tilaan, ja oppimisprosessi on jatkuvaa, usein ilman selkeää päätepistettä.

Tuotto

Tiedät jo, että agentin keskeinen tavoite on maksimoida kumulatiiviset palkkiot. Vaikka palkkiofunktio antaa välittömiä palkkioita, se ei huomioi tulevia seurauksia, mikä voi olla ongelmallista. Agentti, joka on koulutettu maksimoimaan vain välittömät palkkiot, saattaa jättää pitkän aikavälin hyödyt huomiotta. Tämän ongelman ratkaisemiseksi otetaan käyttöön käsite nimeltä tuotto.

Note
Määritelmä

Palautus GG on agentin saama kertyneen palkkion kokonaismäärä tietystä tilasta eteenpäin, joka sisältää kaikki tulevat palkkiot, ei vain välittömiä.

Palautus kuvaa paremmin, kuinka hyvä tietty tila tai toiminto on pitkällä aikavälillä. Vahvistusoppimisen tavoitteena voidaan nyt määritellä palautuksen maksimointi.

Jos TT on viimeinen aikaleima, palautuksen kaava on seuraava:

Gt=Rt+1+Rt+2+Rt+3+...+RTG_t = R_{t+1} + R_{t+2} + R_{t+3} + ... + R_T

Diskonttaus

Vaikka yksinkertainen tuotto toimii hyvänä tavoitteena episodisissa tehtävissä, jatkuvissa tehtävissä ilmenee ongelma. Jos aika-askeleiden määrä on ääretön, tuotto voi itsessään olla ääretön. Tämän ratkaisemiseksi käytetään diskonttaustekijää, joka varmistaa, että tuleville palkkioille annetaan vähemmän painoarvoa, estää tuoton muuttumisen äärettömäksi.

Note
Määritelmä

Diskonttaustekijä γ\gamma on kertoluku, jota käytetään määrittämään tulevien palkkioiden nykyarvo. Sen arvo on välillä 0 ja 1, missä arvo lähempänä 0 saa agentin painottamaan välittömiä palkkioita, kun taas arvo lähempänä 1 saa agentin huomioimaan tulevat palkkiot merkittävämpinä.

Tuotto yhdistettynä diskonttokertoimeen kutsutaan diskontatuksi tuotoksi.

Diskontatun tuoton kaava näyttää tältä:

Gt=Rt+1+γRt+2+γ2Rt+3+...=k=0γkRt+k+1G_t = R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + ... = \sum_{k=0}^\infty \gamma^k R_{t+k+1}
Note
Opiskele lisää

Jopa episodisissa tehtävissä diskonttokertoimen käyttö tarjoaa käytännön etuja: se motivoi agenttia saavuttamaan tavoitteensa mahdollisimman nopeasti, mikä johtaa tehokkaampaan toimintaan. Tästä syystä diskonttausta käytetään yleisesti myös selvästi episodisissa tilanteissa.

question mark

Mitä diskonttaustekijä γ\gamma edustaa?

Select the correct answer

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 1. Luku 4
some-alt