Episodit ja Palautukset
Tehtävän kesto
RL-tehtävät luokitellaan tyypillisesti episodisiin tai jatkuviin sen mukaan, miten oppimisprosessi jäsennetään ajan suhteen.
Episodi on täydellinen vuorovaikutusjakso agentin ja ympäristön välillä, joka alkaa alkutilasta ja etenee siirtymien kautta, kunnes saavutetaan päättymistila.
Episodiset tehtävät ovat tehtäviä, jotka koostuvat rajallisesta jaksosta tiloja, toimintoja ja palkkioita, joissa agentin vuorovaikutus ympäristön kanssa on jaettu erillisiin episodeihin.
Vastaavasti jatkuvilla tehtävillä ei ole selkeää loppua jokaiselle vuorovaikutussyklille. Agentti vuorovaikuttaa jatkuvasti ympäristön kanssa ilman palautumista alkuperäiseen tilaan, ja oppimisprosessi on käynnissä usein ilman selkeää päätepistettä.
Tuotto
Tiedät jo, että agentin päätavoitteena on maksimoida kumulatiiviset palkkiot. Vaikka palkkiofunktio antaa välittömiä palkkioita, se ei huomioi tulevia seurauksia, mikä voi olla ongelmallista. Agentti, joka on koulutettu maksimoimaan vain välittömät palkkiot, saattaa sivuuttaa pitkän aikavälin hyödyt. Tämän ongelman ratkaisemiseksi otetaan käyttöön käsite nimeltä tuotto.
Palautus G on agentin saama kokonaiskertynyt palkkio tietystä tilasta eteenpäin, joka sisältää kaikki tulevat palkkiot, ei vain välittömät.
Palautus kuvaa paremmin, kuinka hyvä tietty tila tai toiminto on pitkällä aikavälillä. Vahvistusoppimisen tavoite voidaan nyt määritellä palautuksen maksimoimiseksi.
Jos T on viimeinen aikaleima, palautuksen kaava on seuraava:
Gt=Rt+1+Rt+2+Rt+3+...+RTDiskonttaus
Vaikka yksinkertainen tuotto toimii hyvänä tavoitteena episodisissa tehtävissä, jatkuvissa tehtävissä ilmenee ongelma. Jos aika-askeleiden määrä on ääretön, voi tuotto itsessään olla ääretön. Tämän ratkaisemiseksi käytetään diskonttaustekijää, joka varmistaa, että tuleville palkkioille annetaan vähemmän painoarvoa, estää tuoton muuttumisen äärettömäksi.
Diskonttaustekijä γ on kertoluku, jota käytetään tulevien palkkioiden nykyarvon määrittämiseen. Sen arvo on välillä 0 ja 1, missä arvo lähempänä 0 saa agentin painottamaan välittömiä palkkioita, kun taas arvo lähempänä 1 saa agentin huomioimaan tulevat palkkiot merkittävämpinä.
Tuotto yhdistettynä diskonttokertoimeen kutsutaan diskontatuksi tuotoksi.
Diskontatun tuoton kaava näyttää tältä:
Gt=Rt+1+γRt+2+γ2Rt+3+...=k=0∑∞γkRt+k+1Jopa episodisissa tehtävissä diskonttokertoimen käyttö tarjoaa käytännön etuja: se motivoi agenttia saavuttamaan tavoitteensa mahdollisimman nopeasti, mikä johtaa tehokkaampaan toimintaan. Tästä syystä diskonttausta käytetään yleisesti myös selvästi episodisissa tilanteissa.
Kiitos palautteestasi!
Kysy tekoälyä
Kysy tekoälyä
Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme
Can you explain what the discount factor γ represents?
What are some examples of episodic and continuous tasks in real life?
Why is it important to use discounted return in reinforcement learning?
Awesome!
Completion rate improved to 2.7
Episodit ja Palautukset
Pyyhkäise näyttääksesi valikon
Tehtävän kesto
RL-tehtävät luokitellaan tyypillisesti episodisiin tai jatkuviin sen mukaan, miten oppimisprosessi jäsennetään ajan suhteen.
Episodi on täydellinen vuorovaikutusjakso agentin ja ympäristön välillä, joka alkaa alkutilasta ja etenee siirtymien kautta, kunnes saavutetaan päättymistila.
Episodiset tehtävät ovat tehtäviä, jotka koostuvat rajallisesta jaksosta tiloja, toimintoja ja palkkioita, joissa agentin vuorovaikutus ympäristön kanssa on jaettu erillisiin episodeihin.
Vastaavasti jatkuvilla tehtävillä ei ole selkeää loppua jokaiselle vuorovaikutussyklille. Agentti vuorovaikuttaa jatkuvasti ympäristön kanssa ilman palautumista alkuperäiseen tilaan, ja oppimisprosessi on käynnissä usein ilman selkeää päätepistettä.
Tuotto
Tiedät jo, että agentin päätavoitteena on maksimoida kumulatiiviset palkkiot. Vaikka palkkiofunktio antaa välittömiä palkkioita, se ei huomioi tulevia seurauksia, mikä voi olla ongelmallista. Agentti, joka on koulutettu maksimoimaan vain välittömät palkkiot, saattaa sivuuttaa pitkän aikavälin hyödyt. Tämän ongelman ratkaisemiseksi otetaan käyttöön käsite nimeltä tuotto.
Palautus G on agentin saama kokonaiskertynyt palkkio tietystä tilasta eteenpäin, joka sisältää kaikki tulevat palkkiot, ei vain välittömät.
Palautus kuvaa paremmin, kuinka hyvä tietty tila tai toiminto on pitkällä aikavälillä. Vahvistusoppimisen tavoite voidaan nyt määritellä palautuksen maksimoimiseksi.
Jos T on viimeinen aikaleima, palautuksen kaava on seuraava:
Gt=Rt+1+Rt+2+Rt+3+...+RTDiskonttaus
Vaikka yksinkertainen tuotto toimii hyvänä tavoitteena episodisissa tehtävissä, jatkuvissa tehtävissä ilmenee ongelma. Jos aika-askeleiden määrä on ääretön, voi tuotto itsessään olla ääretön. Tämän ratkaisemiseksi käytetään diskonttaustekijää, joka varmistaa, että tuleville palkkioille annetaan vähemmän painoarvoa, estää tuoton muuttumisen äärettömäksi.
Diskonttaustekijä γ on kertoluku, jota käytetään tulevien palkkioiden nykyarvon määrittämiseen. Sen arvo on välillä 0 ja 1, missä arvo lähempänä 0 saa agentin painottamaan välittömiä palkkioita, kun taas arvo lähempänä 1 saa agentin huomioimaan tulevat palkkiot merkittävämpinä.
Tuotto yhdistettynä diskonttokertoimeen kutsutaan diskontatuksi tuotoksi.
Diskontatun tuoton kaava näyttää tältä:
Gt=Rt+1+γRt+2+γ2Rt+3+...=k=0∑∞γkRt+k+1Jopa episodisissa tehtävissä diskonttokertoimen käyttö tarjoaa käytännön etuja: se motivoi agenttia saavuttamaan tavoitteensa mahdollisimman nopeasti, mikä johtaa tehokkaampaan toimintaan. Tästä syystä diskonttausta käytetään yleisesti myös selvästi episodisissa tilanteissa.
Kiitos palautteestasi!