Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Oppiskele TD(0): Arvotoiminnon Estimointi | Aikaisen Eron Oppiminen
Johdatus Vahvistusoppimiseen
course content

Kurssisisältö

Johdatus Vahvistusoppimiseen

Johdatus Vahvistusoppimiseen

1. RL:n Ydinteoria
2. Moniaseinen Bandiittiongelma
3. Dynaaminen Ohjelmointi
4. Monte Carlo -Menetelmät
5. Aikaisen Eron Oppiminen

book
TD(0): Arvotoiminnon Estimointi

TD-oppimisen yksinkertaisin versio on nimeltään TD(0). Se päivittää tilan arvon välittömän palkkion ja seuraavan tilan arvioidun arvon perusteella. Kyseessä on yhden askeleen TD-menetelmä.

Päivityssääntö

Kun tila on StS_t, palkkio Rt+1R_{t+1} ja seuraava tila St+1S_{t+1}, päivityssääntö on seuraava:

V(St)V(St)+α(Rt+1+γV(St+1)V(St))V(S_t) \gets V(S_t) + \alpha\Bigl(R_{t+1}+\gamma V(S_{t+1}) - V(S_t)\Bigr)

missä

  • α\alpha on oppimisnopeus eli askelkoko;
  • δt=Rt+1+γV(St+1)V(St)\delta_t = R_{t+1}+\gamma V(S_{t+1}) - V(S_t) on TD-virhe.

Intuitio

Tilaarvofunktio vπv_\pi voidaan määritellä ja laajentaa seuraavasti:

vπ(s)=Eπ[GtSt=s]=Eπ[Rt+γGt+1St=s]=Eπ[Rt+γvπ(St+1)St=s]\def\E{\operatorname{\mathbb{E}}} \begin{aligned} v_\pi(s) &= \E_\pi[G_t | S_t = s] \\ &= \E_\pi[R_t + \gamma G_{t+1} | S_t = s] \\ &= \E_\pi[R_t + \gamma v_\pi(S_{t+1}) | S_t = s] \end{aligned}

Tämä antaa δt\delta_t:n ensimmäisen osan — koetun tuoton Rt+1+γV(St+1)R_{t+1} + \gamma V(S_{t+1}). Ja δt\delta_t:n toinen osa on odotettu tuotto V(St)V(S_t). TD-virhe δt\delta_t​ on siis havaittavissa oleva ero sen välillä, mitä todella tapahtui ja mitä aiemmin uskottiin tapahtuvan. Päivityssääntö säätää aiempaa arviota hieman jokaisella askeleella, tuoden sen lähemmäs totuutta.

TD(0) vs Monte Carlo -estimaatio

Sekä TD(0) että Monte Carlo -estimaatio käyttävät otantakokemusta tilan arvofunktion vπ(s)v_\pi(s) arvioimiseen politiikalle π\pi. Tavanomaisten konvergenssiehtojen vallitessa molemmat lähestymistavat konvergoituvat todelliseen vπ(s)v_\pi(s):ään, kun jokaisen tilan käyntikertojen määrä lähestyy ääretöntä. Käytännössä käytettävissä on kuitenkin vain rajallinen määrä dataa, ja nämä kaksi menetelmää eroavat merkittävästi siinä, miten ne hyödyntävät tätä dataa ja kuinka nopeasti ne oppivat.

Harha-vaihtelu -tasapaino

Bias–variance-vaihtokaupan näkökulmasta:

Monte Carlo -arviointi odottaa jakson päättymistä ja käyttää sitten koko tuottoa arvojen päivittämiseen. Tämä tuottaa harhattomia arvioita — tuotot heijastavat todella taustalla olevaa jakaumaa — mutta ne voivat vaihdella voimakkaasti, erityisesti pitkissä tai hyvin stokastisissa tehtävissä. Korkea varianssi tarkoittaa, että tarvitaan useita jaksoja, jotta kohina tasoittuu ja arvot vakiintuvat.

TD(0) käyttää bootstrap-menetelmää yhdistämällä jokaisen yhden askeleen palkinnon seuraavan tilan nykyiseen arvoarvioon. Tämä tuo mukanaan harhaa — varhaiset päivitykset perustuvat epätäydellisiin arvioihin — mutta pitää varianssin alhaisena, koska jokainen päivitys perustuu pieneen, inkrementaaliseen virheeseen. Alhaisempi varianssi mahdollistaa palkkiotiedon nopeamman leviämisen tilojen välillä, vaikka alkuharha voikin hidastaa konvergenssia.

Datan oppiminen vs mallin oppiminen

Toinen tapa tarkastella näitä kahta menetelmää on analysoida, mitä ne todella oppivat:

Monte Carlo -arviointi oppii suoraan havaituista tuotoista, käytännössä sovittaen arvoarvionsa niihin tiettyihin jaksoihin, jotka se on nähnyt. Tämä tarkoittaa, että se minimoi virheen näillä harjoittelupoluilla, mutta koska se ei koskaan rakenna eksplisiittistä näkemystä siitä, miten tilat johtavat toisiinsa, se voi olla vaikeuksissa yleistää uusiin tai hieman erilaisiin tilanteisiin.

TD(0) puolestaan käyttää bootstrap-menetelmää jokaisessa yhden askeleen siirtymässä, yhdistäen välittömän palkinnon seuraavan tilan arvoarvioon. Näin se käytännössä tallentaa tilojen väliset suhteet — implisiittisen mallin ympäristön dynamiikasta. Tämä mallimainen ymmärrys mahdollistaa TD(0):lle paremman yleistämisen näkemättömiin siirtymiin, mikä usein tuottaa tarkempia arvoarvioita uudella datalla.

Pseudokoodi

question mark

Kuinka voit kuvata TD(0):aa harhan ja varianssin suhteen?

Select the correct answer

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 5. Luku 2

Kysy tekoälyä

expand

Kysy tekoälyä

ChatGPT

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

course content

Kurssisisältö

Johdatus Vahvistusoppimiseen

Johdatus Vahvistusoppimiseen

1. RL:n Ydinteoria
2. Moniaseinen Bandiittiongelma
3. Dynaaminen Ohjelmointi
4. Monte Carlo -Menetelmät
5. Aikaisen Eron Oppiminen

book
TD(0): Arvotoiminnon Estimointi

TD-oppimisen yksinkertaisin versio on nimeltään TD(0). Se päivittää tilan arvon välittömän palkkion ja seuraavan tilan arvioidun arvon perusteella. Kyseessä on yhden askeleen TD-menetelmä.

Päivityssääntö

Kun tila on StS_t, palkkio Rt+1R_{t+1} ja seuraava tila St+1S_{t+1}, päivityssääntö on seuraava:

V(St)V(St)+α(Rt+1+γV(St+1)V(St))V(S_t) \gets V(S_t) + \alpha\Bigl(R_{t+1}+\gamma V(S_{t+1}) - V(S_t)\Bigr)

missä

  • α\alpha on oppimisnopeus eli askelkoko;
  • δt=Rt+1+γV(St+1)V(St)\delta_t = R_{t+1}+\gamma V(S_{t+1}) - V(S_t) on TD-virhe.

Intuitio

Tilaarvofunktio vπv_\pi voidaan määritellä ja laajentaa seuraavasti:

vπ(s)=Eπ[GtSt=s]=Eπ[Rt+γGt+1St=s]=Eπ[Rt+γvπ(St+1)St=s]\def\E{\operatorname{\mathbb{E}}} \begin{aligned} v_\pi(s) &= \E_\pi[G_t | S_t = s] \\ &= \E_\pi[R_t + \gamma G_{t+1} | S_t = s] \\ &= \E_\pi[R_t + \gamma v_\pi(S_{t+1}) | S_t = s] \end{aligned}

Tämä antaa δt\delta_t:n ensimmäisen osan — koetun tuoton Rt+1+γV(St+1)R_{t+1} + \gamma V(S_{t+1}). Ja δt\delta_t:n toinen osa on odotettu tuotto V(St)V(S_t). TD-virhe δt\delta_t​ on siis havaittavissa oleva ero sen välillä, mitä todella tapahtui ja mitä aiemmin uskottiin tapahtuvan. Päivityssääntö säätää aiempaa arviota hieman jokaisella askeleella, tuoden sen lähemmäs totuutta.

TD(0) vs Monte Carlo -estimaatio

Sekä TD(0) että Monte Carlo -estimaatio käyttävät otantakokemusta tilan arvofunktion vπ(s)v_\pi(s) arvioimiseen politiikalle π\pi. Tavanomaisten konvergenssiehtojen vallitessa molemmat lähestymistavat konvergoituvat todelliseen vπ(s)v_\pi(s):ään, kun jokaisen tilan käyntikertojen määrä lähestyy ääretöntä. Käytännössä käytettävissä on kuitenkin vain rajallinen määrä dataa, ja nämä kaksi menetelmää eroavat merkittävästi siinä, miten ne hyödyntävät tätä dataa ja kuinka nopeasti ne oppivat.

Harha-vaihtelu -tasapaino

Bias–variance-vaihtokaupan näkökulmasta:

Monte Carlo -arviointi odottaa jakson päättymistä ja käyttää sitten koko tuottoa arvojen päivittämiseen. Tämä tuottaa harhattomia arvioita — tuotot heijastavat todella taustalla olevaa jakaumaa — mutta ne voivat vaihdella voimakkaasti, erityisesti pitkissä tai hyvin stokastisissa tehtävissä. Korkea varianssi tarkoittaa, että tarvitaan useita jaksoja, jotta kohina tasoittuu ja arvot vakiintuvat.

TD(0) käyttää bootstrap-menetelmää yhdistämällä jokaisen yhden askeleen palkinnon seuraavan tilan nykyiseen arvoarvioon. Tämä tuo mukanaan harhaa — varhaiset päivitykset perustuvat epätäydellisiin arvioihin — mutta pitää varianssin alhaisena, koska jokainen päivitys perustuu pieneen, inkrementaaliseen virheeseen. Alhaisempi varianssi mahdollistaa palkkiotiedon nopeamman leviämisen tilojen välillä, vaikka alkuharha voikin hidastaa konvergenssia.

Datan oppiminen vs mallin oppiminen

Toinen tapa tarkastella näitä kahta menetelmää on analysoida, mitä ne todella oppivat:

Monte Carlo -arviointi oppii suoraan havaituista tuotoista, käytännössä sovittaen arvoarvionsa niihin tiettyihin jaksoihin, jotka se on nähnyt. Tämä tarkoittaa, että se minimoi virheen näillä harjoittelupoluilla, mutta koska se ei koskaan rakenna eksplisiittistä näkemystä siitä, miten tilat johtavat toisiinsa, se voi olla vaikeuksissa yleistää uusiin tai hieman erilaisiin tilanteisiin.

TD(0) puolestaan käyttää bootstrap-menetelmää jokaisessa yhden askeleen siirtymässä, yhdistäen välittömän palkinnon seuraavan tilan arvoarvioon. Näin se käytännössä tallentaa tilojen väliset suhteet — implisiittisen mallin ympäristön dynamiikasta. Tämä mallimainen ymmärrys mahdollistaa TD(0):lle paremman yleistämisen näkemättömiin siirtymiin, mikä usein tuottaa tarkempia arvoarvioita uudella datalla.

Pseudokoodi

question mark

Kuinka voit kuvata TD(0):aa harhan ja varianssin suhteen?

Select the correct answer

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 5. Luku 2
some-alt