Oppiskele Mikä on Temporaalinen Erotusoppiminen?

Sekä dynaamisella ohjelmoinnilla että Monte Carlo -menetelmillä on hyviä ideoita, mutta myös merkittäviä haittoja.

Dynaaminen ohjelmointi

Dynaaminen ohjelmointi mahdollistaa tilan arvofunktion tehokkaan laskemisen ja optimaalisen politiikan johtamisen siitä. Se hyödyntää bootstrappingia — nykyisen tilan arvon laskemista tulevien tilojen arvojen perusteella — tämän saavuttamiseksi.

Vaikka bootstrappingin ajatus onkin tehokas, dynaamisella ohjelmoinnilla on kaksi merkittävää haittaa:

Se vaatii täydellisen ja eksplisiittisen mallin ympäristöstä;
Tila-arvot lasketaan jokaiselle tilalle, vaikka tila ei olisi lähelläkään optimaalista polkua.

Monte Carlo -menetelmät

Monte Carlo -menetelmät korjaavat kaksi dynaamisen ohjelmoinnin haittapuolta:

Ne eivät vaadi mallia, vaan oppivat kokemuksesta;
Kokemuksesta oppimisen tapa rajoittaa tutkimista, joten ei-tärkeisiin tiloihin päädytään harvoin.

Ne kuitenkin tuovat mukanaan uuden ongelman — oppimisprosessi tapahtuu vasta, kun episodi on päättynyt. Tämä rajoittaa Monte Carlo -menetelmien soveltuvuutta pieniin episodisiin tehtäviin, sillä suuremmissa tehtävissä vaadittaisiin valtava määrä toimintoja ennen kuin episodi päättyy.

Aikaisen erotuksen oppiminen

Määritelmä

Aikaisen eron (TD) oppiminen on seurausta sekä dynaamisen ohjelmoinnin että Monte Carlo -menetelmien ideoiden yhdistämisestä. Se ottaa kokemuksesta oppimisen lähestymistavan Monte Carlo -menetelmistä ja yhdistää sen bootstrappingiin dynaamisesta ohjelmoinnista.

Tämän seurauksena TD-oppiminen korjaa molempien menetelmien suurimmat ongelmat:

Kokemuksesta oppiminen ratkaisee mallin tarpeen ja suuren tilatilan ongelmat;
Bootstrapping ratkaisee episodisen oppimisen ongelman.

Miten se toimii?

TD-oppiminen toimii yksinkertaisen silmukan kautta:

Arvon arviointi: agentti aloittaa alkuarviolla siitä, kuinka hyvä nykyinen tila on;
Toiminnan suorittaminen: agentti suorittaa toiminnon, saa palkkion ja päätyy uuteen tilaan;
Arvion päivittäminen: käyttäen palkkiota ja uuden tilan arvoa, agentti säätää alkuperäistä arviotaan hieman tarkemmaksi;
Toisto: ajan myötä, toistamalla tätä silmukkaa, agentti rakentaa vähitellen parempia ja tarkempia arviota eri tilojen arvoista.

Vertailutaulukko

Oliko kaikki selvää?

Kiitos palautteestasi!

Osio 5. Luku 1

Kysy tekoälyä

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

Suggested prompts:

Can you explain what bootstrapping means in this context?

What are some real-world examples where TD learning is used?

How does TD learning combine the strengths of dynamic programming and Monte Carlo methods?

Pyyhkäise näyttääksesi valikon