Oppiskele Malli, Politiikka ja Arvot

Malli

Määritelmä

Malli on ympäristön esitys, joka määrittelee tilojen välisten siirtymätodennäköisyydet ja odotetut palkkiot suoritetuista toiminnoista.

Vahvistusoppimisalgoritmit voidaan jakaa kahteen kategoriaan:

Mallipohjaiset: tässä lähestymistavassa agentti oppii tai sillä on käytössään ympäristön malli, jonka avulla se voi simuloida tulevia tiloja ja palkkioita ennen toiminnan suorittamista. Tämä mahdollistaa agentin suunnittelun ja paremmin perusteltujen päätösten tekemisen;
Mallittomat: tässä lähestymistavassa agentilla ei ole suoraa mallia ympäristöstä. Se oppii ainoastaan vuorovaikutuksen kautta ympäristön kanssa, luottaen kokeiluun ja erehdykseen parhaiden toimintojen löytämiseksi.

Käytännössä eksplisiittisiä malleja sisältävät ympäristöt ovat harvinaisia, mikä vaikeuttaa agenttien mallipohjaisten strategioiden hyödyntämistä. Tämän seurauksena mallittomat lähestymistavat ovat yleistyneet ja niitä on tutkittu laajasti vahvistusoppimisen tutkimuksessa ja sovelluksissa.

Politiikka

Määritelmä

Politiikka $\pi$ on strategia, jota agentti noudattaa valitakseen toimintonsa ympäristön nykytilan perusteella.

On olemassa kaksi tyyppiä politiikkoja:

Deterministinen politiikka: agentti valitsee aina saman toiminnon tietyssä tilassa;
Stokastinen politiikka: agentti valitsee toimintoja todennäköisyysjakaumien perusteella.

Oppimisprosessin aikana agentin tavoitteena on löytää optimaalinen politiikka. Optimaalinen politiikka on sellainen, joka maksimoi odotetun tuoton, ohjaten agenttia tekemään parhaat mahdolliset päätökset missä tahansa annetussa tilassa.

Arvofunktiot

Arvofunktiot ovat keskeisiä, kun tarkastellaan, miten agentti arvioi tietyn tilan tai tila-toimintaparin potentiaalia. Niitä käytetään arvioimaan tulevia odotettuja palkkioita, mikä auttaa agenttia tekemään perusteltuja päätöksiä.

Tilaarvofunktio

Määritelmä

Tilaarvofunktio $V$ (tai $v$ ) on funktio, joka antaa odotetun tuoton ollessa tietyssä tilassa ja noudattaen tiettyä politiikkaa. Se auttaa arvioimaan tilojen toivottavuutta.

Tilaarvon voi esittää matemaattisesti seuraavasti:

\def\E{\operatorname{\mathbb{E}}} v_\pi(s) = \E_\pi[G_t | S_t = s] = \E_\pi\Biggl[\sum_{k=0}^\infty \gamma^k R_{t+k+1} | S_t = s\Biggr]

Tilanne-toimintoarvofunktio

Määritelmä

Tilanne-toimintoarvofunktio $Q$ (tai $q$ ) on funktio, joka antaa odotetun tuoton, kun suoritetaan tietty toiminto tietyssä tilassa ja noudatetaan tämän jälkeen tiettyä politiikkaa. Se auttaa arvioimaan toimintojen houkuttelevuutta eri tiloissa.

Tilanne-toimintoarvofunktiota kutsutaan usein myös toimintoarvofunktioksi.

Toiminnon arvo voidaan esittää matemaattisesti seuraavasti:

\def\E{\operatorname{\mathbb{E}}} q_\pi(s, a) = \E_\pi[G_t | S_t = s, A_t = a] = \E_\pi\Biggl[\sum_{k=0}^\infty \gamma^k R_{t+k+1} | S_t = s, A_t = a\Biggr]

Mallin, politiikan ja arvofunktioiden välinen suhde

Käsitteet malli, politiikka ja arvofunktiot ovat tiiviisti yhteydessä toisiinsa, muodostaen kattavan viitekehyksen RL-algoritmien luokittelulle. Tämä viitekehys määritellään kahden pääakselin avulla:

Oppimisen kohde: tämä akseli kuvaa RL-algoritmien kirjoa niiden riippuvuuden perusteella arvofunktioihin, politiikkafunktioihin tai molempiin;
Mallin käyttö: tämä akseli erottaa algoritmit sen perusteella, hyödyntävätkö ne ympäristön mallia vai oppivatko ne pelkästään vuorovaikutuksen kautta.

Yhdistämällä nämä ulottuvuudet RL-algoritmit voidaan luokitella erillisiin kategorioihin, joilla jokaisella on omat ominaisuutensa ja ihanteelliset käyttötapauksensa. Näiden suhteiden ymmärtäminen auttaa valitsemaan sopivan algoritmin tiettyihin tehtäviin, varmistaen tehokkaan oppimisen ja päätöksenteon.

Oliko kaikki selvää?

Kiitos palautteestasi!

Osio 1. Luku 5

Kysy tekoälyä

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

Pyyhkäise näyttääksesi valikon

Malli

Määritelmä

Malli on ympäristön esitys, joka määrittelee tilojen välisten siirtymätodennäköisyydet ja odotetut palkkiot suoritetuista toiminnoista.

Vahvistusoppimisalgoritmit voidaan jakaa kahteen kategoriaan:

Mallipohjaiset: tässä lähestymistavassa agentti oppii tai sillä on käytössään ympäristön malli, jonka avulla se voi simuloida tulevia tiloja ja palkkioita ennen toiminnan suorittamista. Tämä mahdollistaa agentin suunnittelun ja paremmin perusteltujen päätösten tekemisen;
Mallittomat: tässä lähestymistavassa agentilla ei ole suoraa mallia ympäristöstä. Se oppii ainoastaan vuorovaikutuksen kautta ympäristön kanssa, luottaen kokeiluun ja erehdykseen parhaiden toimintojen löytämiseksi.

Politiikka

Määritelmä

Politiikka $\pi$ on strategia, jota agentti noudattaa valitakseen toimintonsa ympäristön nykytilan perusteella.

On olemassa kaksi tyyppiä politiikkoja:

Deterministinen politiikka: agentti valitsee aina saman toiminnon tietyssä tilassa;
Stokastinen politiikka: agentti valitsee toimintoja todennäköisyysjakaumien perusteella.

Arvofunktiot

Tilaarvofunktio

Määritelmä

Tilaarvofunktio $V$ (tai $v$ ) on funktio, joka antaa odotetun tuoton ollessa tietyssä tilassa ja noudattaen tiettyä politiikkaa. Se auttaa arvioimaan tilojen toivottavuutta.

Tilaarvon voi esittää matemaattisesti seuraavasti:

\def\E{\operatorname{\mathbb{E}}} v_\pi(s) = \E_\pi[G_t | S_t = s] = \E_\pi\Biggl[\sum_{k=0}^\infty \gamma^k R_{t+k+1} | S_t = s\Biggr]

Tilanne-toimintoarvofunktio

Määritelmä

Tilanne-toimintoarvofunktiota kutsutaan usein myös toimintoarvofunktioksi.

Toiminnon arvo voidaan esittää matemaattisesti seuraavasti:

\def\E{\operatorname{\mathbb{E}}} q_\pi(s, a) = \E_\pi[G_t | S_t = s, A_t = a] = \E_\pi\Biggl[\sum_{k=0}^\infty \gamma^k R_{t+k+1} | S_t = s, A_t = a\Biggr]

Mallin, politiikan ja arvofunktioiden välinen suhde

Oppimisen kohde: tämä akseli kuvaa RL-algoritmien kirjoa niiden riippuvuuden perusteella arvofunktioihin, politiikkafunktioihin tai molempiin;
Mallin käyttö: tämä akseli erottaa algoritmit sen perusteella, hyödyntävätkö ne ympäristön mallia vai oppivatko ne pelkästään vuorovaikutuksen kautta.

Oliko kaikki selvää?

Kiitos palautteestasi!

Osio 1. Luku 5