Summary  
This chapter covers the exploration vs exploitation trade-off in algorithmic decision-making, detailing how an agent balances gathering new information (exploration) against leveraging known options for immediate reward (exploitation).

General domain of usage  
Online recommendations

**Tutkimisen ja hyödyntämisen** ongelma on keskeinen haaste vahvistusoppimisessa. Se syntyy, kun agentin täytyy valita kahden kilpailevan strategian välillä:

1. **Tutkiminen**: uusien vaihtoehtojen kokeileminen lisätiedon saamiseksi, vaikka välitön palkkio olisi epävarma;
2. **Hyödyntäminen**: parhaan tunnetun vaihtoehdon valitseminen aiempien kokemusten perusteella välittömien palkkioiden maksimoimiseksi.

Tämä ongelma ilmenee tilanteissa, joissa päätökset vaikuttavat tuleviin lopputuloksiin. Jos agentti ainoastaan **hyödyntää** jo tuntemaansa, se voi menettää parempia mahdollisuuksia. Toisaalta liiallinen **etsintä** voi johtaa tarpeettomiin riskeihin tai resurssien tuhlaukseen ilman takeita paremmista tuloksista.

- **Verkkosuositukset**: suoratoistopalvelu voi suositella suosittua elokuvaa **(hyödyntäminen)** tai ehdottaa vähemmän tunnettua elokuvaa oppiakseen käyttäjän mieltymyksistä **(etsintä)**;
- **Tuotekehitys**: yritys voi keskittyä parantamaan suosittua tuotetta, joka on ollut jatkuvasti menestyksekäs markkinoilla **(hyödyntäminen)** tai investoida täysin uusien tuotteiden tai ominaisuuksien kehittämiseen **(etsintä)**;
- **Sijoitusstrategiat**: osakekauppias joutuu päättämään, sijoittaako hyvin menestyviin osakkeisiin **(hyödyntäminen)** vai kokeileeko uusia sijoituksia, jotka saattavat tuottaa suurempaa tuottoa **(etsintä)**.

Haasteena on tasapainottaa nämä kaksi strategiaa tehokkaasti. Liiallinen **hyödyntäminen** voi johtaa pitkällä aikavälillä epäoptimaalisiin tuloksiin, kun taas liiallinen **etsintä** voi olla tehotonta ja kallista. Tavoitteena on löytää optimaalinen tasapaino, joka maksimoi pitkän aikavälin hyödyt ja minimoi riskit.

Vaikka **etsinnän** ja **hyödyntämisen** tasapainottamiseen on olemassa useita menetelmiä, jokainen ongelma voi vaatia **räätälöidyn lähestymistavan**, jossa huomioidaan esimerkiksi palkkiorakenne, ympäristön muutosten nopeus ja epävarmuuden taso eri toimintojen seurauksista.


Huomio

Koulutat vahvistusoppimisen agenttia kulkemaan sokkelon läpi. Pitkän ajan jälkeen agentti oppii poistumaan sokkelosta luotettavasti, mutta sen käyttämä reitti ei ole optimaalinen. Mitä tekisit?

Vahvistusoppiminen (RL) on koneoppimisen tehokas osa-alue, joka keskittyy älykkäiden agenttien kouluttamiseen vuorovaikutuksessa ympäristönsä kanssa. Tällä kurssilla opit, kuinka agentit löytävät vähitellen tehokkaita toimintatapoja kokeilun ja erehdyksen kautta. Aloitat keskeisistä käsitteistä, kuten Markovin päätösprosesseista ja moniaseisista bandiiteista, ja etenet dynaamiseen ohjelmointiin, Monte Carlo -menetelmiin ja ajallisen eron oppimiseen.

Opi, kuinka agentteja koulutetaan tekemään optimaalisia päätöksiä kokeilun ja erehdyksen kautta. Tutustu vahvistusoppimisen teorian perusteisiin. Saat käytännön kokemusta Gymnasium-ympäristön asettamisesta ja suorittamisesta.

Hallitse tutkimisen ja hyödyntämisen välinen tasapaino moniaseisen bandiittiongelman avulla. Toteuta toimenpidearvon estimointi, ε-ahne, yläluottamusraja ja gradienttibandiitti -menetelmät. Arvioi algoritmien suorituskykyä simuloiduissa palkkioiden maksimointitehtävissä.

Hallitse dynaaminen ohjelmointi mallipohjaisessa RL:ssä. Opi, kuinka Bellmanin yhtälöitä voidaan käyttää politiikkojen arviointiin ja parantamiseen. Toteuta politiikka- ja arvoiterointialgoritmit. Tutustu yleistettyyn politiikkaiterointiin mallittomien menetelmien teoreettisena perustana.

Monte Carlo -menetelmien hallinta mallittomassa RL:ssä. Arvofunktioiden estimointi ja optimaalisten politiikkojen johtaminen täydellisistä episodeista. On-policy- ja off-policy-Monte Carlo -ohjausalgoritmien toteutus. Tutkimusstrategioiden löytäminen mallittoman oppimisen optimointiin.

Aikaisen eron oppimisen hallinta mallittomassa RL:ssä. Arvofunktioiden estimointi osittaisista episodeista TD(0)-päivityksiä käyttäen. On-policy SARSA- ja off-policy Q-Learning -algoritmien toteutus. Monte Carlo -menetelmien ja TD-oppimisen yhdistäminen n-askeleen TD:ssä ja TD(λ):ssa.

Etsintä vs Hyödyntäminen

Tasapainottaminen

Reaalielämän esimerkkejä

Haaste

Etsintä vs Hyödyntäminen

Tasapainottaminen

Reaali­elämän esimerkkejä

Haaste

Reaalielämän esimerkkejä