Kurssisisältö
Johdatus Vahvistusoppimiseen
Johdatus Vahvistusoppimiseen
RL Verrattuna Muihin Oppimisparadigmoihin
Koneoppiminen koostuu kolmesta pääasiallisesta oppimisparadigmasta, joista kukin soveltuu erilaisiin ongelmatyyppeihin. Vahvistusoppiminen on yksi niistä, yhdessä ohjatun oppimisen ja ohjaamattoman oppimisen kanssa.
Vahvistusoppimisen keskeiset piirteet
- Ei tarvetta merkitylle datalle: Vahvistusoppiminen ei vaadi ennalta määriteltyjä syöte-tulos -pareja, vaan oppii kokemuksen kautta;
- Kokeilu ja erehdys -oppiminen: agentti tutkii erilaisia toimintoja ja kehittää strategiaansa palautteen perusteella;
- Jatkuva päätöksenteko: Vahvistusoppiminen on suunniteltu tehtäviin, joissa nykyiset päätökset vaikuttavat tuleviin lopputuloksiin;
- Palkkion maksimointi: oppimisen tavoitteena on optimoida pitkän aikavälin palkkiot lyhyen aikavälin oikeellisuuden sijaan.
Kolmen koneoppimisen paradigman vertailu
Miksi vahvistusoppiminen on erilaista
Vahvistusoppimisessa on joitakin yhtäläisyyksiä muihin oppimisparadigmoihin, mutta se erottuu ainutlaatuisen lähestymistapansa ansiosta.
Ohjattu oppiminen
Ohjatussa oppimisessa tietoaineisto tarjoaa selkeät ohjeet siitä, mikä on oikea vastaus. Vahvistusoppimisessa ei ole selkeää ohjausta—agentin täytyy itse oppia parhaat toiminnot kokemuksen kautta.
Ohjaamaton oppiminen
Ohjaamaton oppiminen etsii piileviä rakenteita datasta ilman erityistä tavoitetta. Vahvistusoppiminen oppii vuorovaikutuksessa ympäristön kanssa saavuttaakseen selkeän tavoitteen (esim. pelin voittaminen).
Kiitos palautteestasi!