Pyyhkäise näyttääksesi valikon

Parhaan hyödyn saamiseksi tästä kurssista tulisi hallita matematiikan perusteet (erityisesti todennäköisyyslaskenta). Myös koneoppimisen perusteiden ja NumPyn tuntemus on hyödyllistä.

Edellytykset

Määritelmä

Vahvistusoppiminen (RL) on koneoppimisen paradigma, joka keskittyy erityisesti päätöksenteko- ja ohjaustehtäviin, joissa agentti oppii optimaalisia strategioita vuorovaikuttamalla ympäristön kanssa ja maksimoimalla kumulatiiviset palkkiot.

Vahvistusoppiminen perustuu vahvasti behavioraaliseen psykologiaan, erityisesti siihen, miten ihmiset ja eläimet oppivat kokemusten kautta. Samoin kuin koira oppii istumaan saadessaan makupaloja oikeasta käytöksestä, RL-agentti oppii saamalla palkkioita toiminnoistaan.

Agentti ja ympäristö

Määritelmä

Agentti on RL-järjestelmän päätöksentekijä. Se havainnoi ympäristöä, valitsee toimintoja ja oppia palautteesta parantaakseen tulevaa suoritustaan.

Määritelmä

Ympäristö edustaa kaikkea, minkä kanssa agentti on vuorovaikutuksessa. Se reagoi agentin toimiin ja antaa palautetta uusien tilojen ja palkkioiden muodossa.

Agentti on ainoastaan vastuussa päätöksenteosta — toimintojen valinnasta havaintojensa perusteella ja oppimisesta seurauksista — kun taas ympäristö määrittelee vuorovaikutuksen säännöt.

RL:n sovellukset

Vahvistusoppimista käytetään laajasti eri aloilla, joissa päätöksenteko epävarmuuden vallitessa on keskeistä. Tärkeimpiä sovelluksia ovat:

Robotiikka: RL auttaa robotteja oppimaan monimutkaisia tehtäviä, kuten esineiden tarttumista, liikkumista ja teollisuusautomaatiota;
Peliäly: RL mahdollistaa tekoälyagenttien huipputason suoritukset peleissä kuten shakki, Go ja Dota 2;
Rahoitus: RL optimoi kaupankäyntistrategioita, salkunhallintaa ja riskien arviointia;
Terveysala: RL tukee yksilöllisten hoitosuunnitelmien laatimista, robottikirurgiaa ja lääkeaineiden kehitystä;
Autonomiset järjestelmät: RL mahdollistaa itseajavat autot, droonit ja mukautuvat liikenteenohjausjärjestelmät;
Suositusjärjestelmät: RL parantaa henkilökohtaisten sisältösuositusten laatua suoratoistopalveluissa ja verkkokaupassa.

Oliko kaikki selvää?

Kiitos palautteestasi!

Osio 1. Luku 1

Kysy tekoälyä

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

Mitä on RL?

Parhaan hyödyn saamiseksi tästä kurssista tulisi hallita matematiikan perusteet (erityisesti todennäköisyyslaskenta). Myös koneoppimisen perusteiden ja NumPyn tuntemus on hyödyllistä.

Edellytykset

Määritelmä

Agentti ja ympäristö

Määritelmä

Agentti on RL-järjestelmän päätöksentekijä. Se havainnoi ympäristöä, valitsee toimintoja ja oppia palautteesta parantaakseen tulevaa suoritustaan.

Määritelmä

Ympäristö edustaa kaikkea, minkä kanssa agentti on vuorovaikutuksessa. Se reagoi agentin toimiin ja antaa palautetta uusien tilojen ja palkkioiden muodossa.

RL:n sovellukset

Vahvistusoppimista käytetään laajasti eri aloilla, joissa päätöksenteko epävarmuuden vallitessa on keskeistä. Tärkeimpiä sovelluksia ovat:

Robotiikka: RL auttaa robotteja oppimaan monimutkaisia tehtäviä, kuten esineiden tarttumista, liikkumista ja teollisuusautomaatiota;
Peliäly: RL mahdollistaa tekoälyagenttien huipputason suoritukset peleissä kuten shakki, Go ja Dota 2;
Rahoitus: RL optimoi kaupankäyntistrategioita, salkunhallintaa ja riskien arviointia;
Terveysala: RL tukee yksilöllisten hoitosuunnitelmien laatimista, robottikirurgiaa ja lääkeaineiden kehitystä;
Autonomiset järjestelmät: RL mahdollistaa itseajavat autot, droonit ja mukautuvat liikenteenohjausjärjestelmät;
Suositusjärjestelmät: RL parantaa henkilökohtaisten sisältösuositusten laatua suoratoistopalveluissa ja verkkokaupassa.

Oliko kaikki selvää?

Kiitos palautteestasi!

Osio 1. Luku 1