Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Oppiskele Mallinnuksen Yhteenveto | Mallintaminen
Quizzes & Challenges
Quizzes
Challenges
/
Johdatus koneoppimiseen Pythonilla

bookMallinnuksen Yhteenveto

Nyt osaat rakentaa mallin, käyttää putkistoja ja säätää hyperparametreja. Opit myös kaksi arviointimenetelmää: train-test-jako ja ristiinvalidointi. Seuraava vaihe on yhdistää arviointi ja säätö käyttämällä GridSearchCV- tai RandomizedSearchCV-menetelmää.

Note
Huomio

Koska aineistomme on hyvin pieni, käytämme GridSearchCV:tä, mutta kaikki alla mainittu pätee myös RandomizedSearchCV:hen.

Koska ristiinvalidointi on vakaampi kuin yksittäinen train-test-jako, tavoitteena on saavuttaa korkein ristiinvalidointipisteet. GridSearchCV etsii hyperparametreja ja löytää ne, jotka maksimoivat tämän pisteen. Paras tulos tallennetaan kenttään .best_score_.

Note
Huomio

Yhdelle tietoaineistolle parhaiten toimivat hyperparametrit eivät välttämättä yleisty uuden datan saapuessa. Tämän vuoksi .best_score_ voi olla korkeampi kuin mallin suorituskyky täysin näkemättömällä datalla.

Yleinen työnkulku: jaa aineisto koulutus- ja testijoukkoihin; suorita ristiinvalidointi koulutusjoukolla mallin virittämiseksi; arvioi sitten optimoitu malli testijoukolla todellisen suorituskyvyn mittaamiseksi.

Yhteenveto:

  1. Esikäsittele data;
  2. Jaa koulutus- ja testijoukkoihin;
  3. Käytä ristiinvalidointia koulutusjoukossa parhaan kokoonpanon löytämiseksi;
  4. Arvioi testijoukolla.
Note
Lisätietoa

Kolmas vaihe sisältää yleensä useiden algoritmien testaamisen ja niiden hyperparametrien säätämisen parhaan vaihtoehdon tunnistamiseksi. Yksinkertaisuuden vuoksi tässä kurssissa käytettiin vain yhtä algoritmia.

Ristiinvalidointi ei ole aina paras vaihtoehto. Suurilla aineistoilla CV-tulosten laskeminen on kallista, kun taas opetus- ja testijoukon jako on vakaampi suuren testijoukon ansiosta.

Suuret aineistot jaetaan usein opetus, validointi ja testi -aineistoihin. Hyperparametrit valitaan validointiaineiston perusteella. Lopuksi valittu malli arvioidaan testiaineistolla sen yleistettävyyden varmistamiseksi.

Penguins-aineisto on pieni, sisältäen vain 342 havaintoa. Tämän rajoitetun koon vuoksi seuraavassa luvussa arviointiin käytetään ristiinvalidointipistettä.

question mark

Miksi ristiinvalidointi on erityisen arvokasta hyperparametrien virityksessä pienissä aineistoissa, toisin kuin suuremmissa aineistoissa, joissa voidaan suosia train-test-jakoa?

Select the correct answer

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 4. Luku 9

Kysy tekoälyä

expand

Kysy tekoälyä

ChatGPT

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

bookMallinnuksen Yhteenveto

Pyyhkäise näyttääksesi valikon

Nyt osaat rakentaa mallin, käyttää putkistoja ja säätää hyperparametreja. Opit myös kaksi arviointimenetelmää: train-test-jako ja ristiinvalidointi. Seuraava vaihe on yhdistää arviointi ja säätö käyttämällä GridSearchCV- tai RandomizedSearchCV-menetelmää.

Note
Huomio

Koska aineistomme on hyvin pieni, käytämme GridSearchCV:tä, mutta kaikki alla mainittu pätee myös RandomizedSearchCV:hen.

Koska ristiinvalidointi on vakaampi kuin yksittäinen train-test-jako, tavoitteena on saavuttaa korkein ristiinvalidointipisteet. GridSearchCV etsii hyperparametreja ja löytää ne, jotka maksimoivat tämän pisteen. Paras tulos tallennetaan kenttään .best_score_.

Note
Huomio

Yhdelle tietoaineistolle parhaiten toimivat hyperparametrit eivät välttämättä yleisty uuden datan saapuessa. Tämän vuoksi .best_score_ voi olla korkeampi kuin mallin suorituskyky täysin näkemättömällä datalla.

Yleinen työnkulku: jaa aineisto koulutus- ja testijoukkoihin; suorita ristiinvalidointi koulutusjoukolla mallin virittämiseksi; arvioi sitten optimoitu malli testijoukolla todellisen suorituskyvyn mittaamiseksi.

Yhteenveto:

  1. Esikäsittele data;
  2. Jaa koulutus- ja testijoukkoihin;
  3. Käytä ristiinvalidointia koulutusjoukossa parhaan kokoonpanon löytämiseksi;
  4. Arvioi testijoukolla.
Note
Lisätietoa

Kolmas vaihe sisältää yleensä useiden algoritmien testaamisen ja niiden hyperparametrien säätämisen parhaan vaihtoehdon tunnistamiseksi. Yksinkertaisuuden vuoksi tässä kurssissa käytettiin vain yhtä algoritmia.

Ristiinvalidointi ei ole aina paras vaihtoehto. Suurilla aineistoilla CV-tulosten laskeminen on kallista, kun taas opetus- ja testijoukon jako on vakaampi suuren testijoukon ansiosta.

Suuret aineistot jaetaan usein opetus, validointi ja testi -aineistoihin. Hyperparametrit valitaan validointiaineiston perusteella. Lopuksi valittu malli arvioidaan testiaineistolla sen yleistettävyyden varmistamiseksi.

Penguins-aineisto on pieni, sisältäen vain 342 havaintoa. Tämän rajoitetun koon vuoksi seuraavassa luvussa arviointiin käytetään ristiinvalidointipistettä.

question mark

Miksi ristiinvalidointi on erityisen arvokasta hyperparametrien virityksessä pienissä aineistoissa, toisin kuin suuremmissa aineistoissa, joissa voidaan suosia train-test-jakoa?

Select the correct answer

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 4. Luku 9
some-alt