Pyyhkäise näyttääksesi valikon

Nyt osaat rakentaa mallin, käyttää putkistoja ja säätää hyperparametreja. Opit myös kaksi arviointimenetelmää: train-test-jako ja ristiinvalidointi. Seuraava askel on yhdistää arviointi ja säätö käyttämällä GridSearchCV- tai RandomizedSearchCV-menetelmää.

Huomio

Koska aineistomme on hyvin pieni, käytämme GridSearchCV-menetelmää, mutta kaikki alla mainittu pätee myös RandomizedSearchCV-menetelmään.

Koska ristiinvalidointi on vakaampi kuin yksittäinen train-test-jako, tavoitteena on saavuttaa korkein ristiinvalidointipisteet. GridSearchCV etsii hyperparametreja ja löytää ne, jotka maksimoivat tämän pisteen. Paras tulos tallennetaan kenttään .best_score_.

Huomio

Yhdelle tietoaineistolle parhaiten toimivat hyperparametrit eivät välttämättä yleisty uuden datan saapuessa. Siksi .best_score_ voi olla korkeampi kuin mallin suorituskyky täysin näkemättömällä datalla.

Yleinen työnkulku: jaa data koulutus- ja testijoukkoihin; suorita ristiinvalidointi koulutusjoukolla mallin virittämiseksi; arvioi sitten optimoitu malli testijoukolla todellisen suorituskyvyn mittaamiseksi.

Yhteenveto:

Esikäsittele data;
Jaa koulutus- ja testijoukkoihin;
Käytä ristiinvalidointia koulutusjoukossa parhaan kokoonpanon löytämiseksi;
Arvioi testijoukolla.

Opiskele lisää

Kolmas vaihe sisältää yleensä useiden algoritmien testaamisen ja niiden hyperparametrien säätämisen parhaan vaihtoehdon löytämiseksi. Tämän kurssin yksinkertaistamiseksi käytettiin vain yhtä algoritmia.

Ristiinvalidointi ei ole aina paras vaihtoehto. Suurilla aineistoilla CV-pisteiden laskeminen on kallista, kun taas koulutus-testijako on vakaampi suuren testijoukon ansiosta.

Suuria tietoaineistoja jaetaan usein opetus-, validointi- ja testi-aineistoihin. Hyperparametrit valitaan validointiaineiston suorituksen perusteella. Lopuksi valittu malli arvioidaan testiaineistolla sen yleistettävyyden varmistamiseksi.

Penguins dataset on pieni, vain 342 havaintoa. Tämän rajallisen koon vuoksi seuraavassa luvussa arvioinnissa käytetään ristiinvalidointipistemäärää.

Oliko kaikki selvää?

Kiitos palautteestasi!

Osio 4. Luku 9

Kysy tekoälyä

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

Mallinnuksen Yhteenveto

Huomio

Koska aineistomme on hyvin pieni, käytämme GridSearchCV-menetelmää, mutta kaikki alla mainittu pätee myös RandomizedSearchCV-menetelmään.

Huomio

Yhteenveto:

Esikäsittele data;
Jaa koulutus- ja testijoukkoihin;
Käytä ristiinvalidointia koulutusjoukossa parhaan kokoonpanon löytämiseksi;
Arvioi testijoukolla.

Opiskele lisää

Ristiinvalidointi ei ole aina paras vaihtoehto. Suurilla aineistoilla CV-pisteiden laskeminen on kallista, kun taas koulutus-testijako on vakaampi suuren testijoukon ansiosta.

Penguins dataset on pieni, vain 342 havaintoa. Tämän rajallisen koon vuoksi seuraavassa luvussa arvioinnissa käytetään ristiinvalidointipistemäärää.

Oliko kaikki selvää?

Kiitos palautteestasi!

Osio 4. Luku 9