Mallinnuksen Yhteenveto
Nyt osaat rakentaa mallin, käyttää putkistoja ja säätää hyperparametreja. Opit myös kaksi arviointimenetelmää: train-test-jako ja ristiinvalidointi.
Seuraava vaihe on yhdistää arviointi ja säätö käyttämällä GridSearchCV- tai RandomizedSearchCV-menetelmää.
Koska aineistomme on hyvin pieni, käytämme GridSearchCV:tä, mutta kaikki alla mainittu pätee myös RandomizedSearchCV:hen.
Koska ristiinvalidointi on vakaampi kuin yksittäinen train-test-jako, tavoitteena on saavuttaa korkein ristiinvalidointipisteet.
GridSearchCV etsii hyperparametreja ja löytää ne, jotka maksimoivat tämän pisteen. Paras tulos tallennetaan kenttään .best_score_.
Yhdelle tietoaineistolle parhaiten toimivat hyperparametrit eivät välttämättä yleisty uuden datan saapuessa.
Tämän vuoksi .best_score_ voi olla korkeampi kuin mallin suorituskyky täysin näkemättömällä datalla.
Yleinen työnkulku: jaa aineisto koulutus- ja testijoukkoihin; suorita ristiinvalidointi koulutusjoukolla mallin virittämiseksi; arvioi sitten optimoitu malli testijoukolla todellisen suorituskyvyn mittaamiseksi.
Yhteenveto:
- Esikäsittele data;
- Jaa koulutus- ja testijoukkoihin;
- Käytä ristiinvalidointia koulutusjoukossa parhaan kokoonpanon löytämiseksi;
- Arvioi testijoukolla.
Kolmas vaihe sisältää yleensä useiden algoritmien testaamisen ja niiden hyperparametrien säätämisen parhaan vaihtoehdon tunnistamiseksi. Yksinkertaisuuden vuoksi tässä kurssissa käytettiin vain yhtä algoritmia.
Ristiinvalidointi ei ole aina paras vaihtoehto. Suurilla aineistoilla CV-tulosten laskeminen on kallista, kun taas opetus- ja testijoukon jako on vakaampi suuren testijoukon ansiosta.
Suuret aineistot jaetaan usein opetus, validointi ja testi -aineistoihin. Hyperparametrit valitaan validointiaineiston perusteella. Lopuksi valittu malli arvioidaan testiaineistolla sen yleistettävyyden varmistamiseksi.
Penguins-aineisto on pieni, sisältäen vain 342 havaintoa. Tämän rajoitetun koon vuoksi seuraavassa luvussa arviointiin käytetään ristiinvalidointipistettä.
Kiitos palautteestasi!
Kysy tekoälyä
Kysy tekoälyä
Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme
Awesome!
Completion rate improved to 3.13
Mallinnuksen Yhteenveto
Pyyhkäise näyttääksesi valikon
Nyt osaat rakentaa mallin, käyttää putkistoja ja säätää hyperparametreja. Opit myös kaksi arviointimenetelmää: train-test-jako ja ristiinvalidointi.
Seuraava vaihe on yhdistää arviointi ja säätö käyttämällä GridSearchCV- tai RandomizedSearchCV-menetelmää.
Koska aineistomme on hyvin pieni, käytämme GridSearchCV:tä, mutta kaikki alla mainittu pätee myös RandomizedSearchCV:hen.
Koska ristiinvalidointi on vakaampi kuin yksittäinen train-test-jako, tavoitteena on saavuttaa korkein ristiinvalidointipisteet.
GridSearchCV etsii hyperparametreja ja löytää ne, jotka maksimoivat tämän pisteen. Paras tulos tallennetaan kenttään .best_score_.
Yhdelle tietoaineistolle parhaiten toimivat hyperparametrit eivät välttämättä yleisty uuden datan saapuessa.
Tämän vuoksi .best_score_ voi olla korkeampi kuin mallin suorituskyky täysin näkemättömällä datalla.
Yleinen työnkulku: jaa aineisto koulutus- ja testijoukkoihin; suorita ristiinvalidointi koulutusjoukolla mallin virittämiseksi; arvioi sitten optimoitu malli testijoukolla todellisen suorituskyvyn mittaamiseksi.
Yhteenveto:
- Esikäsittele data;
- Jaa koulutus- ja testijoukkoihin;
- Käytä ristiinvalidointia koulutusjoukossa parhaan kokoonpanon löytämiseksi;
- Arvioi testijoukolla.
Kolmas vaihe sisältää yleensä useiden algoritmien testaamisen ja niiden hyperparametrien säätämisen parhaan vaihtoehdon tunnistamiseksi. Yksinkertaisuuden vuoksi tässä kurssissa käytettiin vain yhtä algoritmia.
Ristiinvalidointi ei ole aina paras vaihtoehto. Suurilla aineistoilla CV-tulosten laskeminen on kallista, kun taas opetus- ja testijoukon jako on vakaampi suuren testijoukon ansiosta.
Suuret aineistot jaetaan usein opetus, validointi ja testi -aineistoihin. Hyperparametrit valitaan validointiaineiston perusteella. Lopuksi valittu malli arvioidaan testiaineistolla sen yleistettävyyden varmistamiseksi.
Penguins-aineisto on pieni, sisältäen vain 342 havaintoa. Tämän rajoitetun koon vuoksi seuraavassa luvussa arviointiin käytetään ristiinvalidointipistettä.
Kiitos palautteestasi!