Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Oppiskele Mallinnuksen Yhteenveto | Mallintaminen
Koneoppimisen Perusteet Scikit-learnilla

bookMallinnuksen Yhteenveto

Olet nyt oppinut rakentamaan mallin, integroimaan sen putkistoon ja säätämään hyperparametreja. Kaksi arviointimenetelmää on myös käsitelty: train-test-jako ja ristiinvalidointi.

Seuraava vaihe on yhdistää mallin arviointi ja hyperparametrien säätö käyttäen GridSearchCV- tai RandomizedSearchCV-menetelmää.

Note
Huomio

Koska aineistomme on hyvin pieni, käytämme GridSearchCV:tä, mutta kaikki alla mainittu pätee myös RandomizedSearchCV:hen.

Tavoitteena on saavuttaa korkein ristiinvalidointipistemäärä aineistolla, sillä ristiinvalidointi on vakaampi ja vähemmän riippuvainen datan jakotavasta kuin train-test-lähestymistapa.

GridSearchCV on suunniteltu erityisesti tähän tarkoitukseen: se tunnistaa hyperparametrit, joilla saavutetaan paras ristiinvalidointipistemäärä, ja tuottaa hienosäädetyn mallin, joka toimii optimaalisesti koulutusdatalla.

.best_score_-attribuutti tallentaa haun aikana löytyneen korkeimman ristiinvalidointipistemäärän.

Note
Huomio

Parhaat hyperparametrit yhdelle tietylle tietoaineistolle eivät välttämättä ole yleisesti parhaat. Jos uutta dataa lisätään, optimaaliset hyperparametrit voivat muuttua.

Tämän seurauksena saavutettu .best_score_ voi olla korkeampi kuin suorituskyky täysin uudella datalla, sillä hyperparametrit eivät välttämättä yleisty yhtä hyvin koulutusdatan ulkopuolelle.

Tyypillisesti tietoaineisto jaetaan ensin koulutus- ja testijoukkoon. Ristiinvalidointi suoritetaan sitten koulutusjoukossa mallin hienosäätöä ja parhaan kokoonpanon löytämistä varten. Lopuksi optimoitu malli arvioidaan testijoukossa, joka sisältää täysin näkemätöntä dataa, jotta voidaan arvioida sen todellista suorituskykyä.

Yhteenvetona koko työnkulku koostuu seuraavista vaiheista:

  1. Datan esikäsittely;
  2. Tietoaineiston jakaminen koulutus- ja testijoukkoon;
  3. Ristiinvalidoinnin käyttäminen koulutusjoukossa parhaiten suoriutuvan mallin löytämiseksi;
  4. Mallin arviointi testijoukossa.
Note
Lisätietoa

Kolmas vaihe sisältää yleensä useiden algoritmien testaamisen ja niiden hyperparametrien säätämisen parhaan vaihtoehdon löytämiseksi. Yksinkertaisuuden vuoksi tässä kurssissa käytettiin vain yhtä algoritmia.

Ennen kuin siirrytään loppuhaasteeseen, on tärkeää huomata, että ristiinvalidointi ei ole ainoa tapa mallien hienosäätöön. Kun tietoaineistot kasvavat suuremmiksi, ristiinvalidointipisteiden laskeminen vie enemmän aikaa, ja tavallinen train-test-jako tarjoaa enemmän vakautta testijoukon suuremman koon ansiosta.

Tämän vuoksi suuret tietoaineistot jaetaan usein kolmeen osaan: opetusjoukkoon, validointijoukkoon ja testijoukkoon. Malli opetetaan opetusjoukolla ja arvioidaan validointijoukolla, jotta voidaan valita parhaiten suoriutuva malli tai hyperparametrit.

Tässä valinnassa käytetään validointijoukon pisteitä ristiinvalidointipisteiden sijaan. Lopuksi valittu malli arvioidaan testijoukolla, joka koostuu täysin näkemättömästä datasta, jotta voidaan varmistaa sen suorituskyky.

Penguins-aineisto on pieni, sisältäen vain 342 havaintoa. Tämän rajallisen koon vuoksi seuraavassa luvussa arviointiin käytetään ristiinvalidointipistemäärää.

question mark

Miksi ristiinvalidointi on erityisen arvokasta hyperparametrien säätämisessä pienissä aineistoissa, toisin kuin suuremmissa aineistoissa, joissa voidaan suosia opetus-testaus-jakoa?

Select the correct answer

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 4. Luku 9

Kysy tekoälyä

expand

Kysy tekoälyä

ChatGPT

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

Suggested prompts:

What is the difference between cross-validation and the train-test split?

How does GridSearchCV help in hyperparameter tuning?

Why is a validation set used for large datasets?

Awesome!

Completion rate improved to 3.13

bookMallinnuksen Yhteenveto

Pyyhkäise näyttääksesi valikon

Olet nyt oppinut rakentamaan mallin, integroimaan sen putkistoon ja säätämään hyperparametreja. Kaksi arviointimenetelmää on myös käsitelty: train-test-jako ja ristiinvalidointi.

Seuraava vaihe on yhdistää mallin arviointi ja hyperparametrien säätö käyttäen GridSearchCV- tai RandomizedSearchCV-menetelmää.

Note
Huomio

Koska aineistomme on hyvin pieni, käytämme GridSearchCV:tä, mutta kaikki alla mainittu pätee myös RandomizedSearchCV:hen.

Tavoitteena on saavuttaa korkein ristiinvalidointipistemäärä aineistolla, sillä ristiinvalidointi on vakaampi ja vähemmän riippuvainen datan jakotavasta kuin train-test-lähestymistapa.

GridSearchCV on suunniteltu erityisesti tähän tarkoitukseen: se tunnistaa hyperparametrit, joilla saavutetaan paras ristiinvalidointipistemäärä, ja tuottaa hienosäädetyn mallin, joka toimii optimaalisesti koulutusdatalla.

.best_score_-attribuutti tallentaa haun aikana löytyneen korkeimman ristiinvalidointipistemäärän.

Note
Huomio

Parhaat hyperparametrit yhdelle tietylle tietoaineistolle eivät välttämättä ole yleisesti parhaat. Jos uutta dataa lisätään, optimaaliset hyperparametrit voivat muuttua.

Tämän seurauksena saavutettu .best_score_ voi olla korkeampi kuin suorituskyky täysin uudella datalla, sillä hyperparametrit eivät välttämättä yleisty yhtä hyvin koulutusdatan ulkopuolelle.

Tyypillisesti tietoaineisto jaetaan ensin koulutus- ja testijoukkoon. Ristiinvalidointi suoritetaan sitten koulutusjoukossa mallin hienosäätöä ja parhaan kokoonpanon löytämistä varten. Lopuksi optimoitu malli arvioidaan testijoukossa, joka sisältää täysin näkemätöntä dataa, jotta voidaan arvioida sen todellista suorituskykyä.

Yhteenvetona koko työnkulku koostuu seuraavista vaiheista:

  1. Datan esikäsittely;
  2. Tietoaineiston jakaminen koulutus- ja testijoukkoon;
  3. Ristiinvalidoinnin käyttäminen koulutusjoukossa parhaiten suoriutuvan mallin löytämiseksi;
  4. Mallin arviointi testijoukossa.
Note
Lisätietoa

Kolmas vaihe sisältää yleensä useiden algoritmien testaamisen ja niiden hyperparametrien säätämisen parhaan vaihtoehdon löytämiseksi. Yksinkertaisuuden vuoksi tässä kurssissa käytettiin vain yhtä algoritmia.

Ennen kuin siirrytään loppuhaasteeseen, on tärkeää huomata, että ristiinvalidointi ei ole ainoa tapa mallien hienosäätöön. Kun tietoaineistot kasvavat suuremmiksi, ristiinvalidointipisteiden laskeminen vie enemmän aikaa, ja tavallinen train-test-jako tarjoaa enemmän vakautta testijoukon suuremman koon ansiosta.

Tämän vuoksi suuret tietoaineistot jaetaan usein kolmeen osaan: opetusjoukkoon, validointijoukkoon ja testijoukkoon. Malli opetetaan opetusjoukolla ja arvioidaan validointijoukolla, jotta voidaan valita parhaiten suoriutuva malli tai hyperparametrit.

Tässä valinnassa käytetään validointijoukon pisteitä ristiinvalidointipisteiden sijaan. Lopuksi valittu malli arvioidaan testijoukolla, joka koostuu täysin näkemättömästä datasta, jotta voidaan varmistaa sen suorituskyky.

Penguins-aineisto on pieni, sisältäen vain 342 havaintoa. Tämän rajallisen koon vuoksi seuraavassa luvussa arviointiin käytetään ristiinvalidointipistemäärää.

question mark

Miksi ristiinvalidointi on erityisen arvokasta hyperparametrien säätämisessä pienissä aineistoissa, toisin kuin suuremmissa aineistoissa, joissa voidaan suosia opetus-testaus-jakoa?

Select the correct answer

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 4. Luku 9
some-alt