Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Oppiskele Mallinnuksen Yhteenveto | Mallintaminen
Johdatus koneoppimiseen Pythonilla

Mallinnuksen Yhteenveto

Pyyhkäise näyttääksesi valikon

Nyt osaat rakentaa mallin, käyttää putkistoja ja säätää hyperparametreja. Opit myös kaksi arviointimenetelmää: train-test-jako ja ristiinvalidointi. Seuraava askel on yhdistää arviointi ja säätö käyttämällä GridSearchCV- tai RandomizedSearchCV-menetelmää.

Note
Huomio

Koska aineistomme on hyvin pieni, käytämme GridSearchCV-menetelmää, mutta kaikki alla mainittu pätee myös RandomizedSearchCV-menetelmään.

Koska ristiinvalidointi on vakaampi kuin yksittäinen train-test-jako, tavoitteena on saavuttaa korkein ristiinvalidointipisteet. GridSearchCV etsii hyperparametreja ja löytää ne, jotka maksimoivat tämän pisteen. Paras tulos tallennetaan kenttään .best_score_.

Note
Huomio

Yhdelle tietoaineistolle parhaiten toimivat hyperparametrit eivät välttämättä yleisty uuden datan saapuessa. Siksi .best_score_ voi olla korkeampi kuin mallin suorituskyky täysin näkemättömällä datalla.

Yleinen työnkulku: jaa data koulutus- ja testijoukkoihin; suorita ristiinvalidointi koulutusjoukolla mallin virittämiseksi; arvioi sitten optimoitu malli testijoukolla todellisen suorituskyvyn mittaamiseksi.

Koulutus-testi-jako

Yhteenveto:

  1. Esikäsittele data;
  2. Jaa koulutus- ja testijoukkoihin;
  3. Käytä ristiinvalidointia koulutusjoukossa parhaan kokoonpanon löytämiseksi;
  4. Arvioi testijoukolla.
Note
Opiskele lisää

Kolmas vaihe sisältää yleensä useiden algoritmien testaamisen ja niiden hyperparametrien säätämisen parhaan vaihtoehdon löytämiseksi. Tämän kurssin yksinkertaistamiseksi käytettiin vain yhtä algoritmia.

Ristiinvalidointi ei ole aina paras vaihtoehto. Suurilla aineistoilla CV-pisteiden laskeminen on kallista, kun taas koulutus-testijako on vakaampi suuren testijoukon ansiosta.

Suuria tietoaineistoja jaetaan usein opetus-, validointi- ja testi-aineistoihin. Hyperparametrit valitaan validointiaineiston suorituksen perusteella. Lopuksi valittu malli arvioidaan testiaineistolla sen yleistettävyyden varmistamiseksi.

Opetus-, testi- ja validointijako

Penguins dataset on pieni, vain 342 havaintoa. Tämän rajallisen koon vuoksi seuraavassa luvussa arvioinnissa käytetään ristiinvalidointipistemäärää.

question mark

Miksi ristiinvalidointi on erityisen arvokasta hyperparametrien virityksessä pienillä aineistoilla, toisin kuin suuremmilla aineistoilla, joissa voidaan suosia train-test-jakoa?

Valitse oikea vastaus

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 4. Luku 9

Kysy tekoälyä

expand

Kysy tekoälyä

ChatGPT

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

Osio 4. Luku 9
some-alt