Oppiskele Ylisovittaminen | Parhaan Mallin Valitseminen

Pyyhkäise näyttääksesi valikon

Ylisyöttäminen

Tarkastele alla olevia kahta regressiosuoraa. Kumpi niistä on parempi?

Mittarit osoittavat, että toinen malli on parempi, joten käytämme sitä ennustamaan X_new = [0.2, 0.5, 2.7]. Mutta kun vertaamme ennusteita todellisiin arvoihin, ensimmäinen malli suoriutuu paremmin.

Tämä tapahtuu, koska toinen malli ylisovittaa — se on liian monimutkainen ja vastaa koulutusdataa liian tarkasti, eikä kykene yleistämään uusiin tapauksiin.

Alisovitus

Alisovitus tapahtuu, kun malli on liian yksinkertainen sovittamaan edes koulutusdataa, mikä johtaa myös huonoihin ennusteisiin uudella datalla.

Mallin ali- tai ylisovittumisen arviointi visuaalisesti.

Koska emme voi visualisoida korkean ulottuvuuden malleja, tarvitsemme toisen tavan havaita ylioppimista tai alioppimista.

Opetus- ja testijoukon jako

Arvioidaksemme suorituskykyä näkemättömällä datalla, jaamme aineiston opetusjoukkoon ja testijoukkoon, joiden kohdearvot tunnetaan.

Mallia opetetaan opetusdatalla ja mittareita lasketaan sekä opetus- että testidatalle suorituskyvyn vertaamiseksi.

Jako täytyy tehdä satunnaisesti. Tyypillisesti 20–30 % menee testijoukkoon ja 70–80 % käytetään koulutukseen. Scikit-learn tarjoaa helpon tavan tehdä tämä.

Esimerkiksi, jos haluat jakaa koulutusdatan 70 % koulutukseen ja 30 % testiin, voit käyttää seuraavaa koodia:

from sklearn.model_selection import train_test_split # import the function
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)

Oliko kaikki selvää?

Kiitos palautteestasi!

Osio 4. Luku 2

Kysy tekoälyä

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

Osio 4. Luku 2