Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære Modeling Summary | Modellering
Introduktion til Maskinlæring med Python

Modeling Summary

Stryg for at vise menuen

Du ved nu, hvordan man opbygger en model, bruger pipelines og justerer hyperparametre. Du har også lært to evalueringsmetoder: train-test split og krydsvalidering. Næste skridt er at kombinere evaluering og tuning ved hjælp af GridSearchCV eller RandomizedSearchCV.

Note
Bemærk

Da vores datasæt er meget lille, vil vi bruge GridSearchCV, men alt nedenstående gælder også for en RandomizedSearchCV.

Da krydsvalidering er mere stabil end et enkelt train-test split, er målet at opnå den højeste krydsvalideringsscore. GridSearchCV søger blandt hyperparametre og finder dem, der maksimerer denne score. Den bedste score gemmes i .best_score_.

Note
Bemærk

Hyperparametre, der fungerer bedst for ét datasæt, generaliserer muligvis ikke, når nye data tilføjes. Derfor kan .best_score_ være højere end modellens præstation på helt usete data.

En almindelig arbejdsgang: opdel i trænings- og testdatasæt; udfør krydsvalidering på træningsdatasættet for at justere modellen; evaluer derefter den optimerede model på testdatasættet for at måle præstation i virkeligheden.

Opdeling i trænings- og testdatasæt

For at opsummere:

  1. Forbehandling af data;
  2. Opdeling i trænings- og testdatasæt;
  3. Brug af krydsvalidering på træningsdatasættet for at finde den bedste konfiguration;
  4. Evaluering på testdatasættet.
Note
Læs mere

Det tredje trin indebærer normalt afprøvning af flere algoritmer og justering af deres hyperparametre for at identificere den bedste mulighed. For enkelhedens skyld blev kun én algoritme anvendt i dette kursus.

Krydsvalidering er ikke altid den bedste løsning. For store datasæt bliver beregning af CV-scorer dyrt, mens en trænings-test-opdeling bliver mere stabil takket være det store testdatasæt.

Store datasæt opdeles ofte i træningssæt, valideringssæt og test-sæt. Hyperparametre vælges baseret på præstationen på valideringssættet. Til sidst evalueres den valgte model på test-sættet for at verificere, hvor godt den generaliserer.

Opdeling i trænings-, test- og valideringssæt

Penguins dataset er lille med kun 342 eksempler. På grund af denne begrænsede størrelse vil krydsvalideringsscoren blive brugt til evaluering i næste kapitel.

question mark

Hvorfor er krydsvalidering særligt værdifuldt til tuning af hyperparametre i mindre datasæt, i modsætning til større datasæt hvor trænings- og testopdelinger ofte foretrækkes?

Vælg det korrekte svar

Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 4. Kapitel 9

Spørg AI

expand

Spørg AI

ChatGPT

Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat

Sektion 4. Kapitel 9
some-alt