Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære Opsummering af Modellering | Modellering
ML Introduktion med Scikit-learn

bookOpsummering af Modellering

Tillykke med at være nået så langt! Du ved allerede, hvordan man opbygger en model, bruger den i en pipeline, og finjusterer hyperparametrene! Du har også lært to måder at evaluere modellen på: train-test split og cross-validation score.

Lad os tale om at kombinere modelevaluering og hyperparametertuning udført af GridSearchCV (eller RandomizedSearchCV).

Generelt stræber vi efter at opnå den bedste cross-validation score på vores datasæt, da cross-validation er mere stabil og mindre følsom over for, hvordan dataene opdeles, sammenlignet med train-test split.

Vores mål er at identificere de hyperparametre, der giver den bedste cross-validation score, hvilket netop er det, GridSearchCV er designet til. Denne proces resulterer i en finjusteret model, der præsterer optimalt på træningsdatasættet. GridSearchCV tilbyder også attributten .best_score_, som afspejler den højeste cross-validation score opnået under hyperparametertuningen.

Typisk opdeles datasættet først i trænings- og testdatasæt. Vi finjusterer derefter modellen på hele træningsdatasættet ved hjælp af cross-validation for at identificere den bedste model. Til sidst vurderer vi modellens præstation på testdatasættet, som består af helt usete data, for at estimere dens anvendelighed i praksis.

Lad os opsummere det hele. Vi har brug for:

  1. Forbehandle dataene;
  2. Udføre en trænings-test opdeling;
  3. Finde den model med den bedste krydsvalideringsscore på træningssættet;
  4. Evaluere den bedste model på testdatasættet.

Før vi går videre til den afsluttende udfordring, er det vigtigt at bemærke, at krydsvalidering ikke er den eneste metode til finjustering af modeller. Efterhånden som datasæt bliver større, bliver beregning af krydsvalideringsscorer mere tidskrævende, og den almindelige trænings-test opdeling giver mere stabilitet på grund af den øgede størrelse af testdatasættet.

Derfor opdeles store datasæt ofte i tre sæt: et træningssæt, et valideringssæt og et testsæt. Modellen trænes på træningssættet og evalueres på valideringssættet for at vælge den model eller de hyperparametre, der klarer sig bedst.

Dette valg bruger valideringssættets scorer i stedet for krydsvalideringsscorer. Til sidst vurderes den valgte model på testsættet, som består af helt usete data, for at verificere dens ydeevne.

Vores penguin-datasæt er ikke stort. Det er faktisk meget lille (342 forekomster), så vi vil anvende cross-validation-scoremetoden i næste kapitel.

question mark

Hvorfor er cross-validation særligt værdifuldt til hyperparameter-tuning i mindre datasæt, i modsætning til større datasæt hvor train-test-split ofte foretrækkes?

Select the correct answer

Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 4. Kapitel 9

Spørg AI

expand

Spørg AI

ChatGPT

Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat

Awesome!

Completion rate improved to 3.13

bookOpsummering af Modellering

Stryg for at vise menuen

Tillykke med at være nået så langt! Du ved allerede, hvordan man opbygger en model, bruger den i en pipeline, og finjusterer hyperparametrene! Du har også lært to måder at evaluere modellen på: train-test split og cross-validation score.

Lad os tale om at kombinere modelevaluering og hyperparametertuning udført af GridSearchCV (eller RandomizedSearchCV).

Generelt stræber vi efter at opnå den bedste cross-validation score på vores datasæt, da cross-validation er mere stabil og mindre følsom over for, hvordan dataene opdeles, sammenlignet med train-test split.

Vores mål er at identificere de hyperparametre, der giver den bedste cross-validation score, hvilket netop er det, GridSearchCV er designet til. Denne proces resulterer i en finjusteret model, der præsterer optimalt på træningsdatasættet. GridSearchCV tilbyder også attributten .best_score_, som afspejler den højeste cross-validation score opnået under hyperparametertuningen.

Typisk opdeles datasættet først i trænings- og testdatasæt. Vi finjusterer derefter modellen på hele træningsdatasættet ved hjælp af cross-validation for at identificere den bedste model. Til sidst vurderer vi modellens præstation på testdatasættet, som består af helt usete data, for at estimere dens anvendelighed i praksis.

Lad os opsummere det hele. Vi har brug for:

  1. Forbehandle dataene;
  2. Udføre en trænings-test opdeling;
  3. Finde den model med den bedste krydsvalideringsscore på træningssættet;
  4. Evaluere den bedste model på testdatasættet.

Før vi går videre til den afsluttende udfordring, er det vigtigt at bemærke, at krydsvalidering ikke er den eneste metode til finjustering af modeller. Efterhånden som datasæt bliver større, bliver beregning af krydsvalideringsscorer mere tidskrævende, og den almindelige trænings-test opdeling giver mere stabilitet på grund af den øgede størrelse af testdatasættet.

Derfor opdeles store datasæt ofte i tre sæt: et træningssæt, et valideringssæt og et testsæt. Modellen trænes på træningssættet og evalueres på valideringssættet for at vælge den model eller de hyperparametre, der klarer sig bedst.

Dette valg bruger valideringssættets scorer i stedet for krydsvalideringsscorer. Til sidst vurderes den valgte model på testsættet, som består af helt usete data, for at verificere dens ydeevne.

Vores penguin-datasæt er ikke stort. Det er faktisk meget lille (342 forekomster), så vi vil anvende cross-validation-scoremetoden i næste kapitel.

question mark

Hvorfor er cross-validation særligt værdifuldt til hyperparameter-tuning i mindre datasæt, i modsætning til større datasæt hvor train-test-split ofte foretrækkes?

Select the correct answer

Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 4. Kapitel 9
some-alt