Lære Opsummering af Modellering

Du ved nu, hvordan man opbygger en model, anvender pipelines og justerer hyperparametre. Du har også lært to evalueringsmetoder: train-test split og krydsvalidering. Næste skridt er at kombinere evaluering og tuning ved hjælp af GridSearchCV eller RandomizedSearchCV.

Bemærk

Da vores datasæt er meget lille, vil vi bruge GridSearchCV, men alt nævnt nedenfor gælder også for en RandomizedSearchCV.

Da krydsvalidering er mere stabil end en enkelt train-test split, er målet at opnå den højeste krydsvalideringsscore. GridSearchCV søger på tværs af hyperparametre og finder dem, der maksimerer denne score. Den bedste score gemmes i .best_score_.

Bemærk

Hyperparametre, der fungerer bedst for ét datasæt, generaliserer muligvis ikke, når nye data tilføjes. Derfor kan .best_score_ være højere end modellens præstation på helt usete data.

En almindelig arbejdsgang: opdel i trænings- og testdatasæt; udfør krydsvalidering på træningsdatasættet for at justere modellen; evaluer derefter den optimerede model på testdatasættet for at måle reel præstation.

Opsummering:

Forbehandl dataene;
Opdel i trænings- og testdatasæt;
Brug krydsvalidering på træningsdatasættet for at finde den bedste konfiguration;
Evaluer på testdatasættet.

Læs Mere

Det tredje trin indebærer typisk test af flere algoritmer og justering af deres hyperparametre for at identificere den bedste mulighed. For enkelhedens skyld blev kun én algoritme anvendt i dette kursus.

Krydsvalidering er ikke altid den bedste løsning. For store datasæt bliver beregning af CV-scorer omkostningstungt, mens et trænings-test split bliver mere stabilt takket være det store testdatasæt.

Store datasæt opdeles ofte i træningssæt, valideringssæt og testdatasæt. Hyperparametre vælges baseret på valideringssættets præstation. Endelig evalueres den valgte model på testdatasættet for at verificere, hvor godt den generaliserer.

Penguins-datasættet er lille, med kun 342 forekomster. På grund af denne begrænsede størrelse vil krydsvalideringsscoren blive brugt til evaluering i det næste kapitel.

Var alt klart?

Tak for dine kommentarer!

Sektion 4. Kapitel 9

Spørg AI

Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat

Stryg for at vise menuen

Bemærk

Da vores datasæt er meget lille, vil vi bruge GridSearchCV, men alt nævnt nedenfor gælder også for en RandomizedSearchCV.

Bemærk

Opsummering:

Forbehandl dataene;
Opdel i trænings- og testdatasæt;
Brug krydsvalidering på træningsdatasættet for at finde den bedste konfiguration;
Evaluer på testdatasættet.

Læs Mere

Penguins-datasættet er lille, med kun 342 forekomster. På grund af denne begrænsede størrelse vil krydsvalideringsscoren blive brugt til evaluering i det næste kapitel.

Var alt klart?

Tak for dine kommentarer!

Sektion 4. Kapitel 9