Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære Opsummering af Modellering | Modellering
Introduktion til Maskinlæring med Python

bookOpsummering af Modellering

Du ved nu, hvordan man opbygger en model, anvender pipelines og justerer hyperparametre. Du har også lært to evalueringsmetoder: train-test split og krydsvalidering. Næste skridt er at kombinere evaluering og tuning ved hjælp af GridSearchCV eller RandomizedSearchCV.

Note
Bemærk

Da vores datasæt er meget lille, vil vi bruge GridSearchCV, men alt nævnt nedenfor gælder også for en RandomizedSearchCV.

Da krydsvalidering er mere stabil end en enkelt train-test split, er målet at opnå den højeste krydsvalideringsscore. GridSearchCV søger på tværs af hyperparametre og finder dem, der maksimerer denne score. Den bedste score gemmes i .best_score_.

Note
Bemærk

Hyperparametre, der fungerer bedst for ét datasæt, generaliserer muligvis ikke, når nye data tilføjes. Derfor kan .best_score_ være højere end modellens præstation på helt usete data.

En almindelig arbejdsgang: opdel i trænings- og testdatasæt; udfør krydsvalidering på træningsdatasættet for at justere modellen; evaluer derefter den optimerede model på testdatasættet for at måle reel præstation.

Opsummering:

  1. Forbehandl dataene;
  2. Opdel i trænings- og testdatasæt;
  3. Brug krydsvalidering på træningsdatasættet for at finde den bedste konfiguration;
  4. Evaluer på testdatasættet.
Note
Læs Mere

Det tredje trin indebærer typisk test af flere algoritmer og justering af deres hyperparametre for at identificere den bedste mulighed. For enkelhedens skyld blev kun én algoritme anvendt i dette kursus.

Krydsvalidering er ikke altid den bedste løsning. For store datasæt bliver beregning af CV-scorer omkostningstungt, mens et trænings-test split bliver mere stabilt takket være det store testdatasæt.

Store datasæt opdeles ofte i træningssæt, valideringssæt og testdatasæt. Hyperparametre vælges baseret på valideringssættets præstation. Endelig evalueres den valgte model på testdatasættet for at verificere, hvor godt den generaliserer.

Penguins-datasættet er lille, med kun 342 forekomster. På grund af denne begrænsede størrelse vil krydsvalideringsscoren blive brugt til evaluering i det næste kapitel.

question mark

Hvorfor er krydsvalidering særligt værdifuld til hyperparameter-tuning i mindre datasæt, i modsætning til større datasæt hvor train-test-split ofte foretrækkes?

Select the correct answer

Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 4. Kapitel 9

Spørg AI

expand

Spørg AI

ChatGPT

Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat

Suggested prompts:

What is the difference between GridSearchCV and RandomizedSearchCV?

Can you explain how cross-validation works in more detail?

Why is cross-validation preferred for small datasets?

bookOpsummering af Modellering

Stryg for at vise menuen

Du ved nu, hvordan man opbygger en model, anvender pipelines og justerer hyperparametre. Du har også lært to evalueringsmetoder: train-test split og krydsvalidering. Næste skridt er at kombinere evaluering og tuning ved hjælp af GridSearchCV eller RandomizedSearchCV.

Note
Bemærk

Da vores datasæt er meget lille, vil vi bruge GridSearchCV, men alt nævnt nedenfor gælder også for en RandomizedSearchCV.

Da krydsvalidering er mere stabil end en enkelt train-test split, er målet at opnå den højeste krydsvalideringsscore. GridSearchCV søger på tværs af hyperparametre og finder dem, der maksimerer denne score. Den bedste score gemmes i .best_score_.

Note
Bemærk

Hyperparametre, der fungerer bedst for ét datasæt, generaliserer muligvis ikke, når nye data tilføjes. Derfor kan .best_score_ være højere end modellens præstation på helt usete data.

En almindelig arbejdsgang: opdel i trænings- og testdatasæt; udfør krydsvalidering på træningsdatasættet for at justere modellen; evaluer derefter den optimerede model på testdatasættet for at måle reel præstation.

Opsummering:

  1. Forbehandl dataene;
  2. Opdel i trænings- og testdatasæt;
  3. Brug krydsvalidering på træningsdatasættet for at finde den bedste konfiguration;
  4. Evaluer på testdatasættet.
Note
Læs Mere

Det tredje trin indebærer typisk test af flere algoritmer og justering af deres hyperparametre for at identificere den bedste mulighed. For enkelhedens skyld blev kun én algoritme anvendt i dette kursus.

Krydsvalidering er ikke altid den bedste løsning. For store datasæt bliver beregning af CV-scorer omkostningstungt, mens et trænings-test split bliver mere stabilt takket være det store testdatasæt.

Store datasæt opdeles ofte i træningssæt, valideringssæt og testdatasæt. Hyperparametre vælges baseret på valideringssættets præstation. Endelig evalueres den valgte model på testdatasættet for at verificere, hvor godt den generaliserer.

Penguins-datasættet er lille, med kun 342 forekomster. På grund af denne begrænsede størrelse vil krydsvalideringsscoren blive brugt til evaluering i det næste kapitel.

question mark

Hvorfor er krydsvalidering særligt værdifuld til hyperparameter-tuning i mindre datasæt, i modsætning til større datasæt hvor train-test-split ofte foretrækkes?

Select the correct answer

Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 4. Kapitel 9
some-alt