Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære Oppsummering av Modellering | Modellering
Quizzes & Challenges
Quizzes
Challenges
/
Introduksjon til maskinlæring med Python

bookOppsummering av Modellering

Du vet nå hvordan du bygger en modell, bruker pipelines og justerer hyperparametere. Du har også lært to evalueringsmetoder: train-test split og kryssvalidering. Neste steg er å kombinere evaluering og tuning ved å bruke GridSearchCV eller RandomizedSearchCV.

Note
Merk

Siden datasettet vårt er lite, vil vi bruke GridSearchCV, men alt som sies nedenfor gjelder også for en RandomizedSearchCV.

Siden kryssvalidering er mer stabilt enn en enkel train-test split, er målet å oppnå høyest mulig kryssvalideringsscore. GridSearchCV søker gjennom hyperparametere og finner de som maksimerer denne scoren. Den beste scoren lagres i .best_score_.

Note
Merk

Hyperparametere som fungerer best for ett datasett, kan ikke generaliseres når nye data kommer inn. Dermed kan .best_score_ være høyere enn modellens ytelse på helt ukjente data.

En vanlig arbeidsflyt: del opp i trenings- og testsett; kjør kryssvalidering på treningssettet for å justere modellen; evaluer deretter den optimaliserte modellen på testsettet for å måle ytelse i virkelige situasjoner.

Oppsummert:

  1. Forbehandle dataene;
  2. Del opp i trenings- og testsett;
  3. Bruk kryssvalidering på treningssettet for å finne den beste konfigurasjonen;
  4. Evaluer på testsettet.
Note
Les mer

Det tredje steget innebærer vanligvis å teste flere algoritmer og justere deres hyperparametre for å identifisere det beste alternativet. For enkelhets skyld ble kun én algoritme brukt i dette kurset.

Kryssvalidering er ikke alltid det beste alternativet. For store datasett blir beregning av CV-score kostbart, mens et trenings- og testsett gir mer stabile resultater takket være et stort testsett.

Store datasett deles ofte inn i treningssett, valideringssett og testsett. Hyperparametre velges basert på ytelsen på valideringssettet. Til slutt evalueres den valgte modellen på testsettet for å verifisere hvor godt den generaliserer.

Penguins-datasettet er lite, med kun 342 forekomster. På grunn av denne begrensede størrelsen vil kryssvalideringsscore bli brukt til evaluering i neste kapittel.

question mark

Hvorfor er kryssvalidering spesielt verdifull for hyperparameterjustering i mindre datasett, i motsetning til større datasett hvor trenings- og testdelinger ofte foretrekkes?

Select the correct answer

Alt var klart?

Hvordan kan vi forbedre det?

Takk for tilbakemeldingene dine!

Seksjon 4. Kapittel 9

Spør AI

expand

Spør AI

ChatGPT

Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår

Awesome!

Completion rate improved to 3.13

bookOppsummering av Modellering

Sveip for å vise menyen

Du vet nå hvordan du bygger en modell, bruker pipelines og justerer hyperparametere. Du har også lært to evalueringsmetoder: train-test split og kryssvalidering. Neste steg er å kombinere evaluering og tuning ved å bruke GridSearchCV eller RandomizedSearchCV.

Note
Merk

Siden datasettet vårt er lite, vil vi bruke GridSearchCV, men alt som sies nedenfor gjelder også for en RandomizedSearchCV.

Siden kryssvalidering er mer stabilt enn en enkel train-test split, er målet å oppnå høyest mulig kryssvalideringsscore. GridSearchCV søker gjennom hyperparametere og finner de som maksimerer denne scoren. Den beste scoren lagres i .best_score_.

Note
Merk

Hyperparametere som fungerer best for ett datasett, kan ikke generaliseres når nye data kommer inn. Dermed kan .best_score_ være høyere enn modellens ytelse på helt ukjente data.

En vanlig arbeidsflyt: del opp i trenings- og testsett; kjør kryssvalidering på treningssettet for å justere modellen; evaluer deretter den optimaliserte modellen på testsettet for å måle ytelse i virkelige situasjoner.

Oppsummert:

  1. Forbehandle dataene;
  2. Del opp i trenings- og testsett;
  3. Bruk kryssvalidering på treningssettet for å finne den beste konfigurasjonen;
  4. Evaluer på testsettet.
Note
Les mer

Det tredje steget innebærer vanligvis å teste flere algoritmer og justere deres hyperparametre for å identifisere det beste alternativet. For enkelhets skyld ble kun én algoritme brukt i dette kurset.

Kryssvalidering er ikke alltid det beste alternativet. For store datasett blir beregning av CV-score kostbart, mens et trenings- og testsett gir mer stabile resultater takket være et stort testsett.

Store datasett deles ofte inn i treningssett, valideringssett og testsett. Hyperparametre velges basert på ytelsen på valideringssettet. Til slutt evalueres den valgte modellen på testsettet for å verifisere hvor godt den generaliserer.

Penguins-datasettet er lite, med kun 342 forekomster. På grunn av denne begrensede størrelsen vil kryssvalideringsscore bli brukt til evaluering i neste kapittel.

question mark

Hvorfor er kryssvalidering spesielt verdifull for hyperparameterjustering i mindre datasett, i motsetning til større datasett hvor trenings- og testdelinger ofte foretrekkes?

Select the correct answer

Alt var klart?

Hvordan kan vi forbedre det?

Takk for tilbakemeldingene dine!

Seksjon 4. Kapittel 9
some-alt