Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære Oppsummering av Modellering | Modellering
ML Introduksjon med Scikit-learn

bookOppsummering av Modellering

Gratulerer med å ha kommet så langt! Du kan allerede bygge en modell, bruke den i en pipeline, og finjustere hyperparametere! Du har også lært to måter å evaluere modellen på: train-test-splitt og kryssvalideringsscore.

La oss se nærmere på hvordan man kan kombinere modellevaluering og hyperparameterjustering ved hjelp av GridSearchCV (eller RandomizedSearchCV).

Generelt ønsker vi å oppnå den beste kryssvalideringsscoren på datasettet vårt, siden kryssvalidering er mer stabil og mindre følsom for hvordan dataene deles sammenlignet med train-test-splitt.

Målet er å identifisere de hyperparametrene som gir den beste kryssvalideringsscoren, noe som er akkurat det GridSearchCV er laget for. Denne prosessen resulterer i en finjustert modell som presterer optimalt på treningsdatasettet. GridSearchCV gir også en .best_score_-attributt, som viser den høyeste kryssvalideringsscoren oppnådd under hyperparameterjusteringen.

Vanligvis deles datasettet først inn i trenings- og testsett. Deretter finjusteres modellen på hele treningssettet ved hjelp av kryssvalidering for å identifisere den beste modellen. Til slutt vurderes modellens ytelse på testsettet, som består av helt ukjente data, for å anslå modellens anvendelighet i praksis.

La oss oppsummere. Vi trenger:

  1. Forbehandle dataene;
  2. Dele opp i trenings- og testsett;
  3. Finne modellen med best kryssvalideringsscore på treningssettet;
  4. Evaluere den beste modellen på testsettet.

Før vi går videre til den siste utfordringen, er det viktig å merke seg at kryssvalidering ikke er den eneste metoden for å finjustere modeller. Etter hvert som datasett blir større, blir beregning av kryssvalideringsscore mer tidkrevende, og den vanlige trenings-test-delingen gir mer stabilitet på grunn av den økte størrelsen på testsettet.

Derfor deles store datasett ofte inn i tre sett: et treningssett, et valideringssett og et testsett. Modellen trenes på treningssettet og evalueres på valideringssettet for å velge modellen eller hyperparametrene som presterer best.

Dette utvalget bruker valideringssettscore i stedet for kryssvalideringsscore. Til slutt vurderes den valgte modellen på testsettet, som består av helt ukjente data, for å verifisere ytelsen.

Vårt penguins-datasett er ikke stort. Det er faktisk veldig lite (342 forekomster), så vi vil bruke tilnærmingen med kryssvalideringsscore i neste kapittel.

question mark

Hvorfor er kryssvalidering spesielt verdifullt for hyperparametertuning i mindre datasett, i motsetning til større datasett hvor trenings- og testdeling ofte foretrekkes?

Select the correct answer

Alt var klart?

Hvordan kan vi forbedre det?

Takk for tilbakemeldingene dine!

Seksjon 4. Kapittel 9

Spør AI

expand

Spør AI

ChatGPT

Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår

Awesome!

Completion rate improved to 3.13

bookOppsummering av Modellering

Sveip for å vise menyen

Gratulerer med å ha kommet så langt! Du kan allerede bygge en modell, bruke den i en pipeline, og finjustere hyperparametere! Du har også lært to måter å evaluere modellen på: train-test-splitt og kryssvalideringsscore.

La oss se nærmere på hvordan man kan kombinere modellevaluering og hyperparameterjustering ved hjelp av GridSearchCV (eller RandomizedSearchCV).

Generelt ønsker vi å oppnå den beste kryssvalideringsscoren på datasettet vårt, siden kryssvalidering er mer stabil og mindre følsom for hvordan dataene deles sammenlignet med train-test-splitt.

Målet er å identifisere de hyperparametrene som gir den beste kryssvalideringsscoren, noe som er akkurat det GridSearchCV er laget for. Denne prosessen resulterer i en finjustert modell som presterer optimalt på treningsdatasettet. GridSearchCV gir også en .best_score_-attributt, som viser den høyeste kryssvalideringsscoren oppnådd under hyperparameterjusteringen.

Vanligvis deles datasettet først inn i trenings- og testsett. Deretter finjusteres modellen på hele treningssettet ved hjelp av kryssvalidering for å identifisere den beste modellen. Til slutt vurderes modellens ytelse på testsettet, som består av helt ukjente data, for å anslå modellens anvendelighet i praksis.

La oss oppsummere. Vi trenger:

  1. Forbehandle dataene;
  2. Dele opp i trenings- og testsett;
  3. Finne modellen med best kryssvalideringsscore på treningssettet;
  4. Evaluere den beste modellen på testsettet.

Før vi går videre til den siste utfordringen, er det viktig å merke seg at kryssvalidering ikke er den eneste metoden for å finjustere modeller. Etter hvert som datasett blir større, blir beregning av kryssvalideringsscore mer tidkrevende, og den vanlige trenings-test-delingen gir mer stabilitet på grunn av den økte størrelsen på testsettet.

Derfor deles store datasett ofte inn i tre sett: et treningssett, et valideringssett og et testsett. Modellen trenes på treningssettet og evalueres på valideringssettet for å velge modellen eller hyperparametrene som presterer best.

Dette utvalget bruker valideringssettscore i stedet for kryssvalideringsscore. Til slutt vurderes den valgte modellen på testsettet, som består av helt ukjente data, for å verifisere ytelsen.

Vårt penguins-datasett er ikke stort. Det er faktisk veldig lite (342 forekomster), så vi vil bruke tilnærmingen med kryssvalideringsscore i neste kapittel.

question mark

Hvorfor er kryssvalidering spesielt verdifullt for hyperparametertuning i mindre datasett, i motsetning til større datasett hvor trenings- og testdeling ofte foretrekkes?

Select the correct answer

Alt var klart?

Hvordan kan vi forbedre det?

Takk for tilbakemeldingene dine!

Seksjon 4. Kapittel 9
some-alt