Oppsummering av Modellering
Gratulerer med å ha kommet så langt! Du kan allerede bygge en modell, bruke den i en pipeline, og finjustere hyperparametere! Du har også lært to måter å evaluere modellen på: train-test-splitt og kryssvalideringsscore.
La oss se nærmere på hvordan man kan kombinere modellevaluering og hyperparameterjustering ved hjelp av GridSearchCV
(eller RandomizedSearchCV
).
Generelt ønsker vi å oppnå den beste kryssvalideringsscoren på datasettet vårt, siden kryssvalidering er mer stabil og mindre følsom for hvordan dataene deles sammenlignet med train-test-splitt.
Målet er å identifisere de hyperparametrene som gir den beste kryssvalideringsscoren, noe som er akkurat det GridSearchCV
er laget for. Denne prosessen resulterer i en finjustert modell som presterer optimalt på treningsdatasettet. GridSearchCV
gir også en .best_score_
-attributt, som viser den høyeste kryssvalideringsscoren oppnådd under hyperparameterjusteringen.
Vanligvis deles datasettet først inn i trenings- og testsett. Deretter finjusteres modellen på hele treningssettet ved hjelp av kryssvalidering for å identifisere den beste modellen. Til slutt vurderes modellens ytelse på testsettet, som består av helt ukjente data, for å anslå modellens anvendelighet i praksis.
La oss oppsummere. Vi trenger:
- Forbehandle dataene;
- Dele opp i trenings- og testsett;
- Finne modellen med best kryssvalideringsscore på treningssettet;
- Evaluere den beste modellen på testsettet.
Før vi går videre til den siste utfordringen, er det viktig å merke seg at kryssvalidering ikke er den eneste metoden for å finjustere modeller. Etter hvert som datasett blir større, blir beregning av kryssvalideringsscore mer tidkrevende, og den vanlige trenings-test-delingen gir mer stabilitet på grunn av den økte størrelsen på testsettet.
Derfor deles store datasett ofte inn i tre sett: et treningssett, et valideringssett og et testsett. Modellen trenes på treningssettet og evalueres på valideringssettet for å velge modellen eller hyperparametrene som presterer best.
Dette utvalget bruker valideringssettscore i stedet for kryssvalideringsscore. Til slutt vurderes den valgte modellen på testsettet, som består av helt ukjente data, for å verifisere ytelsen.
Vårt penguins-datasett er ikke stort. Det er faktisk veldig lite (342 forekomster), så vi vil bruke tilnærmingen med kryssvalideringsscore i neste kapittel.
Takk for tilbakemeldingene dine!
Spør AI
Spør AI
Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår
Awesome!
Completion rate improved to 3.13
Oppsummering av Modellering
Sveip for å vise menyen
Gratulerer med å ha kommet så langt! Du kan allerede bygge en modell, bruke den i en pipeline, og finjustere hyperparametere! Du har også lært to måter å evaluere modellen på: train-test-splitt og kryssvalideringsscore.
La oss se nærmere på hvordan man kan kombinere modellevaluering og hyperparameterjustering ved hjelp av GridSearchCV
(eller RandomizedSearchCV
).
Generelt ønsker vi å oppnå den beste kryssvalideringsscoren på datasettet vårt, siden kryssvalidering er mer stabil og mindre følsom for hvordan dataene deles sammenlignet med train-test-splitt.
Målet er å identifisere de hyperparametrene som gir den beste kryssvalideringsscoren, noe som er akkurat det GridSearchCV
er laget for. Denne prosessen resulterer i en finjustert modell som presterer optimalt på treningsdatasettet. GridSearchCV
gir også en .best_score_
-attributt, som viser den høyeste kryssvalideringsscoren oppnådd under hyperparameterjusteringen.
Vanligvis deles datasettet først inn i trenings- og testsett. Deretter finjusteres modellen på hele treningssettet ved hjelp av kryssvalidering for å identifisere den beste modellen. Til slutt vurderes modellens ytelse på testsettet, som består av helt ukjente data, for å anslå modellens anvendelighet i praksis.
La oss oppsummere. Vi trenger:
- Forbehandle dataene;
- Dele opp i trenings- og testsett;
- Finne modellen med best kryssvalideringsscore på treningssettet;
- Evaluere den beste modellen på testsettet.
Før vi går videre til den siste utfordringen, er det viktig å merke seg at kryssvalidering ikke er den eneste metoden for å finjustere modeller. Etter hvert som datasett blir større, blir beregning av kryssvalideringsscore mer tidkrevende, og den vanlige trenings-test-delingen gir mer stabilitet på grunn av den økte størrelsen på testsettet.
Derfor deles store datasett ofte inn i tre sett: et treningssett, et valideringssett og et testsett. Modellen trenes på treningssettet og evalueres på valideringssettet for å velge modellen eller hyperparametrene som presterer best.
Dette utvalget bruker valideringssettscore i stedet for kryssvalideringsscore. Til slutt vurderes den valgte modellen på testsettet, som består av helt ukjente data, for å verifisere ytelsen.
Vårt penguins-datasett er ikke stort. Det er faktisk veldig lite (342 forekomster), så vi vil bruke tilnærmingen med kryssvalideringsscore i neste kapittel.
Takk for tilbakemeldingene dine!