Svep för att visa menyn

Du kan nu bygga en modell, använda pipelines och justera hyperparametrar. Du har också lärt dig två utvärderingsmetoder: train-test split och korsvalidering. Nästa steg är att kombinera utvärdering och justering med hjälp av GridSearchCV eller RandomizedSearchCV.

Notering

Eftersom vår datamängd är liten kommer vi att använda GridSearchCV, men allt som nämns nedan gäller även för en RandomizedSearchCV.

Eftersom korsvalidering är mer stabil än en enskild train-test split är målet att uppnå det högsta korsvalideringsresultatet. GridSearchCV söker bland hyperparametrar och hittar de som maximerar detta resultat. Det bästa resultatet sparas i .best_score_.

Notering

Hyperparametrar som fungerar bäst för ett dataset kan inte generaliseras när ny data tillkommer. Därför kan .best_score_ vara högre än modellens prestanda på helt osedd data.

Ett vanligt arbetsflöde: dela upp i tränings- och testmängder; kör korsvalidering på träningsmängden för att justera modellen; utvärdera sedan den optimerade modellen på testmängden för att mäta verklig prestanda.

Sammanfattningsvis:

Förbehandla data;
Dela upp i tränings- och testuppsättningar;
Använd korsvalidering på träningsuppsättningen för att hitta den bästa konfigurationen;
Utvärdera på testuppsättningen.

Läs mer

Det tredje steget innebär vanligtvis att testa flera algoritmer och justera deras hyperparametrar för att identifiera det bästa alternativet. För enkelhetens skull användes endast en algoritm i denna kurs.

Korsvalidering är inte alltid det bästa alternativet. För stora datamängder blir beräkningen av CV-poäng kostsam, medan en train-test-split blir mer stabil tack vare den stora testuppsättningen.

Stora datamängder delas ofta upp i träningsset, valideringsset och testset. Hyperparametrar väljs baserat på prestanda på valideringssetet. Slutligen utvärderas den valda modellen på testsetet för att verifiera hur väl den generaliserar.

Penguins dataset är litet, med endast 342 instanser. På grund av denna begränsade storlek kommer korsvalideringspoäng att användas för utvärdering i nästa kapitel.

Var allt tydligt?

Tack för dina kommentarer!

Avsnitt 4. Kapitel 9

Fråga AI

Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal

Sammanfattning av Modellering

Notering

Eftersom vår datamängd är liten kommer vi att använda GridSearchCV, men allt som nämns nedan gäller även för en RandomizedSearchCV.

Notering

Hyperparametrar som fungerar bäst för ett dataset kan inte generaliseras när ny data tillkommer. Därför kan .best_score_ vara högre än modellens prestanda på helt osedd data.

Sammanfattningsvis:

Förbehandla data;
Dela upp i tränings- och testuppsättningar;
Använd korsvalidering på träningsuppsättningen för att hitta den bästa konfigurationen;
Utvärdera på testuppsättningen.

Läs mer

Penguins dataset är litet, med endast 342 instanser. På grund av denna begränsade storlek kommer korsvalideringspoäng att användas för utvärdering i nästa kapitel.

Var allt tydligt?

Tack för dina kommentarer!

Avsnitt 4. Kapitel 9