Sammanfattning av Modellering
Du vet nu hur man bygger en modell, använder pipelines och justerar hyperparametrar. Du har även lärt dig två utvärderingsmetoder: train-test split och korsvalidering.
Nästa steg är att kombinera utvärdering och justering med hjälp av GridSearchCV eller RandomizedSearchCV.
Eftersom vår datamängd är liten kommer vi att använda GridSearchCV, men allt som nämns nedan gäller även för RandomizedSearchCV.
Eftersom korsvalidering är mer stabil än en enskild train-test split är målet att uppnå det högsta korsvalideringsresultatet.
GridSearchCV söker över hyperparametrar och hittar de som maximerar detta resultat. Det bästa resultatet sparas i .best_score_.
Hyperparametrar som fungerar bäst för ett dataset kan inte generaliseras när ny data tillkommer.
Därför kan .best_score_ vara högre än modellens prestanda på helt osedd data.
Ett vanligt arbetsflöde: dela upp i tränings- och testmängder; kör korsvalidering på träningsmängden för att justera modellen; utvärdera sedan den optimerade modellen på testmängden för att mäta verklig prestanda.
Sammanfattningsvis:
- Förbehandla data;
- Dela upp i tränings- och testmängder;
- Använd korsvalidering på träningsmängden för att hitta bästa konfigurationen;
- Utvärdera på testmängden.
Det tredje steget innebär vanligtvis att testa flera algoritmer och justera deras hyperparametrar för att identifiera det bästa alternativet. För enkelhetens skull användes endast en algoritm i denna kurs.
Korsvalidering är inte alltid det bästa alternativet. För stora datamängder blir beräkningen av CV-poäng kostsam, medan en train-test-uppdelning blir mer stabil tack vare den stora testmängden.
Stora datamängder delas ofta upp i träningsset, valideringsset och testset. Hyperparametrar väljs baserat på prestanda på valideringssetet. Slutligen utvärderas den valda modellen på testsetet för att verifiera hur väl den generaliserar.
Penguins-datasetet är litet, med endast 342 instanser. På grund av denna begränsade storlek kommer korsvalideringspoängen att användas för utvärdering i nästa kapitel.
Tack för dina kommentarer!
Fråga AI
Fråga AI
Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal
Awesome!
Completion rate improved to 3.13
Sammanfattning av Modellering
Svep för att visa menyn
Du vet nu hur man bygger en modell, använder pipelines och justerar hyperparametrar. Du har även lärt dig två utvärderingsmetoder: train-test split och korsvalidering.
Nästa steg är att kombinera utvärdering och justering med hjälp av GridSearchCV eller RandomizedSearchCV.
Eftersom vår datamängd är liten kommer vi att använda GridSearchCV, men allt som nämns nedan gäller även för RandomizedSearchCV.
Eftersom korsvalidering är mer stabil än en enskild train-test split är målet att uppnå det högsta korsvalideringsresultatet.
GridSearchCV söker över hyperparametrar och hittar de som maximerar detta resultat. Det bästa resultatet sparas i .best_score_.
Hyperparametrar som fungerar bäst för ett dataset kan inte generaliseras när ny data tillkommer.
Därför kan .best_score_ vara högre än modellens prestanda på helt osedd data.
Ett vanligt arbetsflöde: dela upp i tränings- och testmängder; kör korsvalidering på träningsmängden för att justera modellen; utvärdera sedan den optimerade modellen på testmängden för att mäta verklig prestanda.
Sammanfattningsvis:
- Förbehandla data;
- Dela upp i tränings- och testmängder;
- Använd korsvalidering på träningsmängden för att hitta bästa konfigurationen;
- Utvärdera på testmängden.
Det tredje steget innebär vanligtvis att testa flera algoritmer och justera deras hyperparametrar för att identifiera det bästa alternativet. För enkelhetens skull användes endast en algoritm i denna kurs.
Korsvalidering är inte alltid det bästa alternativet. För stora datamängder blir beräkningen av CV-poäng kostsam, medan en train-test-uppdelning blir mer stabil tack vare den stora testmängden.
Stora datamängder delas ofta upp i träningsset, valideringsset och testset. Hyperparametrar väljs baserat på prestanda på valideringssetet. Slutligen utvärderas den valda modellen på testsetet för att verifiera hur väl den generaliserar.
Penguins-datasetet är litet, med endast 342 instanser. På grund av denna begränsade storlek kommer korsvalideringspoängen att användas för utvärdering i nästa kapitel.
Tack för dina kommentarer!