Samenvatting Modellering
Veeg om het menu te tonen
Je weet nu hoe je een model bouwt, pipelines gebruikt en hyperparameters afstemt. Je hebt ook twee evaluatiemethoden geleerd: train-test split en cross-validatie.
De volgende stap is het combineren van evaluatie en afstemming met behulp van GridSearchCV of RandomizedSearchCV.
Omdat onze dataset klein is, gebruiken we de GridSearchCV, maar alles wat hieronder wordt besproken geldt ook voor een RandomizedSearchCV.
Omdat cross-validatie stabieler is dan een enkele train-test split, is het doel om de hoogste cross-validatiescore te behalen.
GridSearchCV zoekt naar hyperparameters en vindt degene die deze score maximaliseren. De beste score wordt opgeslagen in .best_score_.
Hyperparameters die het beste werken voor één dataset kunnen niet generaliseren wanneer er nieuwe data binnenkomt.
Daarom kan .best_score_ hoger zijn dan de prestatie van het model op volledig ongeziene data.
Een veelgebruikte workflow: splitsen in trainings- en testsets; cross-validatie uitvoeren op de trainingsset om het model af te stemmen; vervolgens het geoptimaliseerde model evalueren op de testset om de prestaties in de praktijk te meten.
Samenvatting:
- Gegevens preprocessen;
- Verdelen in trainings- en testsets;
- Cross-validatie toepassen op de trainingsset om de beste configuratie te vinden;
- Evalueren op de testset.
De derde stap omvat meestal het testen van meerdere algoritmen en het afstemmen van hun hyperparameters om de beste optie te bepalen. Voor de eenvoud is in deze cursus slechts één algoritme gebruikt.
Cross-validatie is niet altijd de beste optie. Voor grote datasets wordt het berekenen van CV-scores kostbaar, terwijl een train-test split stabieler wordt dankzij de grote testset.
Grote datasets worden vaak opgesplitst in trainingssets, validatiesets en testsets. Hyperparameters worden gekozen op basis van de prestaties op de validatieset. Ten slotte wordt het geselecteerde model geëvalueerd op de testset om te verifiëren hoe goed het generaliseert.
De penguins dataset is klein, met slechts 342 voorbeelden. Vanwege deze beperkte omvang zal in het volgende hoofdstuk de cross-validatiescore worden gebruikt voor evaluatie.
Bedankt voor je feedback!
Vraag AI
Vraag AI
Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.