Samenvatting Modellering
Je hebt nu geleerd hoe je een model bouwt, dit integreert in een pipeline en hyperparameters afstemt. Twee evaluatiemethoden zijn ook behandeld: de train-test split en cross-validatie.
De volgende stap is het combineren van modelevaluatie met hyperparameterafstemming met behulp van GridSearchCV of RandomizedSearchCV.
Aangezien onze dataset klein is, gebruiken we de GridSearchCV, maar alles wat hieronder wordt besproken geldt ook voor een RandomizedSearchCV.
Het doel is om de hoogste cross-validatiescore op de dataset te behalen, aangezien cross-validatie stabieler is en minder afhankelijk van de manier waarop de data is gesplitst dan de train-test aanpak.
GridSearchCV is specifiek ontworpen voor dit doel: het identificeert de hyperparameters die de beste cross-validatiescore opleveren, wat resulteert in een fijn afgesteld model dat optimaal presteert op de trainingsdata.
Het attribuut .best_score_ slaat de hoogste cross-validatiescore op die tijdens de zoekprocedure is gevonden.
De beste hyperparameters voor één specifiek dataset zijn mogelijk niet de beste in het algemeen. Als er nieuwe data wordt toegevoegd, kunnen de optimale hyperparameters veranderen.
Hierdoor kan de behaalde .best_score_ hoger zijn dan de prestatie op volledig ongeziene data, omdat de hyperparameters mogelijk minder goed generaliseren buiten de trainingsdataset.
Doorgaans wordt de dataset eerst gesplitst in trainings- en testsets. Vervolgens wordt cross-validatie toegepast op de trainingsset om het model te verfijnen en de beste configuratie te bepalen. Ten slotte wordt het geoptimaliseerde model geëvalueerd op de testset, die volledig ongeziene data bevat, om de praktijkprestatie te beoordelen.
Samengevat bestaat de volledige workflow uit:
- Voorbewerken van de data;
- Splitsen van de dataset in trainings- en testsets;
- Gebruik van cross-validatie op de trainingsset om het best presterende model te vinden;
- Evaluatie van dat model op de testset.
De derde stap omvat doorgaans het testen van meerdere algoritmen en het afstemmen van hun hyperparameters om de beste optie te identificeren. Voor de eenvoud is in deze cursus slechts één algoritme gebruikt.
Voordat u doorgaat naar de laatste uitdaging, is het belangrijk op te merken dat cross-validatie niet de enige methode is voor het verfijnen van modellen. Naarmate datasets groter worden, kost het berekenen van cross-validatiescores meer tijd, en biedt de reguliere train-test-split meer stabiliteit vanwege de grotere omvang van de testset.
Daarom worden grote datasets vaak verdeeld in drie sets: een trainingsset, een validatieset en een testset. Het model wordt getraind op de trainingsset en geëvalueerd op de validatieset om het model of de hyperparameters te selecteren die het beste presteren.
Deze selectie maakt gebruik van de validatieset-scores in plaats van cross-validatiescores. Ten slotte wordt het gekozen model beoordeeld op de testset, die volledig uit ongeziene data bestaat, om de prestaties te verifiëren.
De penguins dataset is klein, met slechts 342 voorbeelden. Vanwege deze beperkte omvang zal in het volgende hoofdstuk de cross-validatiescore worden gebruikt voor evaluatie.
Bedankt voor je feedback!
Vraag AI
Vraag AI
Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.
Awesome!
Completion rate improved to 3.13
Samenvatting Modellering
Veeg om het menu te tonen
Je hebt nu geleerd hoe je een model bouwt, dit integreert in een pipeline en hyperparameters afstemt. Twee evaluatiemethoden zijn ook behandeld: de train-test split en cross-validatie.
De volgende stap is het combineren van modelevaluatie met hyperparameterafstemming met behulp van GridSearchCV of RandomizedSearchCV.
Aangezien onze dataset klein is, gebruiken we de GridSearchCV, maar alles wat hieronder wordt besproken geldt ook voor een RandomizedSearchCV.
Het doel is om de hoogste cross-validatiescore op de dataset te behalen, aangezien cross-validatie stabieler is en minder afhankelijk van de manier waarop de data is gesplitst dan de train-test aanpak.
GridSearchCV is specifiek ontworpen voor dit doel: het identificeert de hyperparameters die de beste cross-validatiescore opleveren, wat resulteert in een fijn afgesteld model dat optimaal presteert op de trainingsdata.
Het attribuut .best_score_ slaat de hoogste cross-validatiescore op die tijdens de zoekprocedure is gevonden.
De beste hyperparameters voor één specifiek dataset zijn mogelijk niet de beste in het algemeen. Als er nieuwe data wordt toegevoegd, kunnen de optimale hyperparameters veranderen.
Hierdoor kan de behaalde .best_score_ hoger zijn dan de prestatie op volledig ongeziene data, omdat de hyperparameters mogelijk minder goed generaliseren buiten de trainingsdataset.
Doorgaans wordt de dataset eerst gesplitst in trainings- en testsets. Vervolgens wordt cross-validatie toegepast op de trainingsset om het model te verfijnen en de beste configuratie te bepalen. Ten slotte wordt het geoptimaliseerde model geëvalueerd op de testset, die volledig ongeziene data bevat, om de praktijkprestatie te beoordelen.
Samengevat bestaat de volledige workflow uit:
- Voorbewerken van de data;
- Splitsen van de dataset in trainings- en testsets;
- Gebruik van cross-validatie op de trainingsset om het best presterende model te vinden;
- Evaluatie van dat model op de testset.
De derde stap omvat doorgaans het testen van meerdere algoritmen en het afstemmen van hun hyperparameters om de beste optie te identificeren. Voor de eenvoud is in deze cursus slechts één algoritme gebruikt.
Voordat u doorgaat naar de laatste uitdaging, is het belangrijk op te merken dat cross-validatie niet de enige methode is voor het verfijnen van modellen. Naarmate datasets groter worden, kost het berekenen van cross-validatiescores meer tijd, en biedt de reguliere train-test-split meer stabiliteit vanwege de grotere omvang van de testset.
Daarom worden grote datasets vaak verdeeld in drie sets: een trainingsset, een validatieset en een testset. Het model wordt getraind op de trainingsset en geëvalueerd op de validatieset om het model of de hyperparameters te selecteren die het beste presteren.
Deze selectie maakt gebruik van de validatieset-scores in plaats van cross-validatiescores. Ten slotte wordt het gekozen model beoordeeld op de testset, die volledig uit ongeziene data bestaat, om de prestaties te verifiëren.
De penguins dataset is klein, met slechts 342 voorbeelden. Vanwege deze beperkte omvang zal in het volgende hoofdstuk de cross-validatiescore worden gebruikt voor evaluatie.
Bedankt voor je feedback!