Samenvatting Modellering
Je hebt nu geleerd hoe je een model bouwt, dit integreert in een pipeline en hyperparameters afstemt. Twee evaluatiemethoden zijn ook behandeld: de train-test split en cross-validatie.
De volgende stap is het combineren van modelevaluatie met hyperparameterafstemming met behulp van GridSearchCV
of RandomizedSearchCV
.
Aangezien onze dataset klein is, gebruiken we de GridSearchCV
, maar alles wat hieronder wordt besproken geldt ook voor een RandomizedSearchCV
.
Het doel is om de hoogste cross-validatiescore op de dataset te behalen, aangezien cross-validatie stabieler is en minder afhankelijk van hoe de data is gesplitst dan de train-test methode.
GridSearchCV
is speciaal ontworpen voor dit doel: het identificeert de hyperparameters die de beste cross-validatiescore opleveren, wat resulteert in een fijn afgesteld model dat optimaal presteert op de trainingsdata.
Het attribuut .best_score_
slaat de hoogste cross-validatiescore op die tijdens de zoekprocedure is gevonden.
De beste hyperparameters voor één specifiek dataset zijn mogelijk niet de beste in het algemeen. Als er nieuwe data wordt toegevoegd, kunnen de optimale hyperparameters veranderen.
Hierdoor kan de behaalde .best_score_
hoger zijn dan de prestaties op volledig onbekende data, omdat de hyperparameters mogelijk minder goed generaliseren buiten de trainingsdataset.
Gewoonlijk wordt de dataset eerst opgesplitst in trainings- en testsets. Vervolgens wordt cross-validatie toegepast op de trainingsset om het model te verfijnen en de beste configuratie te bepalen. Ten slotte wordt het geoptimaliseerde model geëvalueerd op de testset, die volledig onbekende data bevat, om de praktijkprestaties te beoordelen.
Samengevat bestaat de volledige workflow uit:
- Het preprocessen van de data;
- Het splitsen van de dataset in trainings- en testsets;
- Het toepassen van cross-validatie op de trainingsset om het best presterende model te vinden;
- Het evalueren van dat model op de testset.
De derde stap omvat doorgaans het testen van meerdere algoritmen en het afstemmen van hun hyperparameters om de beste optie te identificeren. Voor de eenvoud is in deze cursus slechts één algoritme gebruikt.
Voordat u doorgaat naar de laatste uitdaging, is het belangrijk op te merken dat cross-validatie niet de enige methode is voor het verfijnen van modellen. Naarmate datasets groter worden, kost het berekenen van cross-validatiescores meer tijd, en biedt de reguliere train-test-split meer stabiliteit door de toegenomen omvang van de testset.
Daarom worden grote datasets vaak verdeeld in drie sets: een trainingsset, een validatieset en een testset. Het model wordt getraind op de trainingsset en geëvalueerd op de validatieset om het model of de hyperparameters te selecteren die het beste presteren.
Deze selectie maakt gebruik van de validatiesetscores in plaats van cross-validatiescores. Ten slotte wordt het gekozen model beoordeeld op de testset, die volledig uit ongeziene data bestaat, om de prestaties te verifiëren.
De penguins dataset is klein, met slechts 342 voorbeelden. Vanwege deze beperkte omvang zal in het volgende hoofdstuk de cross-validatiescore worden gebruikt voor evaluatie.
Bedankt voor je feedback!
Vraag AI
Vraag AI
Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.
Awesome!
Completion rate improved to 3.13
Samenvatting Modellering
Veeg om het menu te tonen
Je hebt nu geleerd hoe je een model bouwt, dit integreert in een pipeline en hyperparameters afstemt. Twee evaluatiemethoden zijn ook behandeld: de train-test split en cross-validatie.
De volgende stap is het combineren van modelevaluatie met hyperparameterafstemming met behulp van GridSearchCV
of RandomizedSearchCV
.
Aangezien onze dataset klein is, gebruiken we de GridSearchCV
, maar alles wat hieronder wordt besproken geldt ook voor een RandomizedSearchCV
.
Het doel is om de hoogste cross-validatiescore op de dataset te behalen, aangezien cross-validatie stabieler is en minder afhankelijk van hoe de data is gesplitst dan de train-test methode.
GridSearchCV
is speciaal ontworpen voor dit doel: het identificeert de hyperparameters die de beste cross-validatiescore opleveren, wat resulteert in een fijn afgesteld model dat optimaal presteert op de trainingsdata.
Het attribuut .best_score_
slaat de hoogste cross-validatiescore op die tijdens de zoekprocedure is gevonden.
De beste hyperparameters voor één specifiek dataset zijn mogelijk niet de beste in het algemeen. Als er nieuwe data wordt toegevoegd, kunnen de optimale hyperparameters veranderen.
Hierdoor kan de behaalde .best_score_
hoger zijn dan de prestaties op volledig onbekende data, omdat de hyperparameters mogelijk minder goed generaliseren buiten de trainingsdataset.
Gewoonlijk wordt de dataset eerst opgesplitst in trainings- en testsets. Vervolgens wordt cross-validatie toegepast op de trainingsset om het model te verfijnen en de beste configuratie te bepalen. Ten slotte wordt het geoptimaliseerde model geëvalueerd op de testset, die volledig onbekende data bevat, om de praktijkprestaties te beoordelen.
Samengevat bestaat de volledige workflow uit:
- Het preprocessen van de data;
- Het splitsen van de dataset in trainings- en testsets;
- Het toepassen van cross-validatie op de trainingsset om het best presterende model te vinden;
- Het evalueren van dat model op de testset.
De derde stap omvat doorgaans het testen van meerdere algoritmen en het afstemmen van hun hyperparameters om de beste optie te identificeren. Voor de eenvoud is in deze cursus slechts één algoritme gebruikt.
Voordat u doorgaat naar de laatste uitdaging, is het belangrijk op te merken dat cross-validatie niet de enige methode is voor het verfijnen van modellen. Naarmate datasets groter worden, kost het berekenen van cross-validatiescores meer tijd, en biedt de reguliere train-test-split meer stabiliteit door de toegenomen omvang van de testset.
Daarom worden grote datasets vaak verdeeld in drie sets: een trainingsset, een validatieset en een testset. Het model wordt getraind op de trainingsset en geëvalueerd op de validatieset om het model of de hyperparameters te selecteren die het beste presteren.
Deze selectie maakt gebruik van de validatiesetscores in plaats van cross-validatiescores. Ten slotte wordt het gekozen model beoordeeld op de testset, die volledig uit ongeziene data bestaat, om de prestaties te verifiëren.
De penguins dataset is klein, met slechts 342 voorbeelden. Vanwege deze beperkte omvang zal in het volgende hoofdstuk de cross-validatiescore worden gebruikt voor evaluatie.
Bedankt voor je feedback!