Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Leer Samenvatting Modellering | Modelleren
ML-Introductie met Scikit-learn

bookSamenvatting Modellering

Je hebt nu geleerd hoe je een model bouwt, dit integreert in een pipeline en hyperparameters afstemt. Twee evaluatiemethoden zijn ook behandeld: de train-test split en cross-validatie.

De volgende stap is het combineren van modelevaluatie met hyperparameterafstemming met behulp van GridSearchCV of RandomizedSearchCV.

Note
Opmerking

Aangezien onze dataset klein is, gebruiken we de GridSearchCV, maar alles wat hieronder wordt besproken geldt ook voor een RandomizedSearchCV.

Het doel is om de hoogste cross-validatiescore op de dataset te behalen, aangezien cross-validatie stabieler is en minder afhankelijk van hoe de data is gesplitst dan de train-test methode.

GridSearchCV is speciaal ontworpen voor dit doel: het identificeert de hyperparameters die de beste cross-validatiescore opleveren, wat resulteert in een fijn afgesteld model dat optimaal presteert op de trainingsdata.

Het attribuut .best_score_ slaat de hoogste cross-validatiescore op die tijdens de zoekprocedure is gevonden.

Note
Opmerking

De beste hyperparameters voor één specifiek dataset zijn mogelijk niet de beste in het algemeen. Als er nieuwe data wordt toegevoegd, kunnen de optimale hyperparameters veranderen.

Hierdoor kan de behaalde .best_score_ hoger zijn dan de prestaties op volledig onbekende data, omdat de hyperparameters mogelijk minder goed generaliseren buiten de trainingsdataset.

Gewoonlijk wordt de dataset eerst opgesplitst in trainings- en testsets. Vervolgens wordt cross-validatie toegepast op de trainingsset om het model te verfijnen en de beste configuratie te bepalen. Ten slotte wordt het geoptimaliseerde model geëvalueerd op de testset, die volledig onbekende data bevat, om de praktijkprestaties te beoordelen.

Samengevat bestaat de volledige workflow uit:

  1. Het preprocessen van de data;
  2. Het splitsen van de dataset in trainings- en testsets;
  3. Het toepassen van cross-validatie op de trainingsset om het best presterende model te vinden;
  4. Het evalueren van dat model op de testset.
Note
Meer Bestuderen

De derde stap omvat doorgaans het testen van meerdere algoritmen en het afstemmen van hun hyperparameters om de beste optie te identificeren. Voor de eenvoud is in deze cursus slechts één algoritme gebruikt.

Voordat u doorgaat naar de laatste uitdaging, is het belangrijk op te merken dat cross-validatie niet de enige methode is voor het verfijnen van modellen. Naarmate datasets groter worden, kost het berekenen van cross-validatiescores meer tijd, en biedt de reguliere train-test-split meer stabiliteit door de toegenomen omvang van de testset.

Daarom worden grote datasets vaak verdeeld in drie sets: een trainingsset, een validatieset en een testset. Het model wordt getraind op de trainingsset en geëvalueerd op de validatieset om het model of de hyperparameters te selecteren die het beste presteren.

Deze selectie maakt gebruik van de validatiesetscores in plaats van cross-validatiescores. Ten slotte wordt het gekozen model beoordeeld op de testset, die volledig uit ongeziene data bestaat, om de prestaties te verifiëren.

De penguins dataset is klein, met slechts 342 voorbeelden. Vanwege deze beperkte omvang zal in het volgende hoofdstuk de cross-validatiescore worden gebruikt voor evaluatie.

question mark

Waarom is cross-validatie bijzonder waardevol voor hyperparameterafstemming bij kleinere datasets, in tegenstelling tot grotere datasets waar train-test splits vaker de voorkeur hebben?

Select the correct answer

Was alles duidelijk?

Hoe kunnen we het verbeteren?

Bedankt voor je feedback!

Sectie 4. Hoofdstuk 9

Vraag AI

expand

Vraag AI

ChatGPT

Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.

Awesome!

Completion rate improved to 3.13

bookSamenvatting Modellering

Veeg om het menu te tonen

Je hebt nu geleerd hoe je een model bouwt, dit integreert in een pipeline en hyperparameters afstemt. Twee evaluatiemethoden zijn ook behandeld: de train-test split en cross-validatie.

De volgende stap is het combineren van modelevaluatie met hyperparameterafstemming met behulp van GridSearchCV of RandomizedSearchCV.

Note
Opmerking

Aangezien onze dataset klein is, gebruiken we de GridSearchCV, maar alles wat hieronder wordt besproken geldt ook voor een RandomizedSearchCV.

Het doel is om de hoogste cross-validatiescore op de dataset te behalen, aangezien cross-validatie stabieler is en minder afhankelijk van hoe de data is gesplitst dan de train-test methode.

GridSearchCV is speciaal ontworpen voor dit doel: het identificeert de hyperparameters die de beste cross-validatiescore opleveren, wat resulteert in een fijn afgesteld model dat optimaal presteert op de trainingsdata.

Het attribuut .best_score_ slaat de hoogste cross-validatiescore op die tijdens de zoekprocedure is gevonden.

Note
Opmerking

De beste hyperparameters voor één specifiek dataset zijn mogelijk niet de beste in het algemeen. Als er nieuwe data wordt toegevoegd, kunnen de optimale hyperparameters veranderen.

Hierdoor kan de behaalde .best_score_ hoger zijn dan de prestaties op volledig onbekende data, omdat de hyperparameters mogelijk minder goed generaliseren buiten de trainingsdataset.

Gewoonlijk wordt de dataset eerst opgesplitst in trainings- en testsets. Vervolgens wordt cross-validatie toegepast op de trainingsset om het model te verfijnen en de beste configuratie te bepalen. Ten slotte wordt het geoptimaliseerde model geëvalueerd op de testset, die volledig onbekende data bevat, om de praktijkprestaties te beoordelen.

Samengevat bestaat de volledige workflow uit:

  1. Het preprocessen van de data;
  2. Het splitsen van de dataset in trainings- en testsets;
  3. Het toepassen van cross-validatie op de trainingsset om het best presterende model te vinden;
  4. Het evalueren van dat model op de testset.
Note
Meer Bestuderen

De derde stap omvat doorgaans het testen van meerdere algoritmen en het afstemmen van hun hyperparameters om de beste optie te identificeren. Voor de eenvoud is in deze cursus slechts één algoritme gebruikt.

Voordat u doorgaat naar de laatste uitdaging, is het belangrijk op te merken dat cross-validatie niet de enige methode is voor het verfijnen van modellen. Naarmate datasets groter worden, kost het berekenen van cross-validatiescores meer tijd, en biedt de reguliere train-test-split meer stabiliteit door de toegenomen omvang van de testset.

Daarom worden grote datasets vaak verdeeld in drie sets: een trainingsset, een validatieset en een testset. Het model wordt getraind op de trainingsset en geëvalueerd op de validatieset om het model of de hyperparameters te selecteren die het beste presteren.

Deze selectie maakt gebruik van de validatiesetscores in plaats van cross-validatiescores. Ten slotte wordt het gekozen model beoordeeld op de testset, die volledig uit ongeziene data bestaat, om de prestaties te verifiëren.

De penguins dataset is klein, met slechts 342 voorbeelden. Vanwege deze beperkte omvang zal in het volgende hoofdstuk de cross-validatiescore worden gebruikt voor evaluatie.

question mark

Waarom is cross-validatie bijzonder waardevol voor hyperparameterafstemming bij kleinere datasets, in tegenstelling tot grotere datasets waar train-test splits vaker de voorkeur hebben?

Select the correct answer

Was alles duidelijk?

Hoe kunnen we het verbeteren?

Bedankt voor je feedback!

Sectie 4. Hoofdstuk 9
some-alt