Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Leer Samenvatting Modellering | Modellering
Introductie tot Machine Learning met Python

bookSamenvatting Modellering

Je weet nu hoe je een model bouwt, pipelines gebruikt en hyperparameters afstemt. Je hebt ook twee evaluatiemethoden geleerd: train-test split en cross-validatie. De volgende stap is het combineren van evaluatie en afstemming met behulp van GridSearchCV of RandomizedSearchCV.

Note
Opmerking

Omdat onze dataset klein is, gebruiken we de GridSearchCV, maar alles wat hieronder wordt besproken geldt ook voor een RandomizedSearchCV.

Omdat cross-validatie stabieler is dan een enkele train-test split, is het doel om de hoogste cross-validatiescore te behalen. GridSearchCV zoekt naar hyperparameters en vindt die welke deze score maximaliseren. De beste score wordt opgeslagen in .best_score_.

Note
Opmerking

Hyperparameters die het beste werken voor één dataset kunnen niet generaliseren wanneer er nieuwe data beschikbaar komt. Hierdoor kan .best_score_ hoger zijn dan de prestatie van het model op volledig ongeziene data.

Een gebruikelijke workflow: splitsen in trainings- en testsets; voer cross-validatie uit op de trainingsset om het model af te stemmen; evalueer vervolgens het geoptimaliseerde model op de testset om de prestaties in de praktijk te meten.

Samengevat:

  1. Preprocessing van de data;
  2. Splitsen in trainings- en testsets;
  3. Gebruik cross-validatie op de trainingsset om de beste configuratie te vinden;
  4. Evaluatie op de testset.
Note
Meer Bestuderen

De derde stap omvat meestal het testen van meerdere algoritmen en het afstemmen van hun hyperparameters om de beste optie te identificeren. Voor de eenvoud is in deze cursus slechts één algoritme gebruikt.

Kruisvalidering is niet altijd de beste optie. Voor grote datasets wordt het berekenen van CV-scores kostbaar, terwijl een train-test-split stabieler wordt dankzij de grote testset.

Grote datasets worden vaak opgesplitst in trainingssets, validatiesets en testsets. Hyperparameters worden gekozen op basis van de prestaties op de validatieset. Ten slotte wordt het geselecteerde model geëvalueerd op de testset om te verifiëren hoe goed het generaliseert.

De penguins dataset is klein, met slechts 342 voorbeelden. Vanwege deze beperkte omvang zal in het volgende hoofdstuk de cross-validatiescore worden gebruikt voor evaluatie.

question mark

Waarom is cross-validatie bijzonder waardevol voor hyperparameterafstemming bij kleinere datasets, in tegenstelling tot grotere datasets waarbij train-test splits vaker de voorkeur hebben?

Select the correct answer

Was alles duidelijk?

Hoe kunnen we het verbeteren?

Bedankt voor je feedback!

Sectie 4. Hoofdstuk 9

Vraag AI

expand

Vraag AI

ChatGPT

Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.

bookSamenvatting Modellering

Veeg om het menu te tonen

Je weet nu hoe je een model bouwt, pipelines gebruikt en hyperparameters afstemt. Je hebt ook twee evaluatiemethoden geleerd: train-test split en cross-validatie. De volgende stap is het combineren van evaluatie en afstemming met behulp van GridSearchCV of RandomizedSearchCV.

Note
Opmerking

Omdat onze dataset klein is, gebruiken we de GridSearchCV, maar alles wat hieronder wordt besproken geldt ook voor een RandomizedSearchCV.

Omdat cross-validatie stabieler is dan een enkele train-test split, is het doel om de hoogste cross-validatiescore te behalen. GridSearchCV zoekt naar hyperparameters en vindt die welke deze score maximaliseren. De beste score wordt opgeslagen in .best_score_.

Note
Opmerking

Hyperparameters die het beste werken voor één dataset kunnen niet generaliseren wanneer er nieuwe data beschikbaar komt. Hierdoor kan .best_score_ hoger zijn dan de prestatie van het model op volledig ongeziene data.

Een gebruikelijke workflow: splitsen in trainings- en testsets; voer cross-validatie uit op de trainingsset om het model af te stemmen; evalueer vervolgens het geoptimaliseerde model op de testset om de prestaties in de praktijk te meten.

Samengevat:

  1. Preprocessing van de data;
  2. Splitsen in trainings- en testsets;
  3. Gebruik cross-validatie op de trainingsset om de beste configuratie te vinden;
  4. Evaluatie op de testset.
Note
Meer Bestuderen

De derde stap omvat meestal het testen van meerdere algoritmen en het afstemmen van hun hyperparameters om de beste optie te identificeren. Voor de eenvoud is in deze cursus slechts één algoritme gebruikt.

Kruisvalidering is niet altijd de beste optie. Voor grote datasets wordt het berekenen van CV-scores kostbaar, terwijl een train-test-split stabieler wordt dankzij de grote testset.

Grote datasets worden vaak opgesplitst in trainingssets, validatiesets en testsets. Hyperparameters worden gekozen op basis van de prestaties op de validatieset. Ten slotte wordt het geselecteerde model geëvalueerd op de testset om te verifiëren hoe goed het generaliseert.

De penguins dataset is klein, met slechts 342 voorbeelden. Vanwege deze beperkte omvang zal in het volgende hoofdstuk de cross-validatiescore worden gebruikt voor evaluatie.

question mark

Waarom is cross-validatie bijzonder waardevol voor hyperparameterafstemming bij kleinere datasets, in tegenstelling tot grotere datasets waarbij train-test splits vaker de voorkeur hebben?

Select the correct answer

Was alles duidelijk?

Hoe kunnen we het verbeteren?

Bedankt voor je feedback!

Sectie 4. Hoofdstuk 9
some-alt