Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Leer Samenvatting Modellering | Modellering
Introductie tot Machine Learning met Python

Samenvatting Modellering

Veeg om het menu te tonen

Je weet nu hoe je een model bouwt, pipelines gebruikt en hyperparameters afstemt. Je hebt ook twee evaluatiemethoden geleerd: train-test split en cross-validatie. De volgende stap is het combineren van evaluatie en afstemming met behulp van GridSearchCV of RandomizedSearchCV.

Note
Opmerking

Omdat onze dataset klein is, gebruiken we de GridSearchCV, maar alles wat hieronder wordt besproken geldt ook voor een RandomizedSearchCV.

Omdat cross-validatie stabieler is dan een enkele train-test split, is het doel om de hoogste cross-validatiescore te behalen. GridSearchCV zoekt naar hyperparameters en vindt degene die deze score maximaliseren. De beste score wordt opgeslagen in .best_score_.

Note
Opmerking

Hyperparameters die het beste werken voor één dataset kunnen niet generaliseren wanneer er nieuwe data binnenkomt. Daarom kan .best_score_ hoger zijn dan de prestatie van het model op volledig ongeziene data.

Een veelgebruikte workflow: splitsen in trainings- en testsets; cross-validatie uitvoeren op de trainingsset om het model af te stemmen; vervolgens het geoptimaliseerde model evalueren op de testset om de prestaties in de praktijk te meten.

Train-test split

Samenvatting:

  1. Gegevens preprocessen;
  2. Verdelen in trainings- en testsets;
  3. Cross-validatie toepassen op de trainingsset om de beste configuratie te vinden;
  4. Evalueren op de testset.
Note
Meer leren

De derde stap omvat meestal het testen van meerdere algoritmen en het afstemmen van hun hyperparameters om de beste optie te bepalen. Voor de eenvoud is in deze cursus slechts één algoritme gebruikt.

Cross-validatie is niet altijd de beste optie. Voor grote datasets wordt het berekenen van CV-scores kostbaar, terwijl een train-test split stabieler wordt dankzij de grote testset.

Grote datasets worden vaak opgesplitst in trainingssets, validatiesets en testsets. Hyperparameters worden gekozen op basis van de prestaties op de validatieset. Ten slotte wordt het geselecteerde model geëvalueerd op de testset om te verifiëren hoe goed het generaliseert.

Train-test-validatie splitsing

De penguins dataset is klein, met slechts 342 voorbeelden. Vanwege deze beperkte omvang zal in het volgende hoofdstuk de cross-validatiescore worden gebruikt voor evaluatie.

question mark

Waarom is cross-validatie bijzonder waardevol voor het afstemmen van hyperparameters bij kleinere datasets, in tegenstelling tot grotere datasets waarbij train-test splits vaker de voorkeur hebben?

Selecteer het correcte antwoord

Was alles duidelijk?

Hoe kunnen we het verbeteren?

Bedankt voor je feedback!

Sectie 4. Hoofdstuk 9

Vraag AI

expand

Vraag AI

ChatGPT

Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.

Sectie 4. Hoofdstuk 9
some-alt