Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Leer Samenvatting Modellering | Modellering
ML Introductie Met Scikit-learn

bookSamenvatting Modellering

Gefeliciteerd dat je zo ver bent gekomen! Je weet nu al hoe je een model bouwt, het gebruikt in een pipeline, en de hyperparameters optimaliseert. Je hebt ook twee manieren geleerd om het model te evalueren: de train-test split en de cross-validatiescore.

Laten we het hebben over het combineren van modelevaluatie en hyperparameterafstemming uitgevoerd door GridSearchCV (of RandomizedSearchCV).

In het algemeen streven we naar de beste cross-validatiescore op onze dataset, omdat cross-validatie stabieler is en minder gevoelig voor hoe de data wordt gesplitst in vergelijking met de train-test split.

Ons doel is om de hyperparameters te identificeren die de beste cross-validatiescore opleveren, wat precies is waar GridSearchCV voor is ontworpen. Dit proces resulteert in een geoptimaliseerd model dat optimaal presteert op de trainingsdataset. GridSearchCV biedt ook een .best_score_ attribuut, dat de hoogste cross-validatiescore weergeeft die tijdens het afstemmen van de hyperparameters is behaald.

Meestal wordt de dataset eerst verdeeld in train- en testsets. Vervolgens optimaliseren we het model op de volledige trainingsset met behulp van cross-validatie om het beste model te identificeren. Ten slotte beoordelen we de prestaties van het model op de testset, die volledig uit ongeziene data bestaat, om de toepasbaarheid in de praktijk te schatten.

Laten we alles samenvatten. We hebben nodig:

  1. De data preprocessen;
  2. Een train-test split uitvoeren;
  3. Het model met de beste cross-validatiescore op de trainingsset vinden;
  4. Het beste model evalueren op de testset.

Voordat we doorgaan naar de laatste uitdaging, is het belangrijk op te merken dat cross-validatie niet de enige methode is voor het optimaliseren van modellen. Naarmate datasets groter worden, kost het berekenen van cross-validatiescores meer tijd, en biedt de reguliere train-test split meer stabiliteit door de grotere omvang van de testset.

Daarom worden grote datasets vaak verdeeld in drie sets: een trainingsset, een validatieset en een testset. Het model wordt getraind op de trainingsset en geëvalueerd op de validatieset om het model of de hyperparameters te selecteren die het beste presteren.

Deze selectie gebruikt de validatiesetscores in plaats van cross-validatiescores. Tot slot wordt het gekozen model beoordeeld op de testset, die volledig uit ongeziene data bestaat, om de prestaties te verifiëren.

Onze penguins dataset is niet groot. Het is zelfs erg klein (342 instanties), daarom zullen we in het volgende hoofdstuk de cross-validatie score methode gebruiken.

question mark

Waarom is cross-validatie bijzonder waardevol voor hyperparameterafstemming bij kleinere datasets, in tegenstelling tot grotere datasets waar train-test splits de voorkeur kunnen hebben?

Select the correct answer

Was alles duidelijk?

Hoe kunnen we het verbeteren?

Bedankt voor je feedback!

Sectie 4. Hoofdstuk 9

Vraag AI

expand

Vraag AI

ChatGPT

Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.

Awesome!

Completion rate improved to 3.13

bookSamenvatting Modellering

Veeg om het menu te tonen

Gefeliciteerd dat je zo ver bent gekomen! Je weet nu al hoe je een model bouwt, het gebruikt in een pipeline, en de hyperparameters optimaliseert. Je hebt ook twee manieren geleerd om het model te evalueren: de train-test split en de cross-validatiescore.

Laten we het hebben over het combineren van modelevaluatie en hyperparameterafstemming uitgevoerd door GridSearchCV (of RandomizedSearchCV).

In het algemeen streven we naar de beste cross-validatiescore op onze dataset, omdat cross-validatie stabieler is en minder gevoelig voor hoe de data wordt gesplitst in vergelijking met de train-test split.

Ons doel is om de hyperparameters te identificeren die de beste cross-validatiescore opleveren, wat precies is waar GridSearchCV voor is ontworpen. Dit proces resulteert in een geoptimaliseerd model dat optimaal presteert op de trainingsdataset. GridSearchCV biedt ook een .best_score_ attribuut, dat de hoogste cross-validatiescore weergeeft die tijdens het afstemmen van de hyperparameters is behaald.

Meestal wordt de dataset eerst verdeeld in train- en testsets. Vervolgens optimaliseren we het model op de volledige trainingsset met behulp van cross-validatie om het beste model te identificeren. Ten slotte beoordelen we de prestaties van het model op de testset, die volledig uit ongeziene data bestaat, om de toepasbaarheid in de praktijk te schatten.

Laten we alles samenvatten. We hebben nodig:

  1. De data preprocessen;
  2. Een train-test split uitvoeren;
  3. Het model met de beste cross-validatiescore op de trainingsset vinden;
  4. Het beste model evalueren op de testset.

Voordat we doorgaan naar de laatste uitdaging, is het belangrijk op te merken dat cross-validatie niet de enige methode is voor het optimaliseren van modellen. Naarmate datasets groter worden, kost het berekenen van cross-validatiescores meer tijd, en biedt de reguliere train-test split meer stabiliteit door de grotere omvang van de testset.

Daarom worden grote datasets vaak verdeeld in drie sets: een trainingsset, een validatieset en een testset. Het model wordt getraind op de trainingsset en geëvalueerd op de validatieset om het model of de hyperparameters te selecteren die het beste presteren.

Deze selectie gebruikt de validatiesetscores in plaats van cross-validatiescores. Tot slot wordt het gekozen model beoordeeld op de testset, die volledig uit ongeziene data bestaat, om de prestaties te verifiëren.

Onze penguins dataset is niet groot. Het is zelfs erg klein (342 instanties), daarom zullen we in het volgende hoofdstuk de cross-validatie score methode gebruiken.

question mark

Waarom is cross-validatie bijzonder waardevol voor hyperparameterafstemming bij kleinere datasets, in tegenstelling tot grotere datasets waar train-test splits de voorkeur kunnen hebben?

Select the correct answer

Was alles duidelijk?

Hoe kunnen we het verbeteren?

Bedankt voor je feedback!

Sectie 4. Hoofdstuk 9
some-alt