Samenvatting Modellering
Gefeliciteerd dat je zo ver bent gekomen! Je weet nu al hoe je een model bouwt, het gebruikt in een pipeline, en de hyperparameters optimaliseert. Je hebt ook twee manieren geleerd om het model te evalueren: de train-test split en de cross-validatiescore.
Laten we het hebben over het combineren van modelevaluatie en hyperparameterafstemming uitgevoerd door GridSearchCV
(of RandomizedSearchCV
).
In het algemeen streven we naar de beste cross-validatiescore op onze dataset, omdat cross-validatie stabieler is en minder gevoelig voor hoe de data wordt gesplitst in vergelijking met de train-test split.
Ons doel is om de hyperparameters te identificeren die de beste cross-validatiescore opleveren, wat precies is waar GridSearchCV
voor is ontworpen. Dit proces resulteert in een geoptimaliseerd model dat optimaal presteert op de trainingsdataset. GridSearchCV
biedt ook een .best_score_
attribuut, dat de hoogste cross-validatiescore weergeeft die tijdens het afstemmen van de hyperparameters is behaald.
Meestal wordt de dataset eerst verdeeld in train- en testsets. Vervolgens optimaliseren we het model op de volledige trainingsset met behulp van cross-validatie om het beste model te identificeren. Ten slotte beoordelen we de prestaties van het model op de testset, die volledig uit ongeziene data bestaat, om de toepasbaarheid in de praktijk te schatten.
Laten we alles samenvatten. We hebben nodig:
- De data preprocessen;
- Een train-test split uitvoeren;
- Het model met de beste cross-validatiescore op de trainingsset vinden;
- Het beste model evalueren op de testset.
Voordat we doorgaan naar de laatste uitdaging, is het belangrijk op te merken dat cross-validatie niet de enige methode is voor het optimaliseren van modellen. Naarmate datasets groter worden, kost het berekenen van cross-validatiescores meer tijd, en biedt de reguliere train-test split meer stabiliteit door de grotere omvang van de testset.
Daarom worden grote datasets vaak verdeeld in drie sets: een trainingsset, een validatieset en een testset. Het model wordt getraind op de trainingsset en geëvalueerd op de validatieset om het model of de hyperparameters te selecteren die het beste presteren.
Deze selectie gebruikt de validatiesetscores in plaats van cross-validatiescores. Tot slot wordt het gekozen model beoordeeld op de testset, die volledig uit ongeziene data bestaat, om de prestaties te verifiëren.
Onze penguins dataset is niet groot. Het is zelfs erg klein (342 instanties), daarom zullen we in het volgende hoofdstuk de cross-validatie score methode gebruiken.
Bedankt voor je feedback!
Vraag AI
Vraag AI
Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.
Awesome!
Completion rate improved to 3.13
Samenvatting Modellering
Veeg om het menu te tonen
Gefeliciteerd dat je zo ver bent gekomen! Je weet nu al hoe je een model bouwt, het gebruikt in een pipeline, en de hyperparameters optimaliseert. Je hebt ook twee manieren geleerd om het model te evalueren: de train-test split en de cross-validatiescore.
Laten we het hebben over het combineren van modelevaluatie en hyperparameterafstemming uitgevoerd door GridSearchCV
(of RandomizedSearchCV
).
In het algemeen streven we naar de beste cross-validatiescore op onze dataset, omdat cross-validatie stabieler is en minder gevoelig voor hoe de data wordt gesplitst in vergelijking met de train-test split.
Ons doel is om de hyperparameters te identificeren die de beste cross-validatiescore opleveren, wat precies is waar GridSearchCV
voor is ontworpen. Dit proces resulteert in een geoptimaliseerd model dat optimaal presteert op de trainingsdataset. GridSearchCV
biedt ook een .best_score_
attribuut, dat de hoogste cross-validatiescore weergeeft die tijdens het afstemmen van de hyperparameters is behaald.
Meestal wordt de dataset eerst verdeeld in train- en testsets. Vervolgens optimaliseren we het model op de volledige trainingsset met behulp van cross-validatie om het beste model te identificeren. Ten slotte beoordelen we de prestaties van het model op de testset, die volledig uit ongeziene data bestaat, om de toepasbaarheid in de praktijk te schatten.
Laten we alles samenvatten. We hebben nodig:
- De data preprocessen;
- Een train-test split uitvoeren;
- Het model met de beste cross-validatiescore op de trainingsset vinden;
- Het beste model evalueren op de testset.
Voordat we doorgaan naar de laatste uitdaging, is het belangrijk op te merken dat cross-validatie niet de enige methode is voor het optimaliseren van modellen. Naarmate datasets groter worden, kost het berekenen van cross-validatiescores meer tijd, en biedt de reguliere train-test split meer stabiliteit door de grotere omvang van de testset.
Daarom worden grote datasets vaak verdeeld in drie sets: een trainingsset, een validatieset en een testset. Het model wordt getraind op de trainingsset en geëvalueerd op de validatieset om het model of de hyperparameters te selecteren die het beste presteren.
Deze selectie gebruikt de validatiesetscores in plaats van cross-validatiescores. Tot slot wordt het gekozen model beoordeeld op de testset, die volledig uit ongeziene data bestaat, om de prestaties te verifiëren.
Onze penguins dataset is niet groot. Het is zelfs erg klein (342 instanties), daarom zullen we in het volgende hoofdstuk de cross-validatie score methode gebruiken.
Bedankt voor je feedback!