Summary  
This chapter covers hyperparameter tuning and model evaluation using cross-validation combined with GridSearchCV or RandomizedSearchCV, along with best practices for splitting data into training, validation, and test sets.  

General domain of usage  
Supervised machine learning model selection and evaluation

Je weet nu hoe je een **model** bouwt, **pipelines** gebruikt en **hyperparameters** afstemt. Je hebt ook twee evaluatiemethoden geleerd: train-test split en cross-validatie.
De volgende stap is het combineren van evaluatie en afstemming met behulp van `GridSearchCV` of `RandomizedSearchCV`.

Omdat onze dataset klein is, gebruiken we de `GridSearchCV`, maar alles wat hieronder wordt besproken geldt ook voor een `RandomizedSearchCV`.

Opmerking

Omdat cross-validatie stabieler is dan een enkele train-test split, is het doel om de **hoogste cross-validatiescore** te behalen.
`GridSearchCV` zoekt naar hyperparameters en vindt die welke deze score maximaliseren. De beste score wordt opgeslagen in `.best_score_`.

Hyperparameters die het beste werken voor één dataset kunnen **niet generaliseren** wanneer er nieuwe data beschikbaar komt.
Hierdoor kan `.best_score_` hoger zijn dan de prestatie van het model op **volledig ongeziene** data.

Een gebruikelijke workflow: splitsen in trainings- en testsets; voer cross-validatie uit op de **trainingsset** om het model af te stemmen; evalueer vervolgens het geoptimaliseerde model op de **testset** om de prestaties in de praktijk te meten.

Samengevat:

1. Preprocessing van de data;
2. Splitsen in trainings- en testsets;
3. Gebruik cross-validatie op de trainingsset om de beste configuratie te vinden;
4. Evaluatie op de testset.

De derde stap omvat meestal het testen van **meerdere algoritmen** en het afstemmen van hun hyperparameters om de beste optie te identificeren. Voor de eenvoud is in deze cursus slechts één algoritme gebruikt.


Meer Bestuderen

Kruisvalidering is niet altijd de beste optie. Voor grote datasets wordt het berekenen van CV-scores kostbaar, terwijl een train-test-split stabieler wordt dankzij de grote testset.

Grote datasets worden vaak opgesplitst in **trainingssets**, **validatiesets** en **testsets**.
Hyperparameters worden gekozen op basis van de prestaties op de **validatieset**.
Ten slotte wordt het geselecteerde model geëvalueerd op de **testset** om te verifiëren hoe goed het generaliseert.

De **penguins dataset** is klein, met slechts 342 voorbeelden. Vanwege deze beperkte omvang zal in het volgende hoofdstuk de cross-validatiescore worden gebruikt voor evaluatie.


Waarom is cross-validatie bijzonder waardevol voor hyperparameterafstemming bij kleinere datasets, in tegenstelling tot grotere datasets waarbij train-test splits vaker de voorkeur hebben?

Machine learning wordt tegenwoordig overal toegepast. Wil je het zelf leren? Deze cursus is een introductie tot de wereld van machine learning waarin je basisconcepten leert, werkt met Scikit-learn – de populairste bibliotheek voor ML – en je eerste machine learning-project bouwt.
Deze cursus is bedoeld voor studenten met basiskennis van Python, Pandas en Numpy.

Leer de concepten van machine learning en de workflow van een ML-project.

Preprocessing is waarschijnlijk de belangrijkste fase van een ML-project. Dit hoofdstuk behandelt de preprocessing-stappen die nodig zijn voor vrijwel elke dataset.

Een pipeline is een overzichtelijke manier om alle preprocessingsstappen en een model te combineren. Pipelines maken het veel eenvoudiger om een model te trainen en te gebruiken.

Modellering is de meest interessante fase van een ML-project. Leer het model opbouwen, verfijnen en evalueren!

Samenvatting Modellering