Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Leer Samenvatting | Modellen Vergelijken
Classificatie met Python

Samenvatting

Veeg om het menu te tonen

Samenvattend heb je vier algoritmen geleerd: k-NN, Logistische Regressie, Beslissingsboom en Random Forest. Elk heeft zijn eigen voor- en nadelen, die aan het einde van hun respectievelijke secties zijn besproken.

De volgende visualisatie laat zien hoe elk algoritme presteert op verschillende synthetische datasets:

modellen vergelijken3

Hier geldt: hoe dieper de kleur, hoe zekerder het model is van zijn voorspellingen.

Je zult merken dat elke dataset een ander model heeft dat het beste presteert. Het is moeilijk om van tevoren te weten welk model beter zal werken, dus de beste aanpak is om meerdere modellen te proberen. Dat is het idee achter de No Free Lunch Theorem.

In sommige situaties kan je kennis van de algoritmen je echter helpen om bepaalde modellen vooraf uit te sluiten als ze niet geschikt zijn voor de taak.

Dit is bijvoorbeeld het geval bij Logistische Regressie (zonder gebruik van PolynomialFeatures), waarvan we weten dat het een lineaire beslissingsgrens creëert. Door naar de complexiteit van de tweede dataset in de afbeelding te kijken, konden we dus vooraf voorspellen dat dit model niet goed zou presteren.

Een ander voorbeeld: als je taak extreem snelle voorspellingen vereist — zoals realtime voorspellingen in een app — dan is k-NN een slechte keuze. Hetzelfde geldt voor een Random Forest met veel beslissingsbomen. Je zou het aantal bomen kunnen verminderen met de parameter n_estimators om de snelheid te verhogen, maar dat kan ten koste gaan van de lagere prestaties.

De volgende tabel helpt je te begrijpen welke preprocessing nodig is voordat je elk model traint, en hoe de prestaties van het model worden beïnvloed naarmate het aantal features of instanties toeneemt:

  • n – aantal instanties (samples);
  • m – aantal kenmerken;
  • t – aantal bomen in een Random Forest;
  • k – aantal buren in k-NN;
  • * Schalen is niet vereist als penalty=None in Logistic Regression;
  • ** PolynomialFeatures voegt meer kenmerken toe, waardoor het effectieve aantal kenmerken m toeneemt.
question mark

Welk model gebruikt meerdere beslissingsbomen om een voorspelling te maken?

Selecteer het correcte antwoord

Was alles duidelijk?

Hoe kunnen we het verbeteren?

Bedankt voor je feedback!

Sectie 5. Hoofdstuk 4

Vraag AI

expand

Vraag AI

ChatGPT

Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.

Sectie 5. Hoofdstuk 4
some-alt