Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære Opsummering | Sammenligning af Modeller
Klassifikation med Python

bookOpsummering

For at opsummere har du lært fire algoritmer: k-NN, logistisk regression, beslutningstræ og random forest. Hver algoritme har sine egne fordele og ulemper, som blev diskuteret i slutningen af deres respektive afsnit.

Følgende visualisering illustrerer, hvordan hver algoritme præsterer på forskellige syntetiske datasæt:

Her gælder det, at jo dybere farven er, desto mere sikker er modellen i sine forudsigelser.

Du vil bemærke, at hvert datasæt har en forskellig model, der præsterer bedst. Det er vanskeligt på forhånd at vide, hvilken model der vil fungere bedst, så den bedste tilgang er at afprøve flere. Det er idéen bag No Free Lunch Theorem.

Dog kan din forståelse af algoritmerne i visse situationer hjælpe dig med at udelukke bestemte modeller på forhånd, hvis de ikke egner sig til opgaven.

For eksempel gælder dette for logistisk regression (uden brug af PolynomialFeatures), hvor vi ved, at der skabes en lineær beslutningsgrænse. Ved at se på kompleksiteten af det andet datasæt i billedet kunne vi derfor forudsige, at den ikke ville præstere godt.

Et andet eksempel er, hvis din opgave kræver ekstremt hurtig forudsigelseshastighed — såsom realtidsforudsigelser i en app — så er k-NN et dårligt valg. Det samme gælder for en random forest med mange beslutningstræer. Du kan reducere antallet af træer ved at bruge parameteren n_estimators for at forbedre hastigheden, men det kan ske på bekostning af lavere præstation.

Følgende tabel kan hjælpe dig med at forstå, hvilken forbehandling der kræves før træning af hver model, og hvordan modellens præstation påvirkes når antallet af features eller instanser øges:

  • n – number of instances (samples);
  • m – number of features;
  • t – number of trees in a Random Forest;
  • k – number of neighbors in k-NN;
  • * Scaling is not required if penalty=None in Logistic Regression;
  • ** PolynomialFeatures adds more features, so the effective number of features m increases.
question mark

Hvilken model bruger flere beslutningstræer til at lave en forudsigelse?

Select the correct answer

Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 5. Kapitel 4

Spørg AI

expand

Spørg AI

ChatGPT

Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat

Suggested prompts:

Can you explain what "requires scaling" means for these models?

How do I decide which algorithm to use for my dataset?

Can you clarify the meaning of the training and prediction complexity notations?

Awesome!

Completion rate improved to 4.17

bookOpsummering

Stryg for at vise menuen

For at opsummere har du lært fire algoritmer: k-NN, logistisk regression, beslutningstræ og random forest. Hver algoritme har sine egne fordele og ulemper, som blev diskuteret i slutningen af deres respektive afsnit.

Følgende visualisering illustrerer, hvordan hver algoritme præsterer på forskellige syntetiske datasæt:

Her gælder det, at jo dybere farven er, desto mere sikker er modellen i sine forudsigelser.

Du vil bemærke, at hvert datasæt har en forskellig model, der præsterer bedst. Det er vanskeligt på forhånd at vide, hvilken model der vil fungere bedst, så den bedste tilgang er at afprøve flere. Det er idéen bag No Free Lunch Theorem.

Dog kan din forståelse af algoritmerne i visse situationer hjælpe dig med at udelukke bestemte modeller på forhånd, hvis de ikke egner sig til opgaven.

For eksempel gælder dette for logistisk regression (uden brug af PolynomialFeatures), hvor vi ved, at der skabes en lineær beslutningsgrænse. Ved at se på kompleksiteten af det andet datasæt i billedet kunne vi derfor forudsige, at den ikke ville præstere godt.

Et andet eksempel er, hvis din opgave kræver ekstremt hurtig forudsigelseshastighed — såsom realtidsforudsigelser i en app — så er k-NN et dårligt valg. Det samme gælder for en random forest med mange beslutningstræer. Du kan reducere antallet af træer ved at bruge parameteren n_estimators for at forbedre hastigheden, men det kan ske på bekostning af lavere præstation.

Følgende tabel kan hjælpe dig med at forstå, hvilken forbehandling der kræves før træning af hver model, og hvordan modellens præstation påvirkes når antallet af features eller instanser øges:

  • n – number of instances (samples);
  • m – number of features;
  • t – number of trees in a Random Forest;
  • k – number of neighbors in k-NN;
  • * Scaling is not required if penalty=None in Logistic Regression;
  • ** PolynomialFeatures adds more features, so the effective number of features m increases.
question mark

Hvilken model bruger flere beslutningstræer til at lave en forudsigelse?

Select the correct answer

Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 5. Kapitel 4
some-alt