Opsummering
For at opsummere har du lært fire algoritmer: k-NN, logistisk regression, beslutningstræ og random forest. Hver algoritme har sine egne fordele og ulemper, som blev diskuteret i slutningen af deres respektive afsnit.
Følgende visualisering illustrerer, hvordan hver algoritme præsterer på forskellige syntetiske datasæt:
Her gælder det, at jo dybere farven er, desto mere sikker er modellen i sine forudsigelser.
Du vil bemærke, at hvert datasæt har en forskellig model, der præsterer bedst. Det er vanskeligt på forhånd at vide, hvilken model der vil fungere bedst, så den bedste tilgang er at afprøve flere. Det er idéen bag No Free Lunch Theorem.
Dog kan din forståelse af algoritmerne i visse situationer hjælpe dig med at udelukke bestemte modeller på forhånd, hvis de ikke egner sig til opgaven.
For eksempel gælder dette for logistisk regression (uden brug af PolynomialFeatures
), hvor vi ved, at der skabes en lineær beslutningsgrænse. Ved at se på kompleksiteten af det andet datasæt i billedet kunne vi derfor forudsige, at den ikke ville præstere godt.
Et andet eksempel er, hvis din opgave kræver ekstremt hurtig forudsigelseshastighed — såsom realtidsforudsigelser i en app — så er k-NN et dårligt valg. Det samme gælder for en random forest med mange beslutningstræer. Du kan reducere antallet af træer ved at bruge parameteren n_estimators
for at forbedre hastigheden, men det kan ske på bekostning af lavere præstation.
Følgende tabel kan hjælpe dig med at forstå, hvilken forbehandling der kræves før træning af hver model, og hvordan modellens præstation påvirkes når antallet af features eller instanser øges:
n
– number of instances (samples);m
– number of features;t
– number of trees in a Random Forest;k
– number of neighbors in k-NN;*
Scaling is not required ifpenalty=None
in Logistic Regression;**
PolynomialFeatures adds more features, so the effective number of featuresm
increases.
Tak for dine kommentarer!
Spørg AI
Spørg AI
Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat
Can you explain what "requires scaling" means for these models?
How do I decide which algorithm to use for my dataset?
Can you clarify the meaning of the training and prediction complexity notations?
Awesome!
Completion rate improved to 4.17
Opsummering
Stryg for at vise menuen
For at opsummere har du lært fire algoritmer: k-NN, logistisk regression, beslutningstræ og random forest. Hver algoritme har sine egne fordele og ulemper, som blev diskuteret i slutningen af deres respektive afsnit.
Følgende visualisering illustrerer, hvordan hver algoritme præsterer på forskellige syntetiske datasæt:
Her gælder det, at jo dybere farven er, desto mere sikker er modellen i sine forudsigelser.
Du vil bemærke, at hvert datasæt har en forskellig model, der præsterer bedst. Det er vanskeligt på forhånd at vide, hvilken model der vil fungere bedst, så den bedste tilgang er at afprøve flere. Det er idéen bag No Free Lunch Theorem.
Dog kan din forståelse af algoritmerne i visse situationer hjælpe dig med at udelukke bestemte modeller på forhånd, hvis de ikke egner sig til opgaven.
For eksempel gælder dette for logistisk regression (uden brug af PolynomialFeatures
), hvor vi ved, at der skabes en lineær beslutningsgrænse. Ved at se på kompleksiteten af det andet datasæt i billedet kunne vi derfor forudsige, at den ikke ville præstere godt.
Et andet eksempel er, hvis din opgave kræver ekstremt hurtig forudsigelseshastighed — såsom realtidsforudsigelser i en app — så er k-NN et dårligt valg. Det samme gælder for en random forest med mange beslutningstræer. Du kan reducere antallet af træer ved at bruge parameteren n_estimators
for at forbedre hastigheden, men det kan ske på bekostning af lavere præstation.
Følgende tabel kan hjælpe dig med at forstå, hvilken forbehandling der kræves før træning af hver model, og hvordan modellens præstation påvirkes når antallet af features eller instanser øges:
n
– number of instances (samples);m
– number of features;t
– number of trees in a Random Forest;k
– number of neighbors in k-NN;*
Scaling is not required ifpenalty=None
in Logistic Regression;**
PolynomialFeatures adds more features, so the effective number of featuresm
increases.
Tak for dine kommentarer!