Resumé
Stryg for at vise menuen
For at opsummere har du lært fire algoritmer: k-NN, logistisk regression, beslutningstræ og random forest. Hver har sine egne fordele og ulemper, som blev diskuteret i slutningen af deres respektive afsnit.
Følgende visualisering illustrerer, hvordan hver algoritme præsterer på forskellige syntetiske datasæt:
Her gælder det, at jo dybere farven er, desto mere sikker er modellen i sine forudsigelser.
Du vil bemærke, at hvert datasæt har en forskellig model, der præsterer bedst. Det er svært at vide på forhånd, hvilken model der vil fungere bedst, så den bedste tilgang er at prøve flere. Det er idéen bag No Free Lunch Theorem.
Dog kan din forståelse af algoritmerne i nogle situationer hjælpe dig med at udelukke visse modeller på forhånd, hvis de ikke passer til opgaven.
For eksempel gælder dette for logistisk regression (uden brug af PolynomialFeatures), som vi ved skaber en lineær beslutningsgrænse. Så ved at se på kompleksiteten af det andet datasæt i billedet kunne vi forudsige på forhånd, at den ikke ville præstere godt.
Et andet eksempel er, hvis din opgave kræver ekstremt hurtig forudsigelse — såsom at lave realtidsforudsigelser i en app — så er k-NN et dårligt valg. Det samme gælder for en random forest med mange beslutningstræer. Du kan reducere antallet af træer ved at bruge parameteren n_estimators for at forbedre hastigheden, men det kan ske på bekostning af lavere ydeevne.
Følgende tabel kan hjælpe dig med at forstå, hvilken forbehandling der kræves før træning af hver model, og hvordan modellens ydeevne påvirkes når antallet af features eller instanser øges:
n– antal instanser (prøver);m– antal features;t– antal træer i en Random Forest;k– antal naboer i k-NN;*Skalering er ikke påkrævet hvispenalty=Nonei Logistic Regression;**PolynomialFeatures tilføjer flere features, så det effektive antal featuresmøges.
Tak for dine kommentarer!
Spørg AI
Spørg AI
Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat