Sammendrag
For å oppsummere har du lært fire algoritmer: k-NN, logistisk regresjon, beslutningstre og Random Forest. Hver av disse har sine egne fordeler og ulemper, som ble diskutert på slutten av de respektive seksjonene.
Følgende visualisering illustrerer hvordan hver algoritme presterer på ulike syntetiske datasett:
Her gjelder at jo dypere fargen er, desto mer sikker er modellen på sine prediksjoner.
Du vil legge merke til at hvert datasett har en forskjellig modell som presterer best. Det er vanskelig å vite på forhånd hvilken modell som vil fungere best, så den beste tilnærmingen er å prøve flere. Dette er ideen bak No Free Lunch-teoremet.
I noen situasjoner kan imidlertid din forståelse av algoritmene hjelpe deg med å utelukke visse modeller på forhånd hvis de ikke passer til oppgaven.
For eksempel gjelder dette for logistisk regresjon (uten bruk av PolynomialFeatures
), som vi vet lager en lineær beslutningsgrense. Ved å se på kompleksiteten til det andre datasettet i bildet, kunne vi derfor forutsi på forhånd at den ikke ville prestere godt.
Et annet eksempel er hvis oppgaven krever ekstremt rask prediksjonshastighet — for eksempel sanntidsprediksjoner i en app — da er k-NN et dårlig valg. Det samme gjelder for en Random Forest med mange beslutningstrær. Du kan redusere antall trær ved å bruke n_estimators
-parameteren for å øke hastigheten, men dette kan gå på bekostning av lavere ytelse.
Tabellen nedenfor kan hjelpe deg å forstå hvilket forarbeid som kreves før du trener hver modell, og hvordan modellens ytelse påvirkes når antall funksjoner eller instanser øker:
n
– number of instances (samples);m
– number of features;t
– number of trees in a Random Forest;k
– number of neighbors in k-NN;*
Scaling is not required ifpenalty=None
in Logistic Regression;**
PolynomialFeatures adds more features, so the effective number of featuresm
increases.
Takk for tilbakemeldingene dine!
Spør AI
Spør AI
Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår
Awesome!
Completion rate improved to 4.17
Sammendrag
Sveip for å vise menyen
For å oppsummere har du lært fire algoritmer: k-NN, logistisk regresjon, beslutningstre og Random Forest. Hver av disse har sine egne fordeler og ulemper, som ble diskutert på slutten av de respektive seksjonene.
Følgende visualisering illustrerer hvordan hver algoritme presterer på ulike syntetiske datasett:
Her gjelder at jo dypere fargen er, desto mer sikker er modellen på sine prediksjoner.
Du vil legge merke til at hvert datasett har en forskjellig modell som presterer best. Det er vanskelig å vite på forhånd hvilken modell som vil fungere best, så den beste tilnærmingen er å prøve flere. Dette er ideen bak No Free Lunch-teoremet.
I noen situasjoner kan imidlertid din forståelse av algoritmene hjelpe deg med å utelukke visse modeller på forhånd hvis de ikke passer til oppgaven.
For eksempel gjelder dette for logistisk regresjon (uten bruk av PolynomialFeatures
), som vi vet lager en lineær beslutningsgrense. Ved å se på kompleksiteten til det andre datasettet i bildet, kunne vi derfor forutsi på forhånd at den ikke ville prestere godt.
Et annet eksempel er hvis oppgaven krever ekstremt rask prediksjonshastighet — for eksempel sanntidsprediksjoner i en app — da er k-NN et dårlig valg. Det samme gjelder for en Random Forest med mange beslutningstrær. Du kan redusere antall trær ved å bruke n_estimators
-parameteren for å øke hastigheten, men dette kan gå på bekostning av lavere ytelse.
Tabellen nedenfor kan hjelpe deg å forstå hvilket forarbeid som kreves før du trener hver modell, og hvordan modellens ytelse påvirkes når antall funksjoner eller instanser øker:
n
– number of instances (samples);m
– number of features;t
– number of trees in a Random Forest;k
– number of neighbors in k-NN;*
Scaling is not required ifpenalty=None
in Logistic Regression;**
PolynomialFeatures adds more features, so the effective number of featuresm
increases.
Takk for tilbakemeldingene dine!