Sammanfattning
Sammanfattningsvis har du lärt dig fyra algoritmer: k-NN, logistisk regression, beslutsträd och random forest. Var och en har sina egna fördelar och nackdelar, vilka diskuterades i slutet av respektive avsnitt.
Följande visualisering illustrerar hur varje algoritm presterar på olika syntetiska datamängder:
Här gäller att ju djupare färg, desto mer säker är modellen i sina förutsägelser.
Du kommer att märka att varje datamängd har en olika modell som presterar bäst. Det är svårt att veta i förväg vilken modell som fungerar bättre, så det bästa tillvägagångssättet är att prova flera. Det är idén bakom No Free Lunch-teoremet.
I vissa situationer kan dock din förståelse av algoritmerna hjälpa dig att utesluta vissa modeller i förväg om de inte är lämpliga för uppgiften.
Till exempel gäller detta för logistisk regression (utan att använda PolynomialFeatures
), där vi vet att den skapar en linjär beslutsgräns. Så genom att titta på komplexiteten i den andra datamängden i bilden kan vi förutsäga i förväg att den inte skulle prestera väl.
Ett annat exempel är om din uppgift kräver extremt snabb förutsägelsehastighet — till exempel vid realtidsförutsägelser i en app — då är k-NN ett dåligt val. Detsamma gäller för en random forest med många beslutsträd. Du kan minska antalet träd med parametern n_estimators
för att förbättra hastigheten, men det kan ske på bekostnad av lägre prestanda.
Följande tabell kan hjälpa dig att förstå vilken förbehandling som krävs innan du tränar varje modell, och hur modellens prestanda påverkas när antalet funktioner eller instanser ökar:
n
– number of instances (samples);m
– number of features;t
– number of trees in a Random Forest;k
– number of neighbors in k-NN;*
Scaling is not required ifpenalty=None
in Logistic Regression;**
PolynomialFeatures adds more features, so the effective number of featuresm
increases.
Tack för dina kommentarer!
Fråga AI
Fråga AI
Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal
Awesome!
Completion rate improved to 4.17
Sammanfattning
Svep för att visa menyn
Sammanfattningsvis har du lärt dig fyra algoritmer: k-NN, logistisk regression, beslutsträd och random forest. Var och en har sina egna fördelar och nackdelar, vilka diskuterades i slutet av respektive avsnitt.
Följande visualisering illustrerar hur varje algoritm presterar på olika syntetiska datamängder:
Här gäller att ju djupare färg, desto mer säker är modellen i sina förutsägelser.
Du kommer att märka att varje datamängd har en olika modell som presterar bäst. Det är svårt att veta i förväg vilken modell som fungerar bättre, så det bästa tillvägagångssättet är att prova flera. Det är idén bakom No Free Lunch-teoremet.
I vissa situationer kan dock din förståelse av algoritmerna hjälpa dig att utesluta vissa modeller i förväg om de inte är lämpliga för uppgiften.
Till exempel gäller detta för logistisk regression (utan att använda PolynomialFeatures
), där vi vet att den skapar en linjär beslutsgräns. Så genom att titta på komplexiteten i den andra datamängden i bilden kan vi förutsäga i förväg att den inte skulle prestera väl.
Ett annat exempel är om din uppgift kräver extremt snabb förutsägelsehastighet — till exempel vid realtidsförutsägelser i en app — då är k-NN ett dåligt val. Detsamma gäller för en random forest med många beslutsträd. Du kan minska antalet träd med parametern n_estimators
för att förbättra hastigheten, men det kan ske på bekostnad av lägre prestanda.
Följande tabell kan hjälpa dig att förstå vilken förbehandling som krävs innan du tränar varje modell, och hur modellens prestanda påverkas när antalet funktioner eller instanser ökar:
n
– number of instances (samples);m
– number of features;t
– number of trees in a Random Forest;k
– number of neighbors in k-NN;*
Scaling is not required ifpenalty=None
in Logistic Regression;**
PolynomialFeatures adds more features, so the effective number of featuresm
increases.
Tack för dina kommentarer!