Vad är klassificering
Klassificering är en övervakad inlärningsuppgift. Målet är att förutsäga vilken klass en instans tillhör baserat på ett antal parametrar (egenskaper). Det krävs att många märkta exempel på data (träningsmängd) tillhandahålls för att datorn ska kunna lära sig innan den kan förutsäga klassen för en ny instans.
Skillnaden mellan klassificering och regression är att regression förutsäger ett kontinuerligt numeriskt värde, till exempel ett pris. Det kan vara vilket reellt (endast positivt för ett pris) tal som helst.
Klassificering däremot förutsäger ett kategoriskt värde, till exempel typen av en godis. Det finns en ändlig uppsättning värden, och modellen försöker klassificera varje instans i en av dessa kategorier.
Beroende på hur ett problem formuleras finns det flera typer av klassificering:
-
Binär klassificering: vid binär klassificering är målet ett av två möjliga utfall. Till exempel, e-post: skräppost/inte skräppost, sötsak: kaka/inte kaka;
-
Multiklassklassificering: vid multiklassklassificering finns det tre eller fler möjliga utfall för ett mål. Till exempel, e-post: skräppost/viktig/annons/annat, sötsak: kaka/marshmallow/godis;
-
Multietikettklassificering: vid multietikettklassificering kan varje instans tillhöra flera klasser samtidigt. Till exempel kan en film klassificeras som både action och komedi, eller ett e-postmeddelande kan markeras som både viktigt och arbetsrelaterat.
För de flesta ML-modeller behöver du koda målet till ett tal. Vid binär klassificering kodas utfallen vanligtvis som 0/1 (t.ex. 1 - kaka, 0 - inte kaka). Vid multiklass klassificering kodas utfallen vanligtvis som 0, 1, 2, ... (t.ex. 0 - godis, 1 - kaka, 2 - marshmallow).
Många olika modeller kan utföra klassificering. Några exempel är:
- k-Nearest Neighbors;
- Logistisk regression;
- Beslutsträd;
- Random Forest.
Lyckligtvis är de alla implementerade i scikit-learn-biblioteket och är enkla att använda.
Ingen maskininlärningsmodell är överlägsen någon annan. Vilken modell som presterar bäst beror på den specifika uppgiften.
Tack för dina kommentarer!
Fråga AI
Fråga AI
Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal
Awesome!
Completion rate improved to 4.17
Vad är klassificering
Svep för att visa menyn
Klassificering är en övervakad inlärningsuppgift. Målet är att förutsäga vilken klass en instans tillhör baserat på ett antal parametrar (egenskaper). Det krävs att många märkta exempel på data (träningsmängd) tillhandahålls för att datorn ska kunna lära sig innan den kan förutsäga klassen för en ny instans.
Skillnaden mellan klassificering och regression är att regression förutsäger ett kontinuerligt numeriskt värde, till exempel ett pris. Det kan vara vilket reellt (endast positivt för ett pris) tal som helst.
Klassificering däremot förutsäger ett kategoriskt värde, till exempel typen av en godis. Det finns en ändlig uppsättning värden, och modellen försöker klassificera varje instans i en av dessa kategorier.
Beroende på hur ett problem formuleras finns det flera typer av klassificering:
-
Binär klassificering: vid binär klassificering är målet ett av två möjliga utfall. Till exempel, e-post: skräppost/inte skräppost, sötsak: kaka/inte kaka;
-
Multiklassklassificering: vid multiklassklassificering finns det tre eller fler möjliga utfall för ett mål. Till exempel, e-post: skräppost/viktig/annons/annat, sötsak: kaka/marshmallow/godis;
-
Multietikettklassificering: vid multietikettklassificering kan varje instans tillhöra flera klasser samtidigt. Till exempel kan en film klassificeras som både action och komedi, eller ett e-postmeddelande kan markeras som både viktigt och arbetsrelaterat.
För de flesta ML-modeller behöver du koda målet till ett tal. Vid binär klassificering kodas utfallen vanligtvis som 0/1 (t.ex. 1 - kaka, 0 - inte kaka). Vid multiklass klassificering kodas utfallen vanligtvis som 0, 1, 2, ... (t.ex. 0 - godis, 1 - kaka, 2 - marshmallow).
Många olika modeller kan utföra klassificering. Några exempel är:
- k-Nearest Neighbors;
- Logistisk regression;
- Beslutsträd;
- Random Forest.
Lyckligtvis är de alla implementerade i scikit-learn-biblioteket och är enkla att använda.
Ingen maskininlärningsmodell är överlägsen någon annan. Vilken modell som presterar bäst beror på den specifika uppgiften.
Tack för dina kommentarer!