Summary  
This chapter explains the supervised learning concept of classification, detailing how to predict categorical outcomes using features, the types of classification (binary, multiclass, multilabel), target encoding, and common algorithms.

General domain of usage  
Email spam filtering

**Klassifisering** er en overvåket læringsoppgave der målet er å forutsi klassen til en forekomst ved hjelp av dens **egenskaper**. Modellen lærer fra merkede eksempler i et **treningssett** og tilordner deretter en klasse til nye, ukjente data.

Regresjon predikerer en **kontinuerlig numerisk verdi** (f.eks. pris), som kan ha mange mulige verdier.
Klassifisering predikerer en **kategorisk verdi** (f.eks. type godteri), og velger ett alternativ fra et begrenset sett med klasser.

Det finnes flere typer klassifisering:

* **Binær klassifisering:** målet har to mulige utfall (spam/ikke spam, kjeks/ikke kjeks);
* **Flerklasses klassifisering:** tre eller flere mulige kategorier (spam/viktig/annonse/annet; kjeks/marshmallow/godteri);
* **Fleretikett-klassifisering:** en instans kan tilhøre **flere klasser samtidig** (en film kan være action *og* komedie; en e-post kan være viktig *og* jobbrelatert).


For de fleste ML-modeller må målet kodes som et tall. For **binær** klassifisering kodes utfall vanligvis som 0/1 (f.eks. 1 - cookie, 0 - ikke cookie). For **multiklasse** klassifisering kodes utfall vanligvis som 0, 1, 2, ... (f.eks. 0 - candy, 1 - cookie, 2 - marshmallow).

Mange ulike modeller kan utføre klassifisering. Noen eksempler inkluderer:
- k-Nearest Neighbors;
- Logistisk regresjon;
- Beslutningstre;
- Random Forest.

Alle disse er heldigvis implementert i **scikit-learn**-biblioteket og er enkle å bruke.

Ingen maskinlæringsmodell er overlegent en annen. Hvilken modell som presterer best avhenger av den spesifikke oppgaven.

Merk

Hva er hovedmålet med klassifisering i maskinlæring?

Behersk de sentrale klassifiseringsalgoritmene som driver moderne maskinlæring. Utforsk hvordan modeller som k-NN, logistisk regresjon, beslutningstrær og random forests gjør prediksjoner, evaluerer nøyaktigheten sin, og forstå når hver modell bør brukes. Bygg ferdigheter til å sammenligne modeller og velge den beste for dine data.

Utforsk hvordan k-nærmeste naboer-algoritmen gjør prediksjoner basert på likhet. Lær å håndtere flere egenskaper, justere parametere og bruke kryssvalidering for å forbedre nøyaktigheten.

Forstå hvordan logistisk regresjon modellerer sannsynligheter og klassifiserer utfall. Øv på implementering, tolkning av beslutningsgrenser og bruk av regularisering for å forhindre overtilpasning.

Lær hvordan beslutningstrær deler data inn i meningsfulle grupper basert på egenskapsverdier. Utforsk hvordan parametere som treets dybde og minimum antall prøver per blad påvirker modellens ytelse og generalisering.

Utforsk hvordan random forest kombinerer flere beslutningstrær for å forbedre nøyaktighet og robusthet. Forstå rollen til tilfeldighet og bruk denne ensemblemetoden på virkelige data.

Vurder modeller ved hjelp av måleparametere som nøyaktighet, presisjon, tilbakekalling og F1-score. Lær å tolke forvirringsmatriser og sammenligne flere klassifikatorer for å identifisere den best presterende modellen.

Hva er klassifisering