Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære Finding af det optimale antal klynger ved hjælp af WSS | K-Means
Klyngeanalyse med Python

Finding af det optimale antal klynger ved hjælp af WSS

Stryg for at vise menuen

I K-means klyngedannelse er det en afgørende beslutning at bestemme det optimale antal klynger, K. Valget af det rette K er essentielt for at afdække meningsfulde mønstre i dine data. For få klynger kan forenkle dataene for meget, mens for mange kan skabe alt for specifikke og mindre nyttige klynger. Derfor er metoder til at vejlede dit valg af K vigtige.

En populær teknik til at finde det optimale K er within-sum-of-squares (WSS) metrikken. WSS måler summen af kvadrerede afstande mellem hvert datapunkt og dets tildelte centroid inden for en klynge. Grundlæggende angiver WSS, hvor kompakte klyngerne er. Lavere WSS-værdier indikerer tættere og mere kompakte klynger.

Forskelligt antal klynger

For at bruge WSS til at finde det optimale K, følges typisk disse trin:

Kør K-means for et interval af K-værdier
expand arrow
  • Prøv K-værdier fra 1 op til en rimelig grænse som 10 eller 15;
Beregn WSS for hver K
expand arrow
  • Beregn Within-Cluster Sum of Squares (WSS) for hver værdi af K;
Plot WSS som funktion af K
expand arrow
  • Opret et plot med K-værdier på x-aksen og WSS på y-aksen;
  • Dette kaldes et WSS-plot eller elbow plot;
Find elbow-punktet
expand arrow
  • Kig efter et punkt, hvor WSS-kurven bøjer og danner et knæk;
  • Dette punkt indikerer det optimale antal klynger.
Note
Bemærk

Elbow-punktet i WSS-plottet er afgørende. Det repræsenterer punktet, hvor faldet i WSS begynder at aftage markant.

Denne "elbow" anses ofte som en stærk indikator for det optimale K af følgende grunde:

  • Indikerer aftagende udbytte: at tilføje flere klynger ud over elbow medfører ikke en væsentlig forbedring i WSS, hvilket betyder, at klyngerne ikke bliver markant mere kompakte;

  • Balancerer detaljeringsgrad og enkelhed: elbow repræsenterer ofte en god balance mellem at fange den væsentlige struktur i dataene uden overfitting eller at skabe unødvendigt detaljerede klynger.

Elbow-metoden

Bemærk, at elbow-metoden er en heuristik. Elbow-punktet er ikke altid tydeligt defineret, og andre faktorer kan påvirke det endelige valg af K. Visuel inspektion af de resulterende klynger og din domæneviden er værdifulde supplementer til elbow-metoden.

question mark

Når WSS-metoden bruges til at vælge antallet af klynger i K-means, hvad repræsenterer knækpunktet på WSS-plottet typisk?

Vælg det korrekte svar

Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 3. Kapitel 3

Spørg AI

expand

Spørg AI

ChatGPT

Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat

Sektion 3. Kapitel 3
some-alt