Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære At finde det optimale antal klynger ved hjælp af Silhouette Score | K-Means
Klyngeanalyse

bookAt finde det optimale antal klynger ved hjælp af Silhouette Score

Udover WSS-metoden er silhouette score en anden værdifuld måling til at bestemme det optimale antal klynger (K) i K-means. Den vurderer, hvor godt hvert datapunkt passer til sin klynge sammenlignet med andre.

For hvert datapunkt tager silhouette score højde for:

  • Samhørighed (a): gennemsnitlig afstand til punkter inden for samme klynge;

  • Adskillelse (b): gennemsnitlig afstand til punkter i den nærmeste anden klynge.

Silhouette score beregnes som: (b - a) / max(a, b), hvilket spænder fra -1 til +1.

Fortolkning af score:

  • +1: punktet er velklyngedelt;

  • ~0: punktet ligger på klyngegrænsen;

  • -1: punktet kan være fejlklassificeret.

Fremgangsmåden for at finde det optimale K ved hjælp af silhouette score er følgende:

  • Kør K-means for et interval af K-værdier (f.eks. K=2 til en rimelig grænse);

  • For hver K, beregn den gennemsnitlige silhouette score;

  • Plot gennemsnitlig silhouette score mod K (silhouette-plot);

  • Vælg K med den højeste gennemsnitlige silhouette score.

Ved at undersøge silhouette-plottet, som viser score for hvert punkt, kan man få dybere indsigt i klyngekonsistens. Højere gennemsnitlige scorer og ensartede scorer på tværs af punkter er ønskværdige.

Sammenfattende balancerer silhouette score samhørighed og adskillelse, mens WSS minimerer afstande inden for klynger. Brug af begge metoder giver en mere robust tilgang til at finde det optimale K.

question mark

Hvad indikerer en høj gennemsnitlig silhouette-score (tæt på +1), når man evaluerer klyngeanalyse-resultater?

Select the correct answer

Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 3. Kapitel 4

Spørg AI

expand

Spørg AI

ChatGPT

Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat

Awesome!

Completion rate improved to 2.94

bookAt finde det optimale antal klynger ved hjælp af Silhouette Score

Stryg for at vise menuen

Udover WSS-metoden er silhouette score en anden værdifuld måling til at bestemme det optimale antal klynger (K) i K-means. Den vurderer, hvor godt hvert datapunkt passer til sin klynge sammenlignet med andre.

For hvert datapunkt tager silhouette score højde for:

  • Samhørighed (a): gennemsnitlig afstand til punkter inden for samme klynge;

  • Adskillelse (b): gennemsnitlig afstand til punkter i den nærmeste anden klynge.

Silhouette score beregnes som: (b - a) / max(a, b), hvilket spænder fra -1 til +1.

Fortolkning af score:

  • +1: punktet er velklyngedelt;

  • ~0: punktet ligger på klyngegrænsen;

  • -1: punktet kan være fejlklassificeret.

Fremgangsmåden for at finde det optimale K ved hjælp af silhouette score er følgende:

  • Kør K-means for et interval af K-værdier (f.eks. K=2 til en rimelig grænse);

  • For hver K, beregn den gennemsnitlige silhouette score;

  • Plot gennemsnitlig silhouette score mod K (silhouette-plot);

  • Vælg K med den højeste gennemsnitlige silhouette score.

Ved at undersøge silhouette-plottet, som viser score for hvert punkt, kan man få dybere indsigt i klyngekonsistens. Højere gennemsnitlige scorer og ensartede scorer på tværs af punkter er ønskværdige.

Sammenfattende balancerer silhouette score samhørighed og adskillelse, mens WSS minimerer afstande inden for klynger. Brug af begge metoder giver en mere robust tilgang til at finde det optimale K.

question mark

Hvad indikerer en høj gennemsnitlig silhouette-score (tæt på +1), når man evaluerer klyngeanalyse-resultater?

Select the correct answer

Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 3. Kapitel 4
some-alt