Implementering på Dummy-datasæt
Stryg for at vise menuen
Som sædvanligt bruges følgende biblioteker:
-
sklearntil generering af dummydata og implementering af hierarkisk klyngedannelse (AgglomerativeClustering); -
scipytil generering og håndtering af dendrogrammet; -
matplotlibtil visualisering af klynger og dendrogrammet; -
numpytil numeriske operationer.
Generering af dummydata
Funktionen make_blobs() fra scikit-learn kan bruges til at generere datasæt med forskelligt antal klynger og varierende grader af adskillelse. Dette hjælper med at illustrere, hvordan hierarkisk klyngedannelse fungerer under forskellige forhold.
Den generelle algoritme er som følger:
-
Instansiering af
AgglomerativeClustering-objektet, hvor linkage-metode og andre parametre angives; -
Modellens tilpasning til dataene;
-
Udtrækning af klyngeetiketter, hvis et specifikt antal klynger vælges;
-
Visualisering af klyngerne (hvis dataene er 2D eller 3D) ved brug af spredningsdiagrammer;
-
Anvendelse af SciPy's
linkagetil at oprette linkage-matrixen og derefter dendrogram for at visualisere dendrogrammet.
Der kan også eksperimenteres med forskellige linkage-metoder (f.eks. single, complete, average, Ward's) og observeres, hvordan de påvirker klyngeresultaterne og dendrogrammets struktur.
Tak for dine kommentarer!
Spørg AI
Spørg AI
Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat