Implementatie op Dummy Dataset
Veeg om het menu te tonen
Zoals gebruikelijk maak je gebruik van de volgende bibliotheken:
-
sklearnvoor het genereren van dummydata en het implementeren van hiërarchische clustering (AgglomerativeClustering); -
scipyvoor het genereren en werken met het dendrogram; -
matplotlibvoor het visualiseren van de clusters en het dendrogram; -
numpyvoor numerieke bewerkingen.
Genereren van dummydata
Je kunt de functie make_blobs() van scikit-learn gebruiken om datasets te genereren met verschillende aantallen clusters en verschillende graden van scheiding. Dit helpt je te zien hoe hiërarchische clustering presteert in verschillende scenario's.
Het algemene algoritme is als volgt:
-
Het aanmaken van het
AgglomerativeClustering-object, waarbij de linkage-methode en andere parameters worden gespecificeerd; -
Het fitten van het model op de data;
-
Het extraheren van clusterlabels indien een specifiek aantal clusters is gekozen;
-
Het visualiseren van de clusters (indien de data 2D of 3D is) met behulp van scatterplots;
-
Het gebruik van SciPy's
linkageom de linkage-matrix te creëren en vervolgens dendrogram om het dendrogram te visualiseren.
Ook kan er geëxperimenteerd worden met verschillende linkage-methoden (bijvoorbeeld single, complete, average, Ward's) om te observeren hoe deze de clusteringresultaten en de structuur van het dendrogram beïnvloeden.
Bedankt voor je feedback!
Vraag AI
Vraag AI
Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.