Leer Implementatie op Echte Dataset

Veeg om het menu te tonen

Na het oefenen met K-means op dummydata kun je het nu toepassen op een echte dataset: de wine dataset. Echte datasets brengen complexiteiten met zich mee, zoals onduidelijke clusterstructuren en verschillende schalen van kenmerken, wat een meer praktische clusteringuitdaging biedt.

Je gebruikt de functie datasets.load_wine() om deze dataset te laden. De wine dataset bevat verschillende attributen van diverse wijnen. Het doel is om te onderzoeken of K-means clusters kan ontdekken die wijn-overeenkomsten weerspiegelen op basis van deze attributen.

Echte data vereist vaak preprocessing. Kenmerkenschaalverdeling kan nodig zijn om ervoor te zorgen dat alle kenmerken gelijk bijdragen aan de afstandsberekeningen in K-means.

Om het optimale aantal clusters te vinden, gebruik je opnieuw:

WSS-methode: analyseer de elbow-plot voor een reeks K-waarden. Elbows kunnen minder duidelijk zijn in echte data;
Silhouette score-methode: bekijk de Silhouette-plot en gemiddelde scores om de beste K te vinden. Scores kunnen variabeler zijn dan bij dummydata.

Visualisaties zijn essentieel om de resultaten te begrijpen:

Het plotten van 3 geselecteerde kenmerken in een 3D-plot van de wine dataset maakt het mogelijk om de dataverdeling visueel te inspecteren in een gereduceerde kenmerkruimte, zonder gebruik van dimensionaliteitsreductie;
WSS-plot voor het identificeren van de elbow;
Silhouette-plot voor de clusterkwaliteit.

K-means clusters gevisualiseerd op de 3-kenmerken 3D-plot van de wine data, waarbij clusterindelingen binnen deze gereduceerde kenmerkruimte worden weergegeven.

Was alles duidelijk?

Bedankt voor je feedback!

Sectie 3. Hoofdstuk 6

Vraag AI

Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.

Sectie 3. Hoofdstuk 6