Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære Implementering på Dummy-Datasæt | K-Means
Klyngeanalyse

bookImplementering på Dummy-Datasæt

Du vil nu gennemgå et praktisk eksempel på anvendelse af K-means clustering. Til dette formål vil du bruge et dummy-datasæt. Dummy-datasæt er kunstigt genererede datasæt, der ofte anvendes til demonstration og læringsformål. De giver os mulighed for at kontrollere dataens karakteristika og tydeligt observere, hvordan algoritmer som K-means fungerer.

Dummy-datasæt

Til denne demonstration vil vi oprette et dummy-datasæt ved hjælp af funktionen make_blobs(). Denne funktion er fremragende til at generere klynger af datapunkter på en visuelt klar og kontrollerbar måde. Vi vil generere data med følgende karakteristika:

  • Antal eksempler: vi opretter et datasæt med 300 datapunkter;

  • Antal centre: vi sætter antallet af reelle klynger til 4. Dette betyder, at dummy-dataene er designet til at have fire adskilte grupper;

  • Klynge-standardafvigelse: vi kontrollerer spredningen af datapunkter inden for hver klynge og sætter den til 0.60 for relativt kompakte klynger;

  • Random state: vi bruger en fast random_state for reproducerbarhed, hvilket sikrer, at datagenereringen er ensartet hver gang koden køres.

X, y_true = make_blobs(n_samples=300,
                       centers=4,
                       cluster_std=0.60,
                       random_state=0)

K-means-implementering

Når dette dummy-datasæt er oprettet, vil vi anvende K-means-algoritmen. Vi vil undersøge, hvordan K-means forsøger at opdele disse data i klynger baseret på de principper, du har lært i de foregående kapitler.

K-means kan initialiseres og trænes således i Python:

kmeans = KMeans(n_clusters=k, random_state=42) 
kmeans.fit(X)

For at bestemme det optimale antal klynger for disse data vil vi anvende de metoder, der er diskuteret i de foregående kapitler:

  • WSS-metoden: vi beregner Within-Sum-of-Squares for forskellige værdier af K og analyserer elbow-plottet for at identificere et potentielt optimalt K;

  • Silhouette score-metoden: vi beregner Silhouette Score for forskellige værdier af K og undersøger Silhouette-plottet samt gennemsnitlige Silhouette-scorer for at finde det K, der maksimerer klyngekvaliteten.

Endelig vil visualiseringer spille en central rolle i vores implementering. Vi vil visualisere:

  • Selve dummy-dataene for at se den underliggende klynge-struktur;

  • WSS-plottet for at identificere elbow-punktet;

  • Silhouette-plottet for at vurdere klyngekvaliteten for forskellige K-værdier;

  • De endelige K-means-klynger lagt oven på dummy-dataene for visuelt at verificere klyngeresultaterne og det valgte optimale K.

Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 3. Kapitel 5

Spørg AI

expand

Spørg AI

ChatGPT

Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat

Awesome!

Completion rate improved to 2.94

bookImplementering på Dummy-Datasæt

Stryg for at vise menuen

Du vil nu gennemgå et praktisk eksempel på anvendelse af K-means clustering. Til dette formål vil du bruge et dummy-datasæt. Dummy-datasæt er kunstigt genererede datasæt, der ofte anvendes til demonstration og læringsformål. De giver os mulighed for at kontrollere dataens karakteristika og tydeligt observere, hvordan algoritmer som K-means fungerer.

Dummy-datasæt

Til denne demonstration vil vi oprette et dummy-datasæt ved hjælp af funktionen make_blobs(). Denne funktion er fremragende til at generere klynger af datapunkter på en visuelt klar og kontrollerbar måde. Vi vil generere data med følgende karakteristika:

  • Antal eksempler: vi opretter et datasæt med 300 datapunkter;

  • Antal centre: vi sætter antallet af reelle klynger til 4. Dette betyder, at dummy-dataene er designet til at have fire adskilte grupper;

  • Klynge-standardafvigelse: vi kontrollerer spredningen af datapunkter inden for hver klynge og sætter den til 0.60 for relativt kompakte klynger;

  • Random state: vi bruger en fast random_state for reproducerbarhed, hvilket sikrer, at datagenereringen er ensartet hver gang koden køres.

X, y_true = make_blobs(n_samples=300,
                       centers=4,
                       cluster_std=0.60,
                       random_state=0)

K-means-implementering

Når dette dummy-datasæt er oprettet, vil vi anvende K-means-algoritmen. Vi vil undersøge, hvordan K-means forsøger at opdele disse data i klynger baseret på de principper, du har lært i de foregående kapitler.

K-means kan initialiseres og trænes således i Python:

kmeans = KMeans(n_clusters=k, random_state=42) 
kmeans.fit(X)

For at bestemme det optimale antal klynger for disse data vil vi anvende de metoder, der er diskuteret i de foregående kapitler:

  • WSS-metoden: vi beregner Within-Sum-of-Squares for forskellige værdier af K og analyserer elbow-plottet for at identificere et potentielt optimalt K;

  • Silhouette score-metoden: vi beregner Silhouette Score for forskellige værdier af K og undersøger Silhouette-plottet samt gennemsnitlige Silhouette-scorer for at finde det K, der maksimerer klyngekvaliteten.

Endelig vil visualiseringer spille en central rolle i vores implementering. Vi vil visualisere:

  • Selve dummy-dataene for at se den underliggende klynge-struktur;

  • WSS-plottet for at identificere elbow-punktet;

  • Silhouette-plottet for at vurdere klyngekvaliteten for forskellige K-værdier;

  • De endelige K-means-klynger lagt oven på dummy-dataene for visuelt at verificere klyngeresultaterne og det valgte optimale K.

Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 3. Kapitel 5
some-alt