Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære Implementering på Dummy-Datasæt | Sektion
Practice
Projects
Quizzes & Challenges
Quizzer
Challenges
/
Grundlæggende Ikke-Superviseret Læring

bookImplementering på Dummy-Datasæt

Du vil nu gennemgå et praktisk eksempel på anvendelse af K-means clustering. Til dette formål anvendes et dummy-datasæt. Dummy-datasæt er kunstigt genererede datasæt, der ofte bruges til demonstration og læringsformål. De gør det muligt at kontrollere dataens karakteristika og tydeligt observere, hvordan algoritmer som K-means fungerer.

Dummy-datasæt

Til denne demonstration oprettes et dummy-datasæt ved hjælp af funktionen make_blobs(). Denne funktion er velegnet til at generere klynger af datapunkter på en visuelt tydelig og kontrollerbar måde. Dataene genereres med følgende karakteristika:

  • Antal eksempler: der oprettes et datasæt med 300 datapunkter;

  • Antal centre: antallet af reelle klynger sættes til 4. Dette betyder, at dummy-dataene er designet til at have fire adskilte grupper;

  • Klynge-standardafvigelse: spredningen af datapunkter inden for hver klynge kontrolleres og sættes til 0.60 for relativt kompakte klynger;

  • Random state: der anvendes en fast random_state for reproducerbarhed, hvilket sikrer, at datagenereringen er ensartet hver gang koden køres.

X, y_true = make_blobs(n_samples=300,
                       centers=4,
                       cluster_std=0.60,
                       random_state=0)

K-means-implementering

Med dette dummy-datasæt oprettet anvendes herefter K-means-algoritmen. Det undersøges, hvordan K-means forsøger at opdele disse data i klynger baseret på de principper, der er gennemgået i tidligere kapitler.

K-means kan initialiseres og trænes således i Python:

kmeans = KMeans(n_clusters=k, random_state=42) 
kmeans.fit(X)

For at bestemme det optimale antal klynger for disse data anvendes de metoder, der er diskuteret i de foregående kapitler:

  • WSS-metoden: Within-Sum-of-Squares beregnes for forskellige værdier af K, og elbow-plottet analyseres for at identificere et potentielt optimalt K;

  • Silhouette score-metoden: Silhouette Score beregnes for forskellige værdier af K, og både Silhouette-plot og gennemsnitlige Silhouette-scorer undersøges for at finde det K, der maksimerer klyngekvaliteten.

Visualiseringer spiller endelig en central rolle i implementeringen. Følgende visualiseres:

  • Selve dummy-dataene for at se den underliggende klynge-struktur;

  • WSS-plottet for at identificere elbow-punktet;

  • Silhouette-plottet for at vurdere klyngekvaliteten for forskellige K-værdier;

  • De endelige K-means-klynger lagt oven på dummy-dataene for visuelt at verificere klyngeresultaterne og det valgte optimale K.

question mark

Hvilket parameter i funktionen make_blobs() styrer spredningen af datapunkter inden for hver klynge

Select the correct answer

Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 1. Kapitel 11

Spørg AI

expand

Spørg AI

ChatGPT

Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat

bookImplementering på Dummy-Datasæt

Stryg for at vise menuen

Du vil nu gennemgå et praktisk eksempel på anvendelse af K-means clustering. Til dette formål anvendes et dummy-datasæt. Dummy-datasæt er kunstigt genererede datasæt, der ofte bruges til demonstration og læringsformål. De gør det muligt at kontrollere dataens karakteristika og tydeligt observere, hvordan algoritmer som K-means fungerer.

Dummy-datasæt

Til denne demonstration oprettes et dummy-datasæt ved hjælp af funktionen make_blobs(). Denne funktion er velegnet til at generere klynger af datapunkter på en visuelt tydelig og kontrollerbar måde. Dataene genereres med følgende karakteristika:

  • Antal eksempler: der oprettes et datasæt med 300 datapunkter;

  • Antal centre: antallet af reelle klynger sættes til 4. Dette betyder, at dummy-dataene er designet til at have fire adskilte grupper;

  • Klynge-standardafvigelse: spredningen af datapunkter inden for hver klynge kontrolleres og sættes til 0.60 for relativt kompakte klynger;

  • Random state: der anvendes en fast random_state for reproducerbarhed, hvilket sikrer, at datagenereringen er ensartet hver gang koden køres.

X, y_true = make_blobs(n_samples=300,
                       centers=4,
                       cluster_std=0.60,
                       random_state=0)

K-means-implementering

Med dette dummy-datasæt oprettet anvendes herefter K-means-algoritmen. Det undersøges, hvordan K-means forsøger at opdele disse data i klynger baseret på de principper, der er gennemgået i tidligere kapitler.

K-means kan initialiseres og trænes således i Python:

kmeans = KMeans(n_clusters=k, random_state=42) 
kmeans.fit(X)

For at bestemme det optimale antal klynger for disse data anvendes de metoder, der er diskuteret i de foregående kapitler:

  • WSS-metoden: Within-Sum-of-Squares beregnes for forskellige værdier af K, og elbow-plottet analyseres for at identificere et potentielt optimalt K;

  • Silhouette score-metoden: Silhouette Score beregnes for forskellige værdier af K, og både Silhouette-plot og gennemsnitlige Silhouette-scorer undersøges for at finde det K, der maksimerer klyngekvaliteten.

Visualiseringer spiller endelig en central rolle i implementeringen. Følgende visualiseres:

  • Selve dummy-dataene for at se den underliggende klynge-struktur;

  • WSS-plottet for at identificere elbow-punktet;

  • Silhouette-plottet for at vurdere klyngekvaliteten for forskellige K-værdier;

  • De endelige K-means-klynger lagt oven på dummy-dataene for visuelt at verificere klyngeresultaterne og det valgte optimale K.

question mark

Hvilket parameter i funktionen make_blobs() styrer spredningen af datapunkter inden for hver klynge

Select the correct answer

Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 1. Kapitel 11
some-alt