Summary  
The k-means algorithm iteratively partitions a set of points by randomly initializing K centroids, assigning each point to its nearest centroid based on distance, updating each centroid to the mean of its assigned points, and repeating these steps until the centroid movements become negligible or a maximum iteration count is reached.

General domain of usage  
Unsupervised machine learning (data clustering)

### Initialisering

Algoritmen starter med å **tilfeldig** velge **K** innledende klyngesentre, også kjent som **sentroider**. Disse sentroidene fungerer som utgangspunkt for hver klynge. En vanlig tilnærming er å tilfeldig velge K datapunkter fra datasettet som de **innledende sentroidene**.

### Tildelingssteg

I dette steget blir hvert datapunkt tildelt den **nærmeste sentroiden**. Avstanden måles vanligvis med **Euklidsk avstand**, men andre avstandsmål kan også benyttes. Hvert datapunkt plasseres i klyngen som representeres av den nærmeste sentroiden.

### Oppdateringssteg

Når alle datapunkter er tildelt klynger, blir sentroidene **rekalkulert**. For hver klynge beregnes den nye sentroiden som **gjennomsnittet av alle datapunktene som tilhører den klyngen**. I praksis flyttes sentroiden til midten av sin klynge.

### Iterasjon

Steg 2 og 3 gjentas iterativt. I hver iterasjon blir datapunktene **tildelt klynger på nytt** basert på de oppdaterte sentroidene, og deretter **rekalkuleres sentroidene** basert på de nye klyngetildelingene. Denne iterative prosessen fortsetter til et stoppkriterium er oppfylt.

### Konvergens

Algoritmen stopper når ett av følgende kriterier er oppfylt:

- **Sentroidene endrer seg ikke vesentlig:** posisjonene til sentroidene stabiliserer seg, noe som betyr at det er minimal endring i deres plassering i påfølgende iterasjoner;

- **Tildelingene av datapunkter endrer seg ikke:** datapunktene forblir i de samme klyngene, noe som indikerer at klyngestrukturen har blitt stabil;

- **Maksimalt antall iterasjoner er nådd:** et forhåndsdefinert maksimalt antall iterasjoner er nådd. Dette forhindrer at algoritmen kjører uendelig lenge.

Når algoritmen har konvergert, har K-means delt dataene inn i **K klynger**, hvor hver klynge er representert av sin sentroid. De resulterende klyngene skal være **internt sammenhengende** og **eksternt adskilte** basert på valgt avstandsmål og den iterative forbedringsprosessen.

Hva er hovedhandlingen som utføres under oppdateringssteget i K-means-algoritmen?

Få en solid forståelse av klyngeanalyse, en sentral usupervisert læringsteknikk for å avdekke mønstre i umerkede data. Utforsk det grunnleggende innen K-Means, hierarkisk klyngeanalyse, DBSCAN og GMM-er, og få praktisk erfaring med ekte datasett for å bygge selvtillit i anvendelse av klyngeanalyse på reelle problemer.

Fordyp deg i det grunnleggende innen klyngeanalyse og oppdag hvordan det skiller seg fra klassifisering. Utforsk sentrale algoritmer, verktøy og biblioteker som driver denne teknikken for ikke-veiledet læring for å avdekke skjulte mønstre i data.

Få en grundig forståelse av sentrale forhåndsbehandlingsteknikker som sikrer effektiv klyngeanalyse. Lær hvordan man håndterer manglende verdier, koder kategoriske egenskaper, normaliserer data og velger passende avstandsmål og koblinger for å øke nøyaktigheten i klyngeanalysen.

Behersk ferdighetene som kreves for å anvende K-Means-klynging effektivt. Lær hvordan algoritmen fungerer, bestem det optimale antallet klynger, og få praktisk erfaring ved å implementere K-Means på både syntetiske og virkelige datasett.

Utforsk det grunnleggende innen hierarkisk klynging og lær hvordan data kan grupperes i meningsfulle klynger ved hjelp av dendrogrammer. Bygg trygghet i å identifisere det optimale antallet klynger og implementere teknikken på både syntetiske og virkelige datasett.

Utforsk hvordan DBSCAN utmerker seg i å oppdage klynger med varierende former og håndtere støy i data. Lær mekanismene bak denne tetthetsbaserte algoritmen, hvordan punkter tilordnes klynger, og bruk den på både syntetiske og virkelige datasett med trygghet.

Få en grundig forståelse av gaussiske blandingsmodeller og hvordan de bruker sannsynlighet for å modellere komplekse klyngestrukturer. Prinsipper for gaussisk fordeling, utforskning av hvordan GMM fungerer, samt anvendelse på både dummydata og virkelige datasett.

Hvordan Fungerer K-Means-Algoritmen?

Initialisering

Tildelingssteg

Oppdateringssteg

Iterasjon

Konvergens