Stryg for at vise menuen

Definition

Hierarkisk klyngedannelse er en metode til klyngeanalyse, der søger at opbygge et hierarki af klynger. I modsætning til K-means kræver den ikke, at du på forhånd angiver antallet af klynger.

Algoritmen kan enten starte med hver punkt i sin egen klynge og gradvist sammenlægge dem (agglomerativ klyngedannelse), eller starte med alle punkter i én klynge og derefter opdele dem rekursivt i mindre klynger (divisiv klyngedannelse).

Da agglomerativ klyngedannelse er den mest anvendte tilgang, vil vi fokusere på denne.

Den mest almindelige type af hierarkisk klyngedannelse er bottom-up-tilgangen. Algoritmen er som følger:

Initialisering: hvert datapunkt behandles som en enkelt klynge;
Beregn nærhedsmatrix: beregn afstanden mellem hvert par af klynger;
Sammenlæg klynger: de to nærmeste klynger sammenlægges til én klynge;
Opdater nærhedsmatrix: genberegn afstandene mellem den nye klynge og alle resterende klynger;
Gentag: trin 3 og 4 gentages, indtil alle datapunkter er sammenlagt til én klynge.

Sammenkoblingstyper

Nærheden mellem to klynger defineres af sammenkoblingstypen. Almindelige sammenkoblingsmetoder, der anvendes i hierarkisk klyngeanalyse, er:

Single linkage: afstanden mellem de to nærmeste punkter i de to klynger;
Complete linkage: afstanden mellem de to fjerneste punkter i de to klynger;
Average linkage: gennemsnitsafstanden mellem alle par af punkter i de to klynger;
Ward's metode: minimerer stigningen i den samlede varians inden for klyngen, når to klynger sammenlægges.

Valget af sammenkoblingsmetode kan påvirke formen og strukturen af de resulterende klynger. Eksperimentering og domæneviden er ofte nyttige ved valg af den bedste metode til dine data.

Dendrogram

Resultaterne af hierarkisk klyngeanalyse visualiseres ofte ved hjælp af et dendrogram.

Definition

Et dendrogram er et træ-lignende diagram, der viser det hierarkiske forhold mellem klyngerne. Højden på grenene i dendrogrammet repræsenterer afstanden mellem klyngerne.

Var alt klart?

Tak for dine kommentarer!

Sektion 4. Kapitel 1

Spørg AI

Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat

Hvordan Hierarkisk Klyngedannelse Fungerer?

Definition

Da agglomerativ klyngedannelse er den mest anvendte tilgang, vil vi fokusere på denne.

Den mest almindelige type af hierarkisk klyngedannelse er bottom-up-tilgangen. Algoritmen er som følger:

Initialisering: hvert datapunkt behandles som en enkelt klynge;
Beregn nærhedsmatrix: beregn afstanden mellem hvert par af klynger;
Sammenlæg klynger: de to nærmeste klynger sammenlægges til én klynge;
Opdater nærhedsmatrix: genberegn afstandene mellem den nye klynge og alle resterende klynger;
Gentag: trin 3 og 4 gentages, indtil alle datapunkter er sammenlagt til én klynge.

Sammenkoblingstyper

Nærheden mellem to klynger defineres af sammenkoblingstypen. Almindelige sammenkoblingsmetoder, der anvendes i hierarkisk klyngeanalyse, er:

Single linkage: afstanden mellem de to nærmeste punkter i de to klynger;
Complete linkage: afstanden mellem de to fjerneste punkter i de to klynger;
Average linkage: gennemsnitsafstanden mellem alle par af punkter i de to klynger;
Ward's metode: minimerer stigningen i den samlede varians inden for klyngen, når to klynger sammenlægges.

Valget af sammenkoblingsmetode kan påvirke formen og strukturen af de resulterende klynger. Eksperimentering og domæneviden er ofte nyttige ved valg af den bedste metode til dine data.

Dendrogram

Resultaterne af hierarkisk klyngeanalyse visualiseres ofte ved hjælp af et dendrogram.

Definition

Et dendrogram er et træ-lignende diagram, der viser det hierarkiske forhold mellem klyngerne. Højden på grenene i dendrogrammet repræsenterer afstanden mellem klyngerne.

Var alt klart?

Tak for dine kommentarer!

Sektion 4. Kapitel 1