Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære Hvordan Hierarkisk Klyngedannelse Fungerer? | Hierarkisk Klyngedannelse
Klyngeanalyse

bookHvordan Hierarkisk Klyngedannelse Fungerer?

Note
Definition

Hierarkisk klyngedannelse er en metode til klyngeanalyse, der søger at opbygge et hierarki af klynger. I modsætning til K-means kræver den ikke, at du på forhånd angiver antallet af klynger.

Algoritmen kan enten starte med hver punkt i sin egen klynge og gradvist sammenlægge dem (agglomerativ klyngedannelse), eller starte med alle punkter i én klynge og derefter opdele dem rekursivt i mindre klynger (divisiv klyngedannelse).

Da agglomerativ klyngedannelse er den mest anvendte tilgang, vil vi fokusere på denne.

Den mest almindelige type af hierarkisk klyngedannelse er bottom-up-tilgangen. Algoritmen er som følger:

  1. Initialisering: hvert datapunkt behandles som en enkelt klynge;

  2. Beregn nærhedsmatrix: beregn afstanden mellem hvert par af klynger;

  3. Sammenlæg klynger: de to nærmeste klynger sammenlægges til én klynge;

  4. Opdater nærhedsmatrix: genberegn afstandene mellem den nye klynge og alle resterende klynger;

  5. Gentag: trin 3 og 4 gentages, indtil alle datapunkter er sammenlagt til én klynge.

Sammenkoblingstyper

Nærheden mellem to klynger defineres af sammenkoblingstypen. Almindelige sammenkoblingsmetoder, der anvendes i hierarkisk klyngeanalyse, er:

  • Single linkage: afstanden mellem de to nærmeste punkter i de to klynger;

  • Complete linkage: afstanden mellem de to fjerneste punkter i de to klynger;

  • Average linkage: gennemsnitsafstanden mellem alle par af punkter i de to klynger;

  • Ward's metode: minimerer stigningen i den samlede varians inden for klyngen ved sammenlægning af to klynger.

Valget af sammenkoblingsmetode kan påvirke formen og strukturen af de resulterende klynger. Eksperimentering og domænekendskab er ofte nyttige ved valg af den bedste metode til dine data.

Dendrogram

Resultaterne af hierarkisk klyngeanalyse visualiseres ofte ved hjælp af et dendrogram.

Note
Definition

Et dendrogram er et træ-lignende diagram, der viser det hierarkiske forhold mellem klyngerne. Højden af grenene i dendrogrammet repræsenterer afstanden mellem klyngerne.

question mark

Hvad er den primære egenskab ved bottom-up (agglomerativ) hierarkisk klyngedannelse?

Select the correct answer

Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 4. Kapitel 1

Spørg AI

expand

Spørg AI

ChatGPT

Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat

Awesome!

Completion rate improved to 2.94

bookHvordan Hierarkisk Klyngedannelse Fungerer?

Stryg for at vise menuen

Note
Definition

Hierarkisk klyngedannelse er en metode til klyngeanalyse, der søger at opbygge et hierarki af klynger. I modsætning til K-means kræver den ikke, at du på forhånd angiver antallet af klynger.

Algoritmen kan enten starte med hver punkt i sin egen klynge og gradvist sammenlægge dem (agglomerativ klyngedannelse), eller starte med alle punkter i én klynge og derefter opdele dem rekursivt i mindre klynger (divisiv klyngedannelse).

Da agglomerativ klyngedannelse er den mest anvendte tilgang, vil vi fokusere på denne.

Den mest almindelige type af hierarkisk klyngedannelse er bottom-up-tilgangen. Algoritmen er som følger:

  1. Initialisering: hvert datapunkt behandles som en enkelt klynge;

  2. Beregn nærhedsmatrix: beregn afstanden mellem hvert par af klynger;

  3. Sammenlæg klynger: de to nærmeste klynger sammenlægges til én klynge;

  4. Opdater nærhedsmatrix: genberegn afstandene mellem den nye klynge og alle resterende klynger;

  5. Gentag: trin 3 og 4 gentages, indtil alle datapunkter er sammenlagt til én klynge.

Sammenkoblingstyper

Nærheden mellem to klynger defineres af sammenkoblingstypen. Almindelige sammenkoblingsmetoder, der anvendes i hierarkisk klyngeanalyse, er:

  • Single linkage: afstanden mellem de to nærmeste punkter i de to klynger;

  • Complete linkage: afstanden mellem de to fjerneste punkter i de to klynger;

  • Average linkage: gennemsnitsafstanden mellem alle par af punkter i de to klynger;

  • Ward's metode: minimerer stigningen i den samlede varians inden for klyngen ved sammenlægning af to klynger.

Valget af sammenkoblingsmetode kan påvirke formen og strukturen af de resulterende klynger. Eksperimentering og domænekendskab er ofte nyttige ved valg af den bedste metode til dine data.

Dendrogram

Resultaterne af hierarkisk klyngeanalyse visualiseres ofte ved hjælp af et dendrogram.

Note
Definition

Et dendrogram er et træ-lignende diagram, der viser det hierarkiske forhold mellem klyngerne. Højden af grenene i dendrogrammet repræsenterer afstanden mellem klyngerne.

question mark

Hvad er den primære egenskab ved bottom-up (agglomerativ) hierarkisk klyngedannelse?

Select the correct answer

Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 4. Kapitel 1
some-alt