Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære Hvordan Hierarkisk Klyngedannelse Fungerer | Sektion
Practice
Projects
Quizzes & Challenges
Quizzer
Challenges
/
Grundlæggende Ikke-Superviseret Læring

bookHvordan Hierarkisk Klyngedannelse Fungerer

Note
Definition

Hierarkisk klyngedannelse er en metode til klyngeanalyse, der søger at opbygge et hierarki af klynger. I modsætning til K-means kræver den ikke, at du forud angiver antallet af klynger.

Algoritmen kan enten starte med hver datapunkt i sin egen klynge og gradvist sammenflette dem (agglomerativ klyngedannelse), eller starte med alle datapunkter i én klynge og derefter opdele dem rekursivt i mindre klynger (divisiv klyngedannelse).

Da agglomerativ klyngedannelse er den mest anvendte tilgang, vil vi fokusere på denne.

Den mest almindelige type af hierarkisk klyngedannelse er bottom-up-tilgangen. Algoritmen er som følger:

  1. Initialisering: hvert datapunkt behandles som en enkelt klynge;

  2. Beregn nærhedsmatrix: beregn afstanden mellem hvert par af klynger;

  3. Sammenflet klynger: de to nærmeste klynger sammenflettes til én klynge;

  4. Opdater nærhedsmatrix: genberegn afstandene mellem den nye klynge og alle resterende klynger;

  5. Gentag: trin 3 og 4 gentages, indtil alle datapunkter er sammenflettet til én klynge.

Sammenkoblingstyper

Nærheden mellem to klynger defineres af sammenkoblingstypen. Almindelige sammenkoblingsmetoder anvendt i hierarkisk klyngedannelse er:

  • Single linkage: afstanden mellem de to nærmeste punkter i de to klynger;

  • Complete linkage: afstanden mellem de to fjerneste punkter i de to klynger;

  • Average linkage: gennemsnitsafstanden mellem alle par af punkter i de to klynger;

  • Ward's metode: minimerer stigningen i den samlede varians inden for klyngen ved sammenlægning af to klynger.

Valget af sammenkoblingsmetode kan påvirke formen og strukturen af de resulterende klynger. Eksperimentering og domæneviden er ofte nyttige ved valg af den bedste metode til dine data.

Dendrogram

Resultaterne af hierarkisk klyngedannelse visualiseres ofte ved hjælp af et dendrogram.

Note
Definition

Et dendrogram er et træ-lignende diagram, der viser det hierarkiske forhold mellem klyngerne. Højden på grenene i dendrogrammet repræsenterer afstanden mellem klyngerne.

question mark

Hvad er den primære egenskab ved bottom-up (agglomerativ) hierarkisk klyngedannelse?

Select the correct answer

Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 1. Kapitel 14

Spørg AI

expand

Spørg AI

ChatGPT

Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat

bookHvordan Hierarkisk Klyngedannelse Fungerer

Stryg for at vise menuen

Note
Definition

Hierarkisk klyngedannelse er en metode til klyngeanalyse, der søger at opbygge et hierarki af klynger. I modsætning til K-means kræver den ikke, at du forud angiver antallet af klynger.

Algoritmen kan enten starte med hver datapunkt i sin egen klynge og gradvist sammenflette dem (agglomerativ klyngedannelse), eller starte med alle datapunkter i én klynge og derefter opdele dem rekursivt i mindre klynger (divisiv klyngedannelse).

Da agglomerativ klyngedannelse er den mest anvendte tilgang, vil vi fokusere på denne.

Den mest almindelige type af hierarkisk klyngedannelse er bottom-up-tilgangen. Algoritmen er som følger:

  1. Initialisering: hvert datapunkt behandles som en enkelt klynge;

  2. Beregn nærhedsmatrix: beregn afstanden mellem hvert par af klynger;

  3. Sammenflet klynger: de to nærmeste klynger sammenflettes til én klynge;

  4. Opdater nærhedsmatrix: genberegn afstandene mellem den nye klynge og alle resterende klynger;

  5. Gentag: trin 3 og 4 gentages, indtil alle datapunkter er sammenflettet til én klynge.

Sammenkoblingstyper

Nærheden mellem to klynger defineres af sammenkoblingstypen. Almindelige sammenkoblingsmetoder anvendt i hierarkisk klyngedannelse er:

  • Single linkage: afstanden mellem de to nærmeste punkter i de to klynger;

  • Complete linkage: afstanden mellem de to fjerneste punkter i de to klynger;

  • Average linkage: gennemsnitsafstanden mellem alle par af punkter i de to klynger;

  • Ward's metode: minimerer stigningen i den samlede varians inden for klyngen ved sammenlægning af to klynger.

Valget af sammenkoblingsmetode kan påvirke formen og strukturen af de resulterende klynger. Eksperimentering og domæneviden er ofte nyttige ved valg af den bedste metode til dine data.

Dendrogram

Resultaterne af hierarkisk klyngedannelse visualiseres ofte ved hjælp af et dendrogram.

Note
Definition

Et dendrogram er et træ-lignende diagram, der viser det hierarkiske forhold mellem klyngerne. Højden på grenene i dendrogrammet repræsenterer afstanden mellem klyngerne.

question mark

Hvad er den primære egenskab ved bottom-up (agglomerativ) hierarkisk klyngedannelse?

Select the correct answer

Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 1. Kapitel 14
some-alt