Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lernen Wie Hierarchisches Clustering Funktioniert | Abschnitt
Practice
Projects
Quizzes & Challenges
Quizze
Challenges
/
Grundlagen des Unüberwachten Lernens

bookWie Hierarchisches Clustering Funktioniert

Note
Definition

Hierarchisches Clustering ist eine Methode der Clusteranalyse, die darauf abzielt, eine Hierarchie von Clustern zu erstellen. Im Gegensatz zu K-means ist es nicht erforderlich, die Anzahl der Cluster im Voraus festzulegen.

Der Algorithmus kann entweder mit jedem Punkt in seinem eigenen Cluster beginnen und diese sukzessive zusammenführen (agglomeratives Clustering), oder mit allen Punkten in einem Cluster starten und diese rekursiv in kleinere Cluster aufteilen (divisives Clustering).

Da das agglomerative Clustering die häufiger verwendete Methode ist, konzentrieren wir uns darauf.

Die gebräuchlichste Form des hierarchischen Clusterings ist der Bottom-up-Ansatz. Der Algorithmus ist wie folgt:

  1. Initialisierung: Jeder Datenpunkt wird als einzelner Cluster betrachtet;

  2. Berechnung der Proximitätsmatrix: Der Abstand zwischen jedem Clusterpaar wird berechnet;

  3. Cluster zusammenführen: Die beiden nächstgelegenen Cluster werden zu einem einzigen Cluster zusammengeführt;

  4. Aktualisierung der Proximitätsmatrix: Die Abstände zwischen dem neuen Cluster und allen verbleibenden Clustern werden neu berechnet;

  5. Wiederholen: Die Schritte 3 und 4 werden wiederholt, bis alle Datenpunkte zu einem einzigen Cluster zusammengeführt sind.

Verknüpfungstypen

Die Nähe zwischen zwei Clustern wird durch den Verknüpfungstyp definiert. Gängige Verknüpfungsmethoden, die beim hierarchischen Clustering verwendet werden, sind:

  • Single Linkage: Der Abstand zwischen den nächstgelegenen Punkten in den beiden Clustern;

  • Complete Linkage: Der Abstand zwischen den am weitesten entfernten Punkten in den beiden Clustern;

  • Average Linkage: Der durchschnittliche Abstand zwischen allen Punktpaaren in den beiden Clustern;

  • Ward-Methode: Minimiert den Anstieg der Gesamtvarianz innerhalb der Cluster beim Zusammenführen zweier Cluster.

Die Wahl der Verknüpfungsmethode kann die Form und Struktur der resultierenden Cluster beeinflussen. Experimentieren und Domänenwissen sind oft hilfreich, um die beste Methode für Ihre Daten auszuwählen.

Dendrogramm

Die Ergebnisse des hierarchischen Clusterings werden häufig mit einem Dendrogramm visualisiert.

Note
Definition

Ein Dendrogramm ist ein baumartiges Diagramm, das die hierarchische Beziehung zwischen den Clustern darstellt. Die Höhe der Äste im Dendrogramm repräsentiert den Abstand zwischen den Clustern.

question mark

Was ist das Hauptmerkmal des Bottom-up-Ansatzes (agglomeratives hierarchisches Clustering)?

Select the correct answer

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 1. Kapitel 14

Fragen Sie AI

expand

Fragen Sie AI

ChatGPT

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

bookWie Hierarchisches Clustering Funktioniert

Swipe um das Menü anzuzeigen

Note
Definition

Hierarchisches Clustering ist eine Methode der Clusteranalyse, die darauf abzielt, eine Hierarchie von Clustern zu erstellen. Im Gegensatz zu K-means ist es nicht erforderlich, die Anzahl der Cluster im Voraus festzulegen.

Der Algorithmus kann entweder mit jedem Punkt in seinem eigenen Cluster beginnen und diese sukzessive zusammenführen (agglomeratives Clustering), oder mit allen Punkten in einem Cluster starten und diese rekursiv in kleinere Cluster aufteilen (divisives Clustering).

Da das agglomerative Clustering die häufiger verwendete Methode ist, konzentrieren wir uns darauf.

Die gebräuchlichste Form des hierarchischen Clusterings ist der Bottom-up-Ansatz. Der Algorithmus ist wie folgt:

  1. Initialisierung: Jeder Datenpunkt wird als einzelner Cluster betrachtet;

  2. Berechnung der Proximitätsmatrix: Der Abstand zwischen jedem Clusterpaar wird berechnet;

  3. Cluster zusammenführen: Die beiden nächstgelegenen Cluster werden zu einem einzigen Cluster zusammengeführt;

  4. Aktualisierung der Proximitätsmatrix: Die Abstände zwischen dem neuen Cluster und allen verbleibenden Clustern werden neu berechnet;

  5. Wiederholen: Die Schritte 3 und 4 werden wiederholt, bis alle Datenpunkte zu einem einzigen Cluster zusammengeführt sind.

Verknüpfungstypen

Die Nähe zwischen zwei Clustern wird durch den Verknüpfungstyp definiert. Gängige Verknüpfungsmethoden, die beim hierarchischen Clustering verwendet werden, sind:

  • Single Linkage: Der Abstand zwischen den nächstgelegenen Punkten in den beiden Clustern;

  • Complete Linkage: Der Abstand zwischen den am weitesten entfernten Punkten in den beiden Clustern;

  • Average Linkage: Der durchschnittliche Abstand zwischen allen Punktpaaren in den beiden Clustern;

  • Ward-Methode: Minimiert den Anstieg der Gesamtvarianz innerhalb der Cluster beim Zusammenführen zweier Cluster.

Die Wahl der Verknüpfungsmethode kann die Form und Struktur der resultierenden Cluster beeinflussen. Experimentieren und Domänenwissen sind oft hilfreich, um die beste Methode für Ihre Daten auszuwählen.

Dendrogramm

Die Ergebnisse des hierarchischen Clusterings werden häufig mit einem Dendrogramm visualisiert.

Note
Definition

Ein Dendrogramm ist ein baumartiges Diagramm, das die hierarchische Beziehung zwischen den Clustern darstellt. Die Höhe der Äste im Dendrogramm repräsentiert den Abstand zwischen den Clustern.

question mark

Was ist das Hauptmerkmal des Bottom-up-Ansatzes (agglomeratives hierarchisches Clustering)?

Select the correct answer

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 1. Kapitel 14
some-alt