Як Працює Ієрархічне Кластерування?
Ієрархічне кластерування — це метод аналізу кластерів, який спрямований на побудову ієрархії кластерів. На відміну від K-середніх, не вимагає попереднього визначення кількості кластерів.
Алгоритм може починатися або з кожної точки у власному кластері з подальшим об'єднанням (агломеративне кластерування), або з усіх точок в одному кластері з подальшим розділенням на менші кластери (дивізивне кластерування).
Оскільки агломеративне кластерування є більш поширеним підходом, зосередимося саме на ньому.
Найпоширенішим типом ієрархічного кластерування є підхід знизу вгору. Алгоритм виглядає наступним чином:
-
Ініціалізація: кожна точка даних розглядається як окремий кластер;
-
Обчислення матриці близькості: визначення відстані між кожною парою кластерів;
-
Об'єднання кластерів: два найближчі кластери об'єднуються в один кластер;
-
Оновлення матриці близькості: повторний розрахунок відстаней між новим кластером та всіма іншими кластерами;
-
Повторення: кроки 3 і 4 повторюються, доки всі точки даних не будуть об'єднані в один кластер.
Типи зв'язків
Близькість між двома кластерами визначається типом зв'язку. Поширені методи зв'язку, які використовуються в ієрархічному кластерному аналізі:
-
Одинарний зв'язок: відстань між найближчими двома точками у двох кластерах;
-
Повний зв'язок: відстань між найвіддаленішими двома точками у двох кластерах;
-
Середній зв'язок: середня відстань між усіма парами точок у двох кластерах;
-
Метод Уорда: мінімізує збільшення загальної внутрішньокластерної дисперсії при об'єднанні двох кластерів.
Вибір методу зв'язку може впливати на форму та структуру отриманих кластерів. Для вибору найкращого методу для ваших даних часто корисними є експерименти та галузеві знання.
Дендограма
Результати ієрархічного кластерного аналізу часто візуалізують за допомогою дендограми.
Дендограма — це деревоподібна діаграма, яка відображає ієрархічні зв'язки між кластерами. Висота гілок на дендограмі показує відстань між кластерами.
Дякуємо за ваш відгук!
Запитати АІ
Запитати АІ
Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат
Can you explain more about how to interpret a dendrogram?
What are the advantages and disadvantages of hierarchical clustering?
How do I choose the best linkage method for my data?
Awesome!
Completion rate improved to 2.94
Як Працює Ієрархічне Кластерування?
Свайпніть щоб показати меню
Ієрархічне кластерування — це метод аналізу кластерів, який спрямований на побудову ієрархії кластерів. На відміну від K-середніх, не вимагає попереднього визначення кількості кластерів.
Алгоритм може починатися або з кожної точки у власному кластері з подальшим об'єднанням (агломеративне кластерування), або з усіх точок в одному кластері з подальшим розділенням на менші кластери (дивізивне кластерування).
Оскільки агломеративне кластерування є більш поширеним підходом, зосередимося саме на ньому.
Найпоширенішим типом ієрархічного кластерування є підхід знизу вгору. Алгоритм виглядає наступним чином:
-
Ініціалізація: кожна точка даних розглядається як окремий кластер;
-
Обчислення матриці близькості: визначення відстані між кожною парою кластерів;
-
Об'єднання кластерів: два найближчі кластери об'єднуються в один кластер;
-
Оновлення матриці близькості: повторний розрахунок відстаней між новим кластером та всіма іншими кластерами;
-
Повторення: кроки 3 і 4 повторюються, доки всі точки даних не будуть об'єднані в один кластер.
Типи зв'язків
Близькість між двома кластерами визначається типом зв'язку. Поширені методи зв'язку, які використовуються в ієрархічному кластерному аналізі:
-
Одинарний зв'язок: відстань між найближчими двома точками у двох кластерах;
-
Повний зв'язок: відстань між найвіддаленішими двома точками у двох кластерах;
-
Середній зв'язок: середня відстань між усіма парами точок у двох кластерах;
-
Метод Уорда: мінімізує збільшення загальної внутрішньокластерної дисперсії при об'єднанні двох кластерів.
Вибір методу зв'язку може впливати на форму та структуру отриманих кластерів. Для вибору найкращого методу для ваших даних часто корисними є експерименти та галузеві знання.
Дендограма
Результати ієрархічного кластерного аналізу часто візуалізують за допомогою дендограми.
Дендограма — це деревоподібна діаграма, яка відображає ієрархічні зв'язки між кластерами. Висота гілок на дендограмі показує відстань між кластерами.
Дякуємо за ваш відгук!