Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Вивчайте Як Працює Ієрархічне Кластерування? | Ієрархічне Кластерування
Кластерний Аналіз

bookЯк Працює Ієрархічне Кластерування?

Note
Визначення

Ієрархічне кластерування — це метод аналізу кластерів, який спрямований на побудову ієрархії кластерів. На відміну від K-середніх, не вимагає попереднього визначення кількості кластерів.

Алгоритм може починатися або з кожної точки у власному кластері з подальшим об'єднанням (агломеративне кластерування), або з усіх точок в одному кластері з подальшим розділенням на менші кластери (дивізивне кластерування).

Оскільки агломеративне кластерування є більш поширеним підходом, зосередимося саме на ньому.

Найпоширенішим типом ієрархічного кластерування є підхід знизу вгору. Алгоритм виглядає наступним чином:

  1. Ініціалізація: кожна точка даних розглядається як окремий кластер;

  2. Обчислення матриці близькості: визначення відстані між кожною парою кластерів;

  3. Об'єднання кластерів: два найближчі кластери об'єднуються в один кластер;

  4. Оновлення матриці близькості: повторний розрахунок відстаней між новим кластером та всіма іншими кластерами;

  5. Повторення: кроки 3 і 4 повторюються, доки всі точки даних не будуть об'єднані в один кластер.

Типи зв'язків

Близькість між двома кластерами визначається типом зв'язку. Поширені методи зв'язку, які використовуються в ієрархічному кластерному аналізі:

  • Одинарний зв'язок: відстань між найближчими двома точками у двох кластерах;

  • Повний зв'язок: відстань між найвіддаленішими двома точками у двох кластерах;

  • Середній зв'язок: середня відстань між усіма парами точок у двох кластерах;

  • Метод Уорда: мінімізує збільшення загальної внутрішньокластерної дисперсії при об'єднанні двох кластерів.

Вибір методу зв'язку може впливати на форму та структуру отриманих кластерів. Для вибору найкращого методу для ваших даних часто корисними є експерименти та галузеві знання.

Дендограма

Результати ієрархічного кластерного аналізу часто візуалізують за допомогою дендограми.

Note
Визначення

Дендограма — це деревоподібна діаграма, яка відображає ієрархічні зв'язки між кластерами. Висота гілок на дендограмі показує відстань між кластерами.

question mark

Яка основна характеристика підходу знизу вгору (агломеративного) в ієрархічному кластерному аналізі?

Select the correct answer

Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Секція 4. Розділ 1

Запитати АІ

expand

Запитати АІ

ChatGPT

Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат

Suggested prompts:

Can you explain more about how to interpret a dendrogram?

What are the advantages and disadvantages of hierarchical clustering?

How do I choose the best linkage method for my data?

Awesome!

Completion rate improved to 2.94

bookЯк Працює Ієрархічне Кластерування?

Свайпніть щоб показати меню

Note
Визначення

Ієрархічне кластерування — це метод аналізу кластерів, який спрямований на побудову ієрархії кластерів. На відміну від K-середніх, не вимагає попереднього визначення кількості кластерів.

Алгоритм може починатися або з кожної точки у власному кластері з подальшим об'єднанням (агломеративне кластерування), або з усіх точок в одному кластері з подальшим розділенням на менші кластери (дивізивне кластерування).

Оскільки агломеративне кластерування є більш поширеним підходом, зосередимося саме на ньому.

Найпоширенішим типом ієрархічного кластерування є підхід знизу вгору. Алгоритм виглядає наступним чином:

  1. Ініціалізація: кожна точка даних розглядається як окремий кластер;

  2. Обчислення матриці близькості: визначення відстані між кожною парою кластерів;

  3. Об'єднання кластерів: два найближчі кластери об'єднуються в один кластер;

  4. Оновлення матриці близькості: повторний розрахунок відстаней між новим кластером та всіма іншими кластерами;

  5. Повторення: кроки 3 і 4 повторюються, доки всі точки даних не будуть об'єднані в один кластер.

Типи зв'язків

Близькість між двома кластерами визначається типом зв'язку. Поширені методи зв'язку, які використовуються в ієрархічному кластерному аналізі:

  • Одинарний зв'язок: відстань між найближчими двома точками у двох кластерах;

  • Повний зв'язок: відстань між найвіддаленішими двома точками у двох кластерах;

  • Середній зв'язок: середня відстань між усіма парами точок у двох кластерах;

  • Метод Уорда: мінімізує збільшення загальної внутрішньокластерної дисперсії при об'єднанні двох кластерів.

Вибір методу зв'язку може впливати на форму та структуру отриманих кластерів. Для вибору найкращого методу для ваших даних часто корисними є експерименти та галузеві знання.

Дендограма

Результати ієрархічного кластерного аналізу часто візуалізують за допомогою дендограми.

Note
Визначення

Дендограма — це деревоподібна діаграма, яка відображає ієрархічні зв'язки між кластерами. Висота гілок на дендограмі показує відстань між кластерами.

question mark

Яка основна характеристика підходу знизу вгору (агломеративного) в ієрархічному кластерному аналізі?

Select the correct answer

Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Секція 4. Розділ 1
some-alt