Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Вивчайте Як Працює Ієрархічне Кластерування? | Розділ
Practice
Projects
Quizzes & Challenges
Вікторини
Challenges
/
Основи навчання без учителя

bookЯк Працює Ієрархічне Кластерування?

Note
Визначення

Ієрархічне кластерування — це метод аналізу кластерів, який спрямований на побудову ієрархії кластерів. На відміну від K-means, не вимагає попереднього визначення кількості кластерів.

Алгоритм може починатися або з кожної точки у власному кластері з подальшим об'єднанням (агломеративне кластерування), або з усіх точок в одному кластері з подальшим розділенням на менші кластери (дивізивне кластерування).

Оскільки агломеративне кластерування є більш поширеним підходом, зосередимося саме на ньому.

Найпоширеніший тип ієрархічного кластерування — це підхід знизу вгору. Алгоритм виглядає так:

  1. Ініціалізація: кожна точка даних розглядається як окремий кластер;

  2. Обчислення матриці близькості: обчислення відстані між кожною парою кластерів;

  3. Об'єднання кластерів: два найближчі кластери об'єднуються в один кластер;

  4. Оновлення матриці близькості: повторний розрахунок відстаней між новим кластером та всіма іншими кластерами;

  5. Повторення: кроки 3 і 4 повторюються, доки всі точки даних не будуть об'єднані в один кластер.

Типи зв'язків

Близькість між двома кластерами визначається типом зв'язку. Поширені методи зв'язку, які використовуються в ієрархічному кластеруванні:

  • Одиничний зв'язок: відстань між найближчими двома точками у двох кластерах;

  • Повний зв'язок: відстань між найвіддаленішими двома точками у двох кластерах;

  • Середній зв'язок: середня відстань між усіма парами точок у двох кластерах;

  • Метод Варда: мінімізує збільшення загальної внутрішньокластерної дисперсії при об'єднанні двох кластерів.

Вибір методу зв'язку може впливати на форму та структуру отриманих кластерів. Для вибору найкращого методу для ваших даних часто корисні експерименти та знання предметної області.

Дендограма

Результати ієрархічного кластерування часто візуалізують за допомогою дендограми.

Note
Визначення

Дендограма — це діаграма у вигляді дерева, яка показує ієрархічні зв'язки між кластерами. Висота гілок на дендограмі відображає відстань між кластерами.

question mark

Яка основна характеристика ієрархічного кластеризаційного підходу знизу вгору (агломеративного)?

Select the correct answer

Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Секція 1. Розділ 14

Запитати АІ

expand

Запитати АІ

ChatGPT

Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат

bookЯк Працює Ієрархічне Кластерування?

Свайпніть щоб показати меню

Note
Визначення

Ієрархічне кластерування — це метод аналізу кластерів, який спрямований на побудову ієрархії кластерів. На відміну від K-means, не вимагає попереднього визначення кількості кластерів.

Алгоритм може починатися або з кожної точки у власному кластері з подальшим об'єднанням (агломеративне кластерування), або з усіх точок в одному кластері з подальшим розділенням на менші кластери (дивізивне кластерування).

Оскільки агломеративне кластерування є більш поширеним підходом, зосередимося саме на ньому.

Найпоширеніший тип ієрархічного кластерування — це підхід знизу вгору. Алгоритм виглядає так:

  1. Ініціалізація: кожна точка даних розглядається як окремий кластер;

  2. Обчислення матриці близькості: обчислення відстані між кожною парою кластерів;

  3. Об'єднання кластерів: два найближчі кластери об'єднуються в один кластер;

  4. Оновлення матриці близькості: повторний розрахунок відстаней між новим кластером та всіма іншими кластерами;

  5. Повторення: кроки 3 і 4 повторюються, доки всі точки даних не будуть об'єднані в один кластер.

Типи зв'язків

Близькість між двома кластерами визначається типом зв'язку. Поширені методи зв'язку, які використовуються в ієрархічному кластеруванні:

  • Одиничний зв'язок: відстань між найближчими двома точками у двох кластерах;

  • Повний зв'язок: відстань між найвіддаленішими двома точками у двох кластерах;

  • Середній зв'язок: середня відстань між усіма парами точок у двох кластерах;

  • Метод Варда: мінімізує збільшення загальної внутрішньокластерної дисперсії при об'єднанні двох кластерів.

Вибір методу зв'язку може впливати на форму та структуру отриманих кластерів. Для вибору найкращого методу для ваших даних часто корисні експерименти та знання предметної області.

Дендограма

Результати ієрархічного кластерування часто візуалізують за допомогою дендограми.

Note
Визначення

Дендограма — це діаграма у вигляді дерева, яка показує ієрархічні зв'язки між кластерами. Висота гілок на дендограмі відображає відстань між кластерами.

question mark

Яка основна характеристика ієрархічного кластеризаційного підходу знизу вгору (агломеративного)?

Select the correct answer

Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Секція 1. Розділ 14
some-alt