Вивчайте Реалізація на реальному наборі даних

Свайпніть щоб показати меню

Після практики з K-means на тестових даних, тепер можна застосувати його до реального набору даних: wine dataset. Реальні набори даних мають складності, такі як нечіткі структури кластерів та різні масштаби ознак, що створює більш практичне завдання кластеризації.

Ви використаєте функцію datasets.load_wine() для завантаження цього набору даних. Wine dataset містить різні характеристики різних вин. Мета — перевірити, чи зможе K-means виявити кластери, що відображають схожість вин за цими характеристиками.

Реальні дані часто потребують попередньої обробки. Масштабування ознак може бути необхідним, щоб усі ознаки однаково впливали на обчислення відстаней у K-means.

Щоб знайти оптимальну кількість кластерів, знову буде використано:

Метод WSS: аналіз графіка «лікоть» для різних значень K. На реальних даних «лікоть» може бути менш вираженим;
Метод силуетного коефіцієнта: аналіз графіка силуетів та середніх значень для визначення найкращого K. Значення можуть бути більш варіативними, ніж на тестових даних.

Візуалізації є ключем до розуміння результатів:

Побудова 3D-графіка за трьома вибраними ознаками вина дозволяє візуально оцінити розподіл даних у зменшеному просторі ознак, без використання методів зниження розмірності;
Графік WSS для визначення «ліктя»;
Графік силуетів для оцінки якості кластерів.

Кластери K-means, візуалізовані на 3D-графіку за трьома ознаками wine dataset, що показує розподіл кластерів у цьому зменшеному просторі ознак.

Все було зрозуміло?

Дякуємо за ваш відгук!

Секція 3. Розділ 6

Запитати АІ

Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат

Секція 3. Розділ 6