Реалізація на Реальному Наборі Даних
Свайпніть щоб показати меню
Після практики з K-means на тестових даних, тепер можна застосувати його до реального набору даних: wine dataset. Реальні набори даних мають складності, такі як нечіткі структури кластерів та різні масштаби ознак, що створює більш практичне завдання кластеризації.
Використовуйте функцію datasets.load_wine() для завантаження цього набору даних. Wine dataset містить різні характеристики різних вин. Мета — перевірити, чи зможе K-means виявити кластери, що відображають подібності вин за цими характеристиками.
Реальні дані часто потребують попередньої обробки. Масштабування ознак може бути необхідним, щоб усі ознаки однаково впливали на обчислення відстаней у K-means.
Для визначення оптимальної кількості кластерів знову використовуйте:
-
Метод WSS: аналізуйте elbow plot для різних значень K. На реальних даних "лікоть" може бути менш вираженим;
-
Метод Silhouette score: переглядайте Silhouette plot та середні значення для пошуку найкращого K. Оцінки можуть бути більш варіативними, ніж на тестових даних.
Візуалізації є ключем до розуміння результатів:
-
Побудова 3D-графіка за трьома вибраними ознаками вина дозволяє візуально оцінити розподіл даних у зменшеному ознаковому просторі, без використання методів зниження розмірності;
-
WSS-графік для визначення "ліктя";
-
Silhouette-графік для оцінки якості кластерів.
Кластери K-means візуалізовані на 3D-графіку за трьома ознаками wine dataset, що демонструє розподіл кластерів у цьому зменшеному ознаковому просторі.
Дякуємо за ваш відгук!
Запитати АІ
Запитати АІ
Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат