Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Вивчайте Виконання ієрархічного кластерування | Розділ
Статистична візуалізація з Seaborn

bookВиконання ієрархічного кластерування

clustermap — це матричний графік, який поєднує теплову карту з ієрархічним кластеризацією.

Звичайна теплова карта відображає дані у фіксованій сітці, а clustermap перевпорядковує рядки та стовпці, розміщуючи схожі значення поруч. Деревоподібні діаграми на осях називаються дендрограмами і показують, як групуються точки даних.

Основні параметри

Для керування процесом кластеризації можна використовувати такі параметри:

  • standard_scale: стандартизує дані (0 — для рядків, 1 — для стовпців), щоб кожна ознака мала середнє 0 і дисперсію 1. Це важливо, якщо змінні мають різні одиниці вимірювання;
  • metric: міра відстані, яку використовують (наприклад, 'euclidean', 'correlation'). Визначає, що означає "схожість";
  • method: алгоритм зв'язування (наприклад, 'single', 'complete', 'average'). Визначає спосіб об'єднання кластерів.

Приклад

Нижче наведено clustermap для набору даних Iris. Зверніть увагу, як види (рядки) автоматично групуються разом, оскільки мають схожі вимірювання.

12345678910111213141516171819
import seaborn as sns import matplotlib.pyplot as plt # Load dataset df = sns.load_dataset('iris') # Prepare matrix (drop non-numeric column for calculation) species = df.pop("species") # Create a clustermap sns.clustermap( data=df, standard_scale=1, # Normalize columns metric='euclidean', # Measure distance method='average', # clustering method cmap='viridis', figsize=(6, 6) ) plt.show()
copy
Завдання

Swipe to start coding

Аналіз даних про пасажирів авіарейсів для виявлення схожостей між роками.

  1. Встановити стиль 'ticks'. Змінити колір фону на 'seagreen' ('figure.facecolor').
  2. Створити clustermap з перетвореним DataFrame upd_df:
  • Передати upd_df як дані.
  • Нормалізувати стовпці, встановивши standard_scale на 1.
  • Використати кластеризацію із методом 'single' (method).
  • Використати 'correlation' як метрику відстані metric.
  • Відобразити значення в клітинках annot=True.
  • Встановити межі значень: vmin=0 та vmax=10.
  • Використати палітру кольорів 'vlag'.
  1. Відобразити графік.

Рішення

Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Секція 1. Розділ 17
single

single

Запитати АІ

expand

Запитати АІ

ChatGPT

Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат

close

bookВиконання ієрархічного кластерування

Свайпніть щоб показати меню

clustermap — це матричний графік, який поєднує теплову карту з ієрархічним кластеризацією.

Звичайна теплова карта відображає дані у фіксованій сітці, а clustermap перевпорядковує рядки та стовпці, розміщуючи схожі значення поруч. Деревоподібні діаграми на осях називаються дендрограмами і показують, як групуються точки даних.

Основні параметри

Для керування процесом кластеризації можна використовувати такі параметри:

  • standard_scale: стандартизує дані (0 — для рядків, 1 — для стовпців), щоб кожна ознака мала середнє 0 і дисперсію 1. Це важливо, якщо змінні мають різні одиниці вимірювання;
  • metric: міра відстані, яку використовують (наприклад, 'euclidean', 'correlation'). Визначає, що означає "схожість";
  • method: алгоритм зв'язування (наприклад, 'single', 'complete', 'average'). Визначає спосіб об'єднання кластерів.

Приклад

Нижче наведено clustermap для набору даних Iris. Зверніть увагу, як види (рядки) автоматично групуються разом, оскільки мають схожі вимірювання.

12345678910111213141516171819
import seaborn as sns import matplotlib.pyplot as plt # Load dataset df = sns.load_dataset('iris') # Prepare matrix (drop non-numeric column for calculation) species = df.pop("species") # Create a clustermap sns.clustermap( data=df, standard_scale=1, # Normalize columns metric='euclidean', # Measure distance method='average', # clustering method cmap='viridis', figsize=(6, 6) ) plt.show()
copy
Завдання

Swipe to start coding

Аналіз даних про пасажирів авіарейсів для виявлення схожостей між роками.

  1. Встановити стиль 'ticks'. Змінити колір фону на 'seagreen' ('figure.facecolor').
  2. Створити clustermap з перетвореним DataFrame upd_df:
  • Передати upd_df як дані.
  • Нормалізувати стовпці, встановивши standard_scale на 1.
  • Використати кластеризацію із методом 'single' (method).
  • Використати 'correlation' як метрику відстані metric.
  • Відобразити значення в клітинках annot=True.
  • Встановити межі значень: vmin=0 та vmax=10.
  • Використати палітру кольорів 'vlag'.
  1. Відобразити графік.

Рішення

Switch to desktopПерейдіть на комп'ютер для реальної практикиПродовжуйте з того місця, де ви зупинились, використовуючи один з наведених нижче варіантів
Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Секція 1. Розділ 17
single

single

some-alt