Вивчайте Виконання ієрархічного кластерування

Секція 1. Розділ 17

single

Свайпніть щоб показати меню

clustermap — це матричний графік, який поєднує теплову карту з ієрархічним кластеризацією.

Звичайна теплова карта відображає дані у фіксованій сітці, а clustermap перевпорядковує рядки та стовпці, розміщуючи схожі значення поруч. Деревоподібні діаграми на осях називаються дендрограмами і показують, як групуються точки даних.

Основні параметри

Для керування процесом кластеризації можна використовувати такі параметри:

standard_scale: стандартизує дані (0 — для рядків, 1 — для стовпців), щоб кожна ознака мала середнє 0 і дисперсію 1. Це важливо, якщо змінні мають різні одиниці вимірювання;
metric: міра відстані, яку використовують (наприклад, 'euclidean', 'correlation'). Визначає, що означає "схожість";
method: алгоритм зв'язування (наприклад, 'single', 'complete', 'average'). Визначає спосіб об'єднання кластерів.

Приклад

Нижче наведено clustermap для набору даних Iris. Зверніть увагу, як види (рядки) автоматично групуються разом, оскільки мають схожі вимірювання.


              12345678910111213141516171819
            
import seaborn as sns
import matplotlib.pyplot as plt

# Load dataset
df = sns.load_dataset('iris')
# Prepare matrix (drop non-numeric column for calculation)
species = df.pop("species")

# Create a clustermap
sns.clustermap(
    data=df,
    standard_scale=1,    # Normalize columns
    metric='euclidean',  # Measure distance
    method='average',    # clustering method
    cmap='viridis',
    figsize=(6, 6)
)

plt.show()

Завдання

Проведіть, щоб почати кодувати

Аналіз даних про пасажирів авіарейсів для виявлення схожостей між роками.

Встановити стиль 'ticks'. Змінити колір фону на 'seagreen' ('figure.facecolor').
Створити clustermap з перетвореним DataFrame upd_df:

Передати upd_df як дані.
Нормалізувати стовпці, встановивши standard_scale на 1.
Використати кластеризацію із методом 'single' (method).
Використати 'correlation' як метрику відстані metric.
Відобразити значення в клітинках annot=True.
Встановити межі значень: vmin=0 та vmax=10.
Використати палітру кольорів 'vlag'.

Відобразити графік.

Рішення

Перейдіть на комп'ютер для реальної практикиПродовжуйте з того місця, де ви зупинились, використовуючи один з наведених нижче варіантів

Все було зрозуміло?

Дякуємо за ваш відгук!

Секція 1. Розділ 17

single

Запитати АІ

Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат