Вивчайте Зменшення Розмірності Шляхом Максимізації Дисперсії

PCA впорядковує головні компоненти за дисперсією, яку вони охоплюють, що вимірюється їхніми власними значеннями. Збереження перших k компонент дозволяє зберегти найбільшу дисперсію, оскільки кожна наступна компонента охоплює менше, ніж попередня, і є ортогональною до попередніх компонент. Це зменшує розмірність, зберігаючи найбільш інформативні напрямки у ваших даних.

Відношення поясненої дисперсії для кожної головної компоненти визначається як:

\text{Explained Variance Ratio} = \frac{\lambda_i}{\sum_j \lambda_j}

де $λ_i$ — це $i$ -те за величиною власне значення. Це відношення показує, яку частку загальної дисперсії у ваших даних охоплює кожна головна компонента. Сума всіх відношень поясненої дисперсії завжди дорівнює 1, оскільки всі власні значення разом складають загальну дисперсію у наборі даних.


              123456789101112
            
import numpy as np

# Using eigenvalues from previous code
X = np.array([[2.5, 2.4],
              [0.5, 0.7],
              [2.2, 2.9]])
X_centered = X - np.mean(X, axis=0)
cov_matrix = (X_centered.T @ X_centered) / X_centered.shape[0]
values, vectors = np.linalg.eig(cov_matrix)

explained_variance_ratio = values / np.sum(values)
print("Explained variance ratio:", explained_variance_ratio)

Вибір головних компонент із найбільшими значеннями так, щоб сума їхніх часток поясненої дисперсії досягала певного порогу — наприклад, 95% — дозволяє зменшити кількість вимірів, зберігаючи при цьому більшість інформації про дані. Це означає, що залишаються лише ті напрямки у ваших даних, де розкид є найбільшим, а отже, вони є найінформативнішими для аналізу чи моделювання. Зосереджуючись на цих компонентах, ви спрощуєте набір даних без втрати найважливіших закономірностей. Такий баланс між розмірністю та інформацією є ключовою перевагою PCA.

Все було зрозуміло?

Дякуємо за ваш відгук!

Секція 2. Розділ 4

Запитати АІ

Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат

Suggested prompts:

Can you explain how to choose the optimal number of principal components?

What happens if I keep too few or too many principal components?

Can you show how to calculate the cumulative explained variance?

Свайпніть щоб показати меню

Відношення поясненої дисперсії для кожної головної компоненти визначається як:

\text{Explained Variance Ratio} = \frac{\lambda_i}{\sum_j \lambda_j}


              123456789101112
            
import numpy as np

# Using eigenvalues from previous code
X = np.array([[2.5, 2.4],
              [0.5, 0.7],
              [2.2, 2.9]])
X_centered = X - np.mean(X, axis=0)
cov_matrix = (X_centered.T @ X_centered) / X_centered.shape[0]
values, vectors = np.linalg.eig(cov_matrix)

explained_variance_ratio = values / np.sum(values)
print("Explained variance ratio:", explained_variance_ratio)

Все було зрозуміло?

Дякуємо за ваш відгук!

Секція 2. Розділ 4