Зменшення Розмірності Шляхом Максимізації Дисперсії
Свайпніть щоб показати меню
PCA впорядковує головні компоненти за дисперсією, яку вони охоплюють, що вимірюється їхніми власними значеннями. Збереження перших k компонент дозволяє зберегти найбільшу дисперсію, оскільки кожна наступна компонента охоплює менше, ніж попередня, і є ортогональною до попередніх компонент. Це зменшує розмірність, зберігаючи найбільш інформативні напрямки у ваших даних.
Відношення поясненої дисперсії для кожної головної компоненти визначається як:
Explained Variance Ratio=∑jλjλiде λi — це i-те за величиною власне значення. Це відношення показує, яку частку загальної дисперсії у ваших даних охоплює кожна головна компонента. Сума всіх відношень поясненої дисперсії завжди дорівнює 1, оскільки всі власні значення разом складають загальну дисперсію у наборі даних.
123456789101112import numpy as np # Using eigenvalues from previous code X = np.array([[2.5, 2.4], [0.5, 0.7], [2.2, 2.9]]) X_centered = X - np.mean(X, axis=0) cov_matrix = (X_centered.T @ X_centered) / X_centered.shape[0] values, vectors = np.linalg.eig(cov_matrix) explained_variance_ratio = values / np.sum(values) print("Explained variance ratio:", explained_variance_ratio)
Вибір головних компонент із найбільшими значеннями так, щоб сума їхніх часток поясненої дисперсії досягала певного порогу — наприклад, 95% — дозволяє зменшити кількість вимірів, зберігаючи при цьому більшість інформації про дані. Це означає, що залишаються лише ті напрямки у ваших даних, де розкид є найбільшим, а отже, вони є найінформативнішими для аналізу чи моделювання. Зосереджуючись на цих компонентах, ви спрощуєте набір даних без втрати найважливіших закономірностей. Такий баланс між розмірністю та інформацією є ключовою перевагою PCA.
Дякуємо за ваш відгук!
Запитати АІ
Запитати АІ
Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат