Зменшення Розмірності Шляхом Максимізації Дисперсії
PCA впорядковує головні компоненти за дисперсією, яку вони охоплюють, що вимірюється їхніми власними значеннями. Збереження перших k компонент дозволяє зберегти найбільшу дисперсію, оскільки кожна наступна компонента охоплює менше, ніж попередня, і є ортогональною до попередніх компонент. Це зменшує розмірність, зберігаючи найбільш інформативні напрямки у ваших даних.
Відношення поясненої дисперсії для кожної головної компоненти визначається як:
Explained Variance Ratio=∑jλjλiде λi — це i-те за величиною власне значення. Це відношення показує, яку частку загальної дисперсії у ваших даних охоплює кожна головна компонента. Сума всіх відношень поясненої дисперсії завжди дорівнює 1, оскільки всі власні значення разом складають загальну дисперсію у наборі даних.
123456789101112import numpy as np # Using eigenvalues from previous code X = np.array([[2.5, 2.4], [0.5, 0.7], [2.2, 2.9]]) X_centered = X - np.mean(X, axis=0) cov_matrix = (X_centered.T @ X_centered) / X_centered.shape[0] values, vectors = np.linalg.eig(cov_matrix) explained_variance_ratio = values / np.sum(values) print("Explained variance ratio:", explained_variance_ratio)
Вибір головних компонент із найбільшими значеннями так, щоб сума їхніх часток поясненої дисперсії досягала певного порогу — наприклад, 95% — дозволяє зменшити кількість вимірів, зберігаючи при цьому більшість інформації про дані. Це означає, що залишаються лише ті напрямки у ваших даних, де розкид є найбільшим, а отже, вони є найінформативнішими для аналізу чи моделювання. Зосереджуючись на цих компонентах, ви спрощуєте набір даних без втрати найважливіших закономірностей. Такий баланс між розмірністю та інформацією є ключовою перевагою PCA.
Дякуємо за ваш відгук!
Запитати АІ
Запитати АІ
Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат
Can you explain how to choose the optimal number of principal components?
What happens if I keep too few or too many principal components?
Can you show how to calculate the cumulative explained variance?
Awesome!
Completion rate improved to 8.33
Зменшення Розмірності Шляхом Максимізації Дисперсії
Свайпніть щоб показати меню
PCA впорядковує головні компоненти за дисперсією, яку вони охоплюють, що вимірюється їхніми власними значеннями. Збереження перших k компонент дозволяє зберегти найбільшу дисперсію, оскільки кожна наступна компонента охоплює менше, ніж попередня, і є ортогональною до попередніх компонент. Це зменшує розмірність, зберігаючи найбільш інформативні напрямки у ваших даних.
Відношення поясненої дисперсії для кожної головної компоненти визначається як:
Explained Variance Ratio=∑jλjλiде λi — це i-те за величиною власне значення. Це відношення показує, яку частку загальної дисперсії у ваших даних охоплює кожна головна компонента. Сума всіх відношень поясненої дисперсії завжди дорівнює 1, оскільки всі власні значення разом складають загальну дисперсію у наборі даних.
123456789101112import numpy as np # Using eigenvalues from previous code X = np.array([[2.5, 2.4], [0.5, 0.7], [2.2, 2.9]]) X_centered = X - np.mean(X, axis=0) cov_matrix = (X_centered.T @ X_centered) / X_centered.shape[0] values, vectors = np.linalg.eig(cov_matrix) explained_variance_ratio = values / np.sum(values) print("Explained variance ratio:", explained_variance_ratio)
Вибір головних компонент із найбільшими значеннями так, щоб сума їхніх часток поясненої дисперсії досягала певного порогу — наприклад, 95% — дозволяє зменшити кількість вимірів, зберігаючи при цьому більшість інформації про дані. Це означає, що залишаються лише ті напрямки у ваших даних, де розкид є найбільшим, а отже, вони є найінформативнішими для аналізу чи моделювання. Зосереджуючись на цих компонентах, ви спрощуєте набір даних без втрати найважливіших закономірностей. Такий баланс між розмірністю та інформацією є ключовою перевагою PCA.
Дякуємо за ваш відгук!