Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Вивчайте Зменшення Розмірності Шляхом Максимізації Дисперсії | Математичні Основи PCA
Зменшення Розмірності за Допомогою PCA

bookЗменшення Розмірності Шляхом Максимізації Дисперсії

PCA впорядковує головні компоненти за дисперсією, яку вони охоплюють, що вимірюється їхніми власними значеннями. Збереження перших k компонент дозволяє зберегти найбільшу дисперсію, оскільки кожна наступна компонента охоплює менше, ніж попередня, і є ортогональною до попередніх компонент. Це зменшує розмірність, зберігаючи найбільш інформативні напрямки у ваших даних.

Відношення поясненої дисперсії для кожної головної компоненти визначається як:

Explained Variance Ratio=λijλj\text{Explained Variance Ratio} = \frac{\lambda_i}{\sum_j \lambda_j}

де λiλ_i — це ii-те за величиною власне значення. Це відношення показує, яку частку загальної дисперсії у ваших даних охоплює кожна головна компонента. Сума всіх відношень поясненої дисперсії завжди дорівнює 1, оскільки всі власні значення разом складають загальну дисперсію у наборі даних.

123456789101112
import numpy as np # Using eigenvalues from previous code X = np.array([[2.5, 2.4], [0.5, 0.7], [2.2, 2.9]]) X_centered = X - np.mean(X, axis=0) cov_matrix = (X_centered.T @ X_centered) / X_centered.shape[0] values, vectors = np.linalg.eig(cov_matrix) explained_variance_ratio = values / np.sum(values) print("Explained variance ratio:", explained_variance_ratio)
copy

Вибір головних компонент із найбільшими значеннями так, щоб сума їхніх часток поясненої дисперсії досягала певного порогу — наприклад, 95% — дозволяє зменшити кількість вимірів, зберігаючи при цьому більшість інформації про дані. Це означає, що залишаються лише ті напрямки у ваших даних, де розкид є найбільшим, а отже, вони є найінформативнішими для аналізу чи моделювання. Зосереджуючись на цих компонентах, ви спрощуєте набір даних без втрати найважливіших закономірностей. Такий баланс між розмірністю та інформацією є ключовою перевагою PCA.

question mark

Що означає частка поясненої дисперсії у методі головних компонент (PCA)?

Select the correct answer

Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Секція 2. Розділ 4

Запитати АІ

expand

Запитати АІ

ChatGPT

Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат

Suggested prompts:

Can you explain how to choose the optimal number of principal components?

What happens if I keep too few or too many principal components?

Can you show how to calculate the cumulative explained variance?

Awesome!

Completion rate improved to 8.33

bookЗменшення Розмірності Шляхом Максимізації Дисперсії

Свайпніть щоб показати меню

PCA впорядковує головні компоненти за дисперсією, яку вони охоплюють, що вимірюється їхніми власними значеннями. Збереження перших k компонент дозволяє зберегти найбільшу дисперсію, оскільки кожна наступна компонента охоплює менше, ніж попередня, і є ортогональною до попередніх компонент. Це зменшує розмірність, зберігаючи найбільш інформативні напрямки у ваших даних.

Відношення поясненої дисперсії для кожної головної компоненти визначається як:

Explained Variance Ratio=λijλj\text{Explained Variance Ratio} = \frac{\lambda_i}{\sum_j \lambda_j}

де λiλ_i — це ii-те за величиною власне значення. Це відношення показує, яку частку загальної дисперсії у ваших даних охоплює кожна головна компонента. Сума всіх відношень поясненої дисперсії завжди дорівнює 1, оскільки всі власні значення разом складають загальну дисперсію у наборі даних.

123456789101112
import numpy as np # Using eigenvalues from previous code X = np.array([[2.5, 2.4], [0.5, 0.7], [2.2, 2.9]]) X_centered = X - np.mean(X, axis=0) cov_matrix = (X_centered.T @ X_centered) / X_centered.shape[0] values, vectors = np.linalg.eig(cov_matrix) explained_variance_ratio = values / np.sum(values) print("Explained variance ratio:", explained_variance_ratio)
copy

Вибір головних компонент із найбільшими значеннями так, щоб сума їхніх часток поясненої дисперсії досягала певного порогу — наприклад, 95% — дозволяє зменшити кількість вимірів, зберігаючи при цьому більшість інформації про дані. Це означає, що залишаються лише ті напрямки у ваших даних, де розкид є найбільшим, а отже, вони є найінформативнішими для аналізу чи моделювання. Зосереджуючись на цих компонентах, ви спрощуєте набір даних без втрати найважливіших закономірностей. Такий баланс між розмірністю та інформацією є ключовою перевагою PCA.

question mark

Що означає частка поясненої дисперсії у методі головних компонент (PCA)?

Select the correct answer

Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Секція 2. Розділ 4
some-alt