Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lära Dimensioner Reduceras Genom att Maximera Varians | Matematiska Grunder för PCA
Dimensionsreduktion med PCA

bookDimensioner Reduceras Genom att Maximera Varians

PCA rangordnar huvudkomponenter efter den varians de fångar, mätt genom deras egenvärden. Att behålla de översta k komponenterna bevarar mest varians, eftersom varje komponent fångar mindre än den föregående och är ortogonal mot tidigare komponenter. Detta minskar dimensionerna samtidigt som de mest informativa riktningarna i dina data bevaras.

Förklarad varianskvot för varje huvudkomponent är:

Explained Variance Ratio=λijλj\text{Explained Variance Ratio} = \frac{\lambda_i}{\sum_j \lambda_j}

där λiλ_i är det ii-te största egenvärdet. Denna kvot visar hur stor del av den totala variansen i dina data som fångas av varje huvudkomponent. Summan av alla förklarade varianskvoter är alltid 1, eftersom alla egenvärden tillsammans står för den totala variansen i datamängden.

123456789101112
import numpy as np # Using eigenvalues from previous code X = np.array([[2.5, 2.4], [0.5, 0.7], [2.2, 2.9]]) X_centered = X - np.mean(X, axis=0) cov_matrix = (X_centered.T @ X_centered) / X_centered.shape[0] values, vectors = np.linalg.eig(cov_matrix) explained_variance_ratio = values / np.sum(values) print("Explained variance ratio:", explained_variance_ratio)
copy

Genom att välja de främsta huvudkomponenterna så att deras förklarade varianskvoter summerar till en specifik tröskel – till exempel 95 % – kan du minska antalet dimensioner samtidigt som du behåller största delen av informationen i datan. Detta innebär att du endast behåller de riktningar i din data där spridningen är störst, vilket är de mest informativa för analys eller modellering. Genom att fokusera på dessa komponenter förenklar du din datamängd utan att förlora de viktigaste mönstren. Denna balans mellan dimensionalitet och information är en viktig fördel med PCA.

question mark

Vad representerar den förklarade varianskvoten i principal component analysis (PCA)?

Select the correct answer

Var allt tydligt?

Hur kan vi förbättra det?

Tack för dina kommentarer!

Avsnitt 2. Kapitel 4

Fråga AI

expand

Fråga AI

ChatGPT

Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal

Awesome!

Completion rate improved to 8.33

bookDimensioner Reduceras Genom att Maximera Varians

Svep för att visa menyn

PCA rangordnar huvudkomponenter efter den varians de fångar, mätt genom deras egenvärden. Att behålla de översta k komponenterna bevarar mest varians, eftersom varje komponent fångar mindre än den föregående och är ortogonal mot tidigare komponenter. Detta minskar dimensionerna samtidigt som de mest informativa riktningarna i dina data bevaras.

Förklarad varianskvot för varje huvudkomponent är:

Explained Variance Ratio=λijλj\text{Explained Variance Ratio} = \frac{\lambda_i}{\sum_j \lambda_j}

där λiλ_i är det ii-te största egenvärdet. Denna kvot visar hur stor del av den totala variansen i dina data som fångas av varje huvudkomponent. Summan av alla förklarade varianskvoter är alltid 1, eftersom alla egenvärden tillsammans står för den totala variansen i datamängden.

123456789101112
import numpy as np # Using eigenvalues from previous code X = np.array([[2.5, 2.4], [0.5, 0.7], [2.2, 2.9]]) X_centered = X - np.mean(X, axis=0) cov_matrix = (X_centered.T @ X_centered) / X_centered.shape[0] values, vectors = np.linalg.eig(cov_matrix) explained_variance_ratio = values / np.sum(values) print("Explained variance ratio:", explained_variance_ratio)
copy

Genom att välja de främsta huvudkomponenterna så att deras förklarade varianskvoter summerar till en specifik tröskel – till exempel 95 % – kan du minska antalet dimensioner samtidigt som du behåller största delen av informationen i datan. Detta innebär att du endast behåller de riktningar i din data där spridningen är störst, vilket är de mest informativa för analys eller modellering. Genom att fokusera på dessa komponenter förenklar du din datamängd utan att förlora de viktigaste mönstren. Denna balans mellan dimensionalitet och information är en viktig fördel med PCA.

question mark

Vad representerar den förklarade varianskvoten i principal component analysis (PCA)?

Select the correct answer

Var allt tydligt?

Hur kan vi förbättra det?

Tack för dina kommentarer!

Avsnitt 2. Kapitel 4
some-alt