Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære Redusere Dimensjoner ved å Maksimere Varians | Matematisk Grunnlag for PCA
Dimensjonsreduksjon med PCA

bookRedusere Dimensjoner ved å Maksimere Varians

PCA rangerer hovedkomponenter etter variansen de fanger opp, målt ved deres egenverdier. Ved å beholde de øverste k komponentene bevares mest mulig varians, ettersom hver komponent fanger opp mindre enn den forrige og er ortogonal til tidligere komponenter. Dette reduserer dimensjonene samtidig som de mest informative retningene i dataene beholdes.

Forklart variansforhold for hver hovedkomponent er:

Explained Variance Ratio=λijλj\text{Explained Variance Ratio} = \frac{\lambda_i}{\sum_j \lambda_j}

hvor λiλ_i er den ii-te største egenverdien. Dette forholdet viser hvor mye av den totale variansen i dataene som fanges opp av hver hovedkomponent. Summen av alle forklarte variansforhold er alltid 1, siden alle egenverdiene til sammen utgjør totalvariansen i datasettet.

123456789101112
import numpy as np # Using eigenvalues from previous code X = np.array([[2.5, 2.4], [0.5, 0.7], [2.2, 2.9]]) X_centered = X - np.mean(X, axis=0) cov_matrix = (X_centered.T @ X_centered) / X_centered.shape[0] values, vectors = np.linalg.eig(cov_matrix) explained_variance_ratio = values / np.sum(values) print("Explained variance ratio:", explained_variance_ratio)
copy

Ved å velge de øverste hovedkomponentene slik at deres forklarte variansforhold summerer seg til en bestemt terskel – for eksempel 95 % – kan du redusere antall dimensjoner samtidig som du beholder mesteparten av informasjonen i dataene. Dette betyr at du kun beholder retningene i dataene der spredningen er størst, som er de mest informative for analyse eller modellering. Ved å fokusere på disse komponentene forenkler du datasettet uten å miste de viktigste mønstrene. Denne balansen mellom dimensjonalitet og informasjon er en sentral fordel med PCA.

question mark

Hva representerer det forklarte variansforholdet i hovedkomponentanalyse (PCA)?

Select the correct answer

Alt var klart?

Hvordan kan vi forbedre det?

Takk for tilbakemeldingene dine!

Seksjon 2. Kapittel 4

Spør AI

expand

Spør AI

ChatGPT

Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår

Awesome!

Completion rate improved to 8.33

bookRedusere Dimensjoner ved å Maksimere Varians

Sveip for å vise menyen

PCA rangerer hovedkomponenter etter variansen de fanger opp, målt ved deres egenverdier. Ved å beholde de øverste k komponentene bevares mest mulig varians, ettersom hver komponent fanger opp mindre enn den forrige og er ortogonal til tidligere komponenter. Dette reduserer dimensjonene samtidig som de mest informative retningene i dataene beholdes.

Forklart variansforhold for hver hovedkomponent er:

Explained Variance Ratio=λijλj\text{Explained Variance Ratio} = \frac{\lambda_i}{\sum_j \lambda_j}

hvor λiλ_i er den ii-te største egenverdien. Dette forholdet viser hvor mye av den totale variansen i dataene som fanges opp av hver hovedkomponent. Summen av alle forklarte variansforhold er alltid 1, siden alle egenverdiene til sammen utgjør totalvariansen i datasettet.

123456789101112
import numpy as np # Using eigenvalues from previous code X = np.array([[2.5, 2.4], [0.5, 0.7], [2.2, 2.9]]) X_centered = X - np.mean(X, axis=0) cov_matrix = (X_centered.T @ X_centered) / X_centered.shape[0] values, vectors = np.linalg.eig(cov_matrix) explained_variance_ratio = values / np.sum(values) print("Explained variance ratio:", explained_variance_ratio)
copy

Ved å velge de øverste hovedkomponentene slik at deres forklarte variansforhold summerer seg til en bestemt terskel – for eksempel 95 % – kan du redusere antall dimensjoner samtidig som du beholder mesteparten av informasjonen i dataene. Dette betyr at du kun beholder retningene i dataene der spredningen er størst, som er de mest informative for analyse eller modellering. Ved å fokusere på disse komponentene forenkler du datasettet uten å miste de viktigste mønstrene. Denne balansen mellom dimensjonalitet og informasjon er en sentral fordel med PCA.

question mark

Hva representerer det forklarte variansforholdet i hovedkomponentanalyse (PCA)?

Select the correct answer

Alt var klart?

Hvordan kan vi forbedre det?

Takk for tilbakemeldingene dine!

Seksjon 2. Kapittel 4
some-alt