Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære Reduktion af Dimensioner ved Maksimering af Varians | Matematiske Grundlag for PCA
Dimensionsreduktion med PCA

bookReduktion af Dimensioner ved Maksimering af Varians

PCA rangerer hovedkomponenter efter den varians, de fanger, målt ved deres egenværdier. Ved at beholde de øverste k komponenter bevares mest mulig varians, da hver komponent fanger mindre end den forrige og er ortogonal til tidligere komponenter. Dette reducerer dimensionerne, mens de mest informative retninger i dine data bevares.

Forklaret variansforhold for hver hovedkomponent er:

Explained Variance Ratio=λijλj\text{Explained Variance Ratio} = \frac{\lambda_i}{\sum_j \lambda_j}

hvor λiλ_i er den ii-største egenværdi. Dette forhold viser, hvor meget af den samlede varians i dine data, der fanges af hver hovedkomponent. Summen af alle forklarede variansforhold er altid 1, da alle egenværdier tilsammen udgør den totale varians i datasættet.

123456789101112
import numpy as np # Using eigenvalues from previous code X = np.array([[2.5, 2.4], [0.5, 0.7], [2.2, 2.9]]) X_centered = X - np.mean(X, axis=0) cov_matrix = (X_centered.T @ X_centered) / X_centered.shape[0] values, vectors = np.linalg.eig(cov_matrix) explained_variance_ratio = values / np.sum(values) print("Explained variance ratio:", explained_variance_ratio)
copy

Udvælgelse af de øverste hovedkomponenter, så deres forklaringsgrader tilsammen når en bestemt tærskel – for eksempel 95% – gør det muligt at reducere antallet af dimensioner, mens størstedelen af informationen i data bevares. Dette betyder, at du kun beholder de retninger i dine data, hvor spredningen er størst, hvilket er de mest informative for analyse eller modellering. Ved at fokusere på disse komponenter forenkler du dit datasæt uden at miste de vigtigste mønstre. Denne balance mellem dimensionalitet og information er en central fordel ved PCA.

question mark

Hvad repræsenterer forklaringsgraden i principal component analysis (PCA)?

Select the correct answer

Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 2. Kapitel 4

Spørg AI

expand

Spørg AI

ChatGPT

Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat

Awesome!

Completion rate improved to 8.33

bookReduktion af Dimensioner ved Maksimering af Varians

Stryg for at vise menuen

PCA rangerer hovedkomponenter efter den varians, de fanger, målt ved deres egenværdier. Ved at beholde de øverste k komponenter bevares mest mulig varians, da hver komponent fanger mindre end den forrige og er ortogonal til tidligere komponenter. Dette reducerer dimensionerne, mens de mest informative retninger i dine data bevares.

Forklaret variansforhold for hver hovedkomponent er:

Explained Variance Ratio=λijλj\text{Explained Variance Ratio} = \frac{\lambda_i}{\sum_j \lambda_j}

hvor λiλ_i er den ii-største egenværdi. Dette forhold viser, hvor meget af den samlede varians i dine data, der fanges af hver hovedkomponent. Summen af alle forklarede variansforhold er altid 1, da alle egenværdier tilsammen udgør den totale varians i datasættet.

123456789101112
import numpy as np # Using eigenvalues from previous code X = np.array([[2.5, 2.4], [0.5, 0.7], [2.2, 2.9]]) X_centered = X - np.mean(X, axis=0) cov_matrix = (X_centered.T @ X_centered) / X_centered.shape[0] values, vectors = np.linalg.eig(cov_matrix) explained_variance_ratio = values / np.sum(values) print("Explained variance ratio:", explained_variance_ratio)
copy

Udvælgelse af de øverste hovedkomponenter, så deres forklaringsgrader tilsammen når en bestemt tærskel – for eksempel 95% – gør det muligt at reducere antallet af dimensioner, mens størstedelen af informationen i data bevares. Dette betyder, at du kun beholder de retninger i dine data, hvor spredningen er størst, hvilket er de mest informative for analyse eller modellering. Ved at fokusere på disse komponenter forenkler du dit datasæt uden at miste de vigtigste mønstre. Denne balance mellem dimensionalitet og information er en central fordel ved PCA.

question mark

Hvad repræsenterer forklaringsgraden i principal component analysis (PCA)?

Select the correct answer

Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 2. Kapitel 4
some-alt