Lære Reduktion af Dimensioner ved Maksimering af Varians

PCA rangerer hovedkomponenter efter den varians, de fanger, målt ved deres egenværdier. Ved at beholde de øverste k komponenter bevares mest mulig varians, da hver komponent fanger mindre end den forrige og er ortogonal til tidligere komponenter. Dette reducerer dimensionerne, mens de mest informative retninger i dine data bevares.

Forklaret variansforhold for hver hovedkomponent er:

\text{Explained Variance Ratio} = \frac{\lambda_i}{\sum_j \lambda_j}

hvor $λ_i$ er den $i$ -største egenværdi. Dette forhold viser, hvor meget af den samlede varians i dine data, der fanges af hver hovedkomponent. Summen af alle forklarede variansforhold er altid 1, da alle egenværdier tilsammen udgør den totale varians i datasættet.


              123456789101112
            
import numpy as np

# Using eigenvalues from previous code
X = np.array([[2.5, 2.4],
              [0.5, 0.7],
              [2.2, 2.9]])
X_centered = X - np.mean(X, axis=0)
cov_matrix = (X_centered.T @ X_centered) / X_centered.shape[0]
values, vectors = np.linalg.eig(cov_matrix)

explained_variance_ratio = values / np.sum(values)
print("Explained variance ratio:", explained_variance_ratio)

Udvælgelse af de øverste hovedkomponenter, så deres forklaringsgrader tilsammen når en bestemt tærskel – for eksempel 95% – gør det muligt at reducere antallet af dimensioner, mens størstedelen af informationen i data bevares. Dette betyder, at du kun beholder de retninger i dine data, hvor spredningen er størst, hvilket er de mest informative for analyse eller modellering. Ved at fokusere på disse komponenter forenkler du dit datasæt uden at miste de vigtigste mønstre. Denne balance mellem dimensionalitet og information er en central fordel ved PCA.

Var alt klart?

Tak for dine kommentarer!

Sektion 2. Kapitel 4

Spørg AI

Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat

Suggested prompts:

Can you explain how to choose the optimal number of principal components?

What happens if I keep too few or too many principal components?

Can you show how to calculate the cumulative explained variance?

Stryg for at vise menuen

Forklaret variansforhold for hver hovedkomponent er:

\text{Explained Variance Ratio} = \frac{\lambda_i}{\sum_j \lambda_j}


              123456789101112
            
import numpy as np

# Using eigenvalues from previous code
X = np.array([[2.5, 2.4],
              [0.5, 0.7],
              [2.2, 2.9]])
X_centered = X - np.mean(X, axis=0)
cov_matrix = (X_centered.T @ X_centered) / X_centered.shape[0]
values, vectors = np.linalg.eig(cov_matrix)

explained_variance_ratio = values / np.sum(values)
print("Explained variance ratio:", explained_variance_ratio)

Var alt klart?

Tak for dine kommentarer!

Sektion 2. Kapitel 4