Lære Udledning af PCA ved Hjælp af Lineær Algebra

PCA søger et nyt sæt akser, kaldet hovedkomponenter, således at de projicerede data har maksimal varians. Den første hovedkomponent, betegnet som $w_{\raisebox{-0.5pt}{$1$}}$ , vælges for at maksimere variansen af de projicerede data:

\mathrm{Var}(X w_1)

Under betingelsen at $\|w_{\raisebox{-0.5pt}{$1$}}\| = 1$ . Løsningen til dette maksimeringsproblem er egenvektoren for kovariansmatricen, der svarer til den største egenværdi.

Optimeringsproblemet er:

\max_{w} \ w^T \Sigma w \quad \text{subject to} \quad \|w\| = 1

Løsningen er enhver vektor $w$ , der opfylder $\Sigma w = \lambda w$ , hvor $\lambda$ er den tilsvarende egenværdi. Med andre ord er $w$ en egenvektor for kovariansmatricen $\Sigma$ , der er associeret med egenværdien $\lambda$ .


              12345678910111213
            
import numpy as np

# Assume cov_matrix from earlier
X = np.array([[2.5, 2.4],
              [0.5, 0.7],
              [2.2, 2.9]])
X_centered = X - np.mean(X, axis=0)
cov_matrix = (X_centered.T @ X_centered) / X_centered.shape[0]

# Find the principal component (eigenvector with largest eigenvalue)
values, vectors = np.linalg.eig(cov_matrix)
principal_component = vectors[:, np.argmax(values)]
print("First principal component:", principal_component)

Denne hovedkomponent er den retning, hvor dataene har den største varians. Projektion af data på denne retning giver den mest informative endimensionelle repræsentation af det oprindelige datasæt.

Var alt klart?

Tak for dine kommentarer!

Sektion 2. Kapitel 3

Spørg AI

Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat

Suggested prompts:

Can you explain why the principal component is important in PCA?

How do I interpret the values of the principal component?

What does projecting data onto the principal component mean?

Stryg for at vise menuen

\mathrm{Var}(X w_1)

Under betingelsen at $\|w_{\raisebox{-0.5pt}{$1$}}\| = 1$ . Løsningen til dette maksimeringsproblem er egenvektoren for kovariansmatricen, der svarer til den største egenværdi.

Optimeringsproblemet er:

\max_{w} \ w^T \Sigma w \quad \text{subject to} \quad \|w\| = 1


              12345678910111213
            
import numpy as np

# Assume cov_matrix from earlier
X = np.array([[2.5, 2.4],
              [0.5, 0.7],
              [2.2, 2.9]])
X_centered = X - np.mean(X, axis=0)
cov_matrix = (X_centered.T @ X_centered) / X_centered.shape[0]

# Find the principal component (eigenvector with largest eigenvalue)
values, vectors = np.linalg.eig(cov_matrix)
principal_component = vectors[:, np.argmax(values)]
print("First principal component:", principal_component)

Var alt klart?

Tak for dine kommentarer!

Sektion 2. Kapitel 3