Lære Utledning av PCA ved Bruk av Lineær Algebra

PCA søker et nytt sett med akser, kalt hovedkomponenter, slik at de projiserte dataene har maksimal varians. Den første hovedkomponenten, betegnet som $w_{\raisebox{-0.5pt}{$1$}}$ , velges for å maksimere variansen til de projiserte dataene:

\mathrm{Var}(X w_1)

Med betingelsen at $\|w_{\raisebox{-0.5pt}{$1$}}\| = 1$ . Løsningen på dette maksimeringsproblemet er egenvektoren til kovariansmatrisen som tilsvarer den største egenverdien.

Optimeringsproblemet er:

\max_{w} \ w^T \Sigma w \quad \text{subject to} \quad \|w\| = 1

Løsningen er enhver vektor $w$ som tilfredsstiller $\Sigma w = \lambda w$ , hvor $\lambda$ er den tilhørende egenverdien. Med andre ord, $w$ er en egenvektor til kovariansmatrisen $\Sigma$ assosiert med egenverdien $\lambda$ .


              12345678910111213
            
import numpy as np

# Assume cov_matrix from earlier
X = np.array([[2.5, 2.4],
              [0.5, 0.7],
              [2.2, 2.9]])
X_centered = X - np.mean(X, axis=0)
cov_matrix = (X_centered.T @ X_centered) / X_centered.shape[0]

# Find the principal component (eigenvector with largest eigenvalue)
values, vectors = np.linalg.eig(cov_matrix)
principal_component = vectors[:, np.argmax(values)]
print("First principal component:", principal_component)

Denne hovedkomponenten er retningen der dataene har størst varians. Å projisere dataene på denne retningen gir den mest informative endimensjonale representasjonen av det opprinnelige datasettet.

Alt var klart?

Takk for tilbakemeldingene dine!

Seksjon 2. Kapittel 3

Spør AI

Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår

Suggested prompts:

Can you explain why the principal component is important in PCA?

How do I interpret the values of the principal component?

What does projecting data onto the principal component mean?

Sveip for å vise menyen

\mathrm{Var}(X w_1)

Med betingelsen at $\|w_{\raisebox{-0.5pt}{$1$}}\| = 1$ . Løsningen på dette maksimeringsproblemet er egenvektoren til kovariansmatrisen som tilsvarer den største egenverdien.

Optimeringsproblemet er:

\max_{w} \ w^T \Sigma w \quad \text{subject to} \quad \|w\| = 1


              12345678910111213
            
import numpy as np

# Assume cov_matrix from earlier
X = np.array([[2.5, 2.4],
              [0.5, 0.7],
              [2.2, 2.9]])
X_centered = X - np.mean(X, axis=0)
cov_matrix = (X_centered.T @ X_centered) / X_centered.shape[0]

# Find the principal component (eigenvector with largest eigenvalue)
values, vectors = np.linalg.eig(cov_matrix)
principal_component = vectors[:, np.argmax(values)]
print("First principal component:", principal_component)

Alt var klart?

Takk for tilbakemeldingene dine!

Seksjon 2. Kapittel 3