Lära Härledning av PCA med Linjär Algebra | Matematiska Grunder för PCA

PCA söker ett nytt uppsättning axlar, kallade huvudkomponenter, så att den projicerade datan har maximal varians. Den första huvudkomponenten, betecknad som $w_{\raisebox{-0.5pt}{$1$}}$ , väljs för att maximera variansen av den projicerade datan:

\mathrm{Var}(X w_1)

Under villkoret att $\|w_{\raisebox{-0.5pt}{$1$}}\| = 1$ . Lösningen till detta optimeringsproblem är egenvektorn till kovariansmatrisen som motsvarar det största egenvärdet.

Optimeringsproblemet är:

\max_{w} \ w^T \Sigma w \quad \text{subject to} \quad \|w\| = 1

Lösningen är varje vektor $w$ som uppfyller $\Sigma w = \lambda w$ , där $\lambda$ är det motsvarande egenvärdet. Med andra ord är $w$ en egenvektor till kovariansmatrisen $\Sigma$ associerad med egenvärdet $\lambda$ .


              12345678910111213
            
import numpy as np

# Assume cov_matrix from earlier
X = np.array([[2.5, 2.4],
              [0.5, 0.7],
              [2.2, 2.9]])
X_centered = X - np.mean(X, axis=0)
cov_matrix = (X_centered.T @ X_centered) / X_centered.shape[0]

# Find the principal component (eigenvector with largest eigenvalue)
values, vectors = np.linalg.eig(cov_matrix)
principal_component = vectors[:, np.argmax(values)]
print("First principal component:", principal_component)

Denna huvudkomponent är den riktning längs vilken data har den högsta variansen. Projektion av data på denna riktning ger den mest informativa endimensionella representationen av den ursprungliga datamängden.

Var allt tydligt?

Tack för dina kommentarer!

Avsnitt 2. Kapitel 3

Fråga AI

Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal

Suggested prompts:

Can you explain why the principal component is important in PCA?

How do I interpret the values of the principal component?

What does projecting data onto the principal component mean?

Svep för att visa menyn

\mathrm{Var}(X w_1)

Under villkoret att $\|w_{\raisebox{-0.5pt}{$1$}}\| = 1$ . Lösningen till detta optimeringsproblem är egenvektorn till kovariansmatrisen som motsvarar det största egenvärdet.

Optimeringsproblemet är:

\max_{w} \ w^T \Sigma w \quad \text{subject to} \quad \|w\| = 1


              12345678910111213
            
import numpy as np

# Assume cov_matrix from earlier
X = np.array([[2.5, 2.4],
              [0.5, 0.7],
              [2.2, 2.9]])
X_centered = X - np.mean(X, axis=0)
cov_matrix = (X_centered.T @ X_centered) / X_centered.shape[0]

# Find the principal component (eigenvector with largest eigenvalue)
values, vectors = np.linalg.eig(cov_matrix)
principal_component = vectors[:, np.argmax(values)]
print("First principal component:", principal_component)

Var allt tydligt?

Tack för dina kommentarer!

Avsnitt 2. Kapitel 3