Oppiskele PCA:n Johtaminen Lineaarialgebran Avulla

PCA etsii uuden akselistoston, jota kutsutaan pääkomponenteiksi (principal components), siten että projisoidulla datalla on maksimaalinen varianssi. Ensimmäinen pääkomponentti, merkittynä $w_{\raisebox{-0.5pt}{$1$}}$ , valitaan maksimoimaan projisoidun datan varianssi:

\mathrm{Var}(X w_1)

Ehdolla, että $\|w_{\raisebox{-0.5pt}{$1$}}\| = 1$ . Tämän maksimointiongelman ratkaisu on kovarianssimatriisin ominaisvektori, joka vastaa suurinta ominaisarvoa.

Optimointiongelma on:

\max_{w} \ w^T \Sigma w \quad \text{subject to} \quad \|w\| = 1

Ratkaisu on mikä tahansa vektori $w$ , joka toteuttaa ehdon $\Sigma w = \lambda w$ , missä $\lambda$ on vastaava ominaisarvo. Toisin sanoen, $w$ on kovarianssimatriisin $\Sigma$ ominaisvektori, joka liittyy ominaisarvoon $\lambda$ .


              12345678910111213
            
import numpy as np

# Assume cov_matrix from earlier
X = np.array([[2.5, 2.4],
              [0.5, 0.7],
              [2.2, 2.9]])
X_centered = X - np.mean(X, axis=0)
cov_matrix = (X_centered.T @ X_centered) / X_centered.shape[0]

# Find the principal component (eigenvector with largest eigenvalue)
values, vectors = np.linalg.eig(cov_matrix)
principal_component = vectors[:, np.argmax(values)]
print("First principal component:", principal_component)

Tämä pääkomponentti on suunta, jossa datalla on suurin varianssi. Datan projisointi tähän suuntaan antaa informatiivisimman yksiulotteisen esityksen alkuperäisestä aineistosta.

Oliko kaikki selvää?

Kiitos palautteestasi!

Osio 2. Luku 3

Kysy tekoälyä

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

Suggested prompts:

Can you explain why the principal component is important in PCA?

How do I interpret the values of the principal component?

What does projecting data onto the principal component mean?

Pyyhkäise näyttääksesi valikon

\mathrm{Var}(X w_1)