Apprendre Dérivation de l'ACP à l'aide de l'algèbre linéaire

L'ACP recherche un nouvel ensemble d'axes, appelés composantes principales, de sorte que les données projetées présentent une variance maximale. La première composante principale, notée $w_{\raisebox{-0.5pt}{$1$}}$ , est choisie pour maximiser la variance des données projetées :

\mathrm{Var}(X w_1)

Sous la contrainte $\|w_{\raisebox{-0.5pt}{$1$}}\| = 1$ . La solution à ce problème de maximisation est le vecteur propre de la matrice de covariance correspondant à la plus grande valeur propre.

Le problème d'optimisation est :

\max_{w} \ w^T \Sigma w \quad \text{subject to} \quad \|w\| = 1

La solution est tout vecteur $w$ qui satisfait $\Sigma w = \lambda w$ , où $\lambda$ est la valeur propre correspondante. En d'autres termes, $w$ est un vecteur propre de la matrice de covariance $\Sigma$ associé à la valeur propre $\lambda$ .


              12345678910111213
            
import numpy as np

# Assume cov_matrix from earlier
X = np.array([[2.5, 2.4],
              [0.5, 0.7],
              [2.2, 2.9]])
X_centered = X - np.mean(X, axis=0)
cov_matrix = (X_centered.T @ X_centered) / X_centered.shape[0]

# Find the principal component (eigenvector with largest eigenvalue)
values, vectors = np.linalg.eig(cov_matrix)
principal_component = vectors[:, np.argmax(values)]
print("First principal component:", principal_component)

Cette composante principale est la direction selon laquelle les données présentent la plus grande variance. La projection des données sur cette direction fournit la représentation unidimensionnelle la plus informative de l'ensemble de données d'origine.

Tout était clair ?

Merci pour vos commentaires !

Section 2. Chapitre 3

Demandez à l'IA

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

Glissez pour afficher le menu

\mathrm{Var}(X w_1)

Le problème d'optimisation est :

\max_{w} \ w^T \Sigma w \quad \text{subject to} \quad \|w\| = 1


              12345678910111213
            
import numpy as np

# Assume cov_matrix from earlier
X = np.array([[2.5, 2.4],
              [0.5, 0.7],
              [2.2, 2.9]])
X_centered = X - np.mean(X, axis=0)
cov_matrix = (X_centered.T @ X_centered) / X_centered.shape[0]

# Find the principal component (eigenvector with largest eigenvalue)
values, vectors = np.linalg.eig(cov_matrix)
principal_component = vectors[:, np.argmax(values)]
print("First principal component:", principal_component)

Tout était clair ?

Merci pour vos commentaires !

Section 2. Chapitre 3