Apprendre Réduction des Dimensions par Maximisation de la Variance

ACP classe les composantes principales selon la variance qu'elles capturent, mesurée par leurs valeurs propres. Conserver les k premières composantes permet de préserver le maximum de variance, chaque composante capturant moins que la précédente et étant orthogonale aux précédentes. Cela réduit la dimensionnalité tout en conservant les directions les plus informatives de vos données.

Le rapport de variance expliquée pour chaque composante principale est :

\text{Explained Variance Ratio} = \frac{\lambda_i}{\sum_j \lambda_j}

où $λ_i$ est la $i$ -ème plus grande valeur propre. Ce rapport indique la part de la variance totale de vos données capturée par chaque composante principale. La somme de tous les rapports de variance expliquée est toujours égale à 1, puisque l'ensemble des valeurs propres représente la variance totale du jeu de données.


              123456789101112
            
import numpy as np

# Using eigenvalues from previous code
X = np.array([[2.5, 2.4],
              [0.5, 0.7],
              [2.2, 2.9]])
X_centered = X - np.mean(X, axis=0)
cov_matrix = (X_centered.T @ X_centered) / X_centered.shape[0]
values, vectors = np.linalg.eig(cov_matrix)

explained_variance_ratio = values / np.sum(values)
print("Explained variance ratio:", explained_variance_ratio)

Sélectionner les composantes principales principales de sorte que la somme de leurs ratios de variance expliquée atteigne un seuil spécifique - tel que 95 % - permet de réduire le nombre de dimensions tout en conservant la majeure partie de l'information des données. Cela signifie que seules les directions où la dispersion des données est la plus grande sont conservées, celles-ci étant les plus informatives pour l'analyse ou la modélisation. En se concentrant sur ces composantes, l'ensemble de données est simplifié sans perdre les motifs les plus importants. Cet équilibre entre la réduction de dimensionnalité et la préservation de l'information constitue un avantage clé de la PCA.

Tout était clair ?

Merci pour vos commentaires !

Section 2. Chapitre 4

Demandez à l'IA

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

Glissez pour afficher le menu

Le rapport de variance expliquée pour chaque composante principale est :

\text{Explained Variance Ratio} = \frac{\lambda_i}{\sum_j \lambda_j}


              123456789101112
            
import numpy as np

# Using eigenvalues from previous code
X = np.array([[2.5, 2.4],
              [0.5, 0.7],
              [2.2, 2.9]])
X_centered = X - np.mean(X, axis=0)
cov_matrix = (X_centered.T @ X_centered) / X_centered.shape[0]
values, vectors = np.linalg.eig(cov_matrix)

explained_variance_ratio = values / np.sum(values)
print("Explained variance ratio:", explained_variance_ratio)

Tout était clair ?

Merci pour vos commentaires !

Section 2. Chapitre 4