Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Apprendre Réduction des Dimensions par Maximisation de la Variance | Fondements Mathématiques de l'ACP
Réduction de Dimensionnalité avec l'ACP

bookRéduction des Dimensions par Maximisation de la Variance

ACP classe les composantes principales selon la variance qu'elles capturent, mesurée par leurs valeurs propres. Conserver les k premières composantes permet de préserver le maximum de variance, chaque composante capturant moins que la précédente et étant orthogonale aux précédentes. Cela réduit la dimensionnalité tout en conservant les directions les plus informatives de vos données.

Le rapport de variance expliquée pour chaque composante principale est :

Explained Variance Ratio=λijλj\text{Explained Variance Ratio} = \frac{\lambda_i}{\sum_j \lambda_j}

λiλ_i est la ii-ème plus grande valeur propre. Ce rapport indique la part de la variance totale de vos données capturée par chaque composante principale. La somme de tous les rapports de variance expliquée est toujours égale à 1, puisque l'ensemble des valeurs propres représente la variance totale du jeu de données.

123456789101112
import numpy as np # Using eigenvalues from previous code X = np.array([[2.5, 2.4], [0.5, 0.7], [2.2, 2.9]]) X_centered = X - np.mean(X, axis=0) cov_matrix = (X_centered.T @ X_centered) / X_centered.shape[0] values, vectors = np.linalg.eig(cov_matrix) explained_variance_ratio = values / np.sum(values) print("Explained variance ratio:", explained_variance_ratio)
copy

Sélectionner les composantes principales principales de sorte que la somme de leurs ratios de variance expliquée atteigne un seuil spécifique - tel que 95 % - permet de réduire le nombre de dimensions tout en conservant la majeure partie de l'information des données. Cela signifie que seules les directions où la dispersion des données est la plus grande sont conservées, celles-ci étant les plus informatives pour l'analyse ou la modélisation. En se concentrant sur ces composantes, l'ensemble de données est simplifié sans perdre les motifs les plus importants. Cet équilibre entre la réduction de dimensionnalité et la préservation de l'information constitue un avantage clé de la PCA.

question mark

Que représente le ratio de variance expliquée dans l'analyse en composantes principales (PCA) ?

Select the correct answer

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 2. Chapitre 4

Demandez à l'IA

expand

Demandez à l'IA

ChatGPT

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

Suggested prompts:

Can you explain how to choose the optimal number of principal components?

What happens if I keep too few or too many principal components?

Can you show how to calculate the cumulative explained variance?

Awesome!

Completion rate improved to 8.33

bookRéduction des Dimensions par Maximisation de la Variance

Glissez pour afficher le menu

ACP classe les composantes principales selon la variance qu'elles capturent, mesurée par leurs valeurs propres. Conserver les k premières composantes permet de préserver le maximum de variance, chaque composante capturant moins que la précédente et étant orthogonale aux précédentes. Cela réduit la dimensionnalité tout en conservant les directions les plus informatives de vos données.

Le rapport de variance expliquée pour chaque composante principale est :

Explained Variance Ratio=λijλj\text{Explained Variance Ratio} = \frac{\lambda_i}{\sum_j \lambda_j}

λiλ_i est la ii-ème plus grande valeur propre. Ce rapport indique la part de la variance totale de vos données capturée par chaque composante principale. La somme de tous les rapports de variance expliquée est toujours égale à 1, puisque l'ensemble des valeurs propres représente la variance totale du jeu de données.

123456789101112
import numpy as np # Using eigenvalues from previous code X = np.array([[2.5, 2.4], [0.5, 0.7], [2.2, 2.9]]) X_centered = X - np.mean(X, axis=0) cov_matrix = (X_centered.T @ X_centered) / X_centered.shape[0] values, vectors = np.linalg.eig(cov_matrix) explained_variance_ratio = values / np.sum(values) print("Explained variance ratio:", explained_variance_ratio)
copy

Sélectionner les composantes principales principales de sorte que la somme de leurs ratios de variance expliquée atteigne un seuil spécifique - tel que 95 % - permet de réduire le nombre de dimensions tout en conservant la majeure partie de l'information des données. Cela signifie que seules les directions où la dispersion des données est la plus grande sont conservées, celles-ci étant les plus informatives pour l'analyse ou la modélisation. En se concentrant sur ces composantes, l'ensemble de données est simplifié sans perdre les motifs les plus importants. Cet équilibre entre la réduction de dimensionnalité et la préservation de l'information constitue un avantage clé de la PCA.

question mark

Que représente le ratio de variance expliquée dans l'analyse en composantes principales (PCA) ?

Select the correct answer

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 2. Chapitre 4
some-alt