Réduction des Dimensions par Maximisation de la Variance
ACP classe les composantes principales selon la variance qu'elles capturent, mesurée par leurs valeurs propres. Conserver les k premières composantes permet de préserver le maximum de variance, chaque composante capturant moins que la précédente et étant orthogonale aux précédentes. Cela réduit la dimensionnalité tout en conservant les directions les plus informatives de vos données.
Le rapport de variance expliquée pour chaque composante principale est :
Explained Variance Ratio=∑jλjλioù λi est la i-ème plus grande valeur propre. Ce rapport indique la part de la variance totale de vos données capturée par chaque composante principale. La somme de tous les rapports de variance expliquée est toujours égale à 1, puisque l'ensemble des valeurs propres représente la variance totale du jeu de données.
123456789101112import numpy as np # Using eigenvalues from previous code X = np.array([[2.5, 2.4], [0.5, 0.7], [2.2, 2.9]]) X_centered = X - np.mean(X, axis=0) cov_matrix = (X_centered.T @ X_centered) / X_centered.shape[0] values, vectors = np.linalg.eig(cov_matrix) explained_variance_ratio = values / np.sum(values) print("Explained variance ratio:", explained_variance_ratio)
Sélectionner les composantes principales principales de sorte que la somme de leurs ratios de variance expliquée atteigne un seuil spécifique - tel que 95 % - permet de réduire le nombre de dimensions tout en conservant la majeure partie de l'information des données. Cela signifie que seules les directions où la dispersion des données est la plus grande sont conservées, celles-ci étant les plus informatives pour l'analyse ou la modélisation. En se concentrant sur ces composantes, l'ensemble de données est simplifié sans perdre les motifs les plus importants. Cet équilibre entre la réduction de dimensionnalité et la préservation de l'information constitue un avantage clé de la PCA.
Merci pour vos commentaires !
Demandez à l'IA
Demandez à l'IA
Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion
Can you explain how to choose the optimal number of principal components?
What happens if I keep too few or too many principal components?
Can you show how to calculate the cumulative explained variance?
Awesome!
Completion rate improved to 8.33
Réduction des Dimensions par Maximisation de la Variance
Glissez pour afficher le menu
ACP classe les composantes principales selon la variance qu'elles capturent, mesurée par leurs valeurs propres. Conserver les k premières composantes permet de préserver le maximum de variance, chaque composante capturant moins que la précédente et étant orthogonale aux précédentes. Cela réduit la dimensionnalité tout en conservant les directions les plus informatives de vos données.
Le rapport de variance expliquée pour chaque composante principale est :
Explained Variance Ratio=∑jλjλioù λi est la i-ème plus grande valeur propre. Ce rapport indique la part de la variance totale de vos données capturée par chaque composante principale. La somme de tous les rapports de variance expliquée est toujours égale à 1, puisque l'ensemble des valeurs propres représente la variance totale du jeu de données.
123456789101112import numpy as np # Using eigenvalues from previous code X = np.array([[2.5, 2.4], [0.5, 0.7], [2.2, 2.9]]) X_centered = X - np.mean(X, axis=0) cov_matrix = (X_centered.T @ X_centered) / X_centered.shape[0] values, vectors = np.linalg.eig(cov_matrix) explained_variance_ratio = values / np.sum(values) print("Explained variance ratio:", explained_variance_ratio)
Sélectionner les composantes principales principales de sorte que la somme de leurs ratios de variance expliquée atteigne un seuil spécifique - tel que 95 % - permet de réduire le nombre de dimensions tout en conservant la majeure partie de l'information des données. Cela signifie que seules les directions où la dispersion des données est la plus grande sont conservées, celles-ci étant les plus informatives pour l'analyse ou la modélisation. En se concentrant sur ces composantes, l'ensemble de données est simplifié sans perdre les motifs les plus importants. Cet équilibre entre la réduction de dimensionnalité et la préservation de l'information constitue un avantage clé de la PCA.
Merci pour vos commentaires !