Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Apprendre Réalisation de l'ACP sur un Jeu de Données Réel | Implémentation de l'ACP en Python
Réduction de Dimensionnalité avec l'ACP

bookRéalisation de l'ACP sur un Jeu de Données Réel

Réaliser une ACP sur un jeu de données réel à l'aide de scikit-learn. Utiliser le jeu de données Iris, un classique de l'apprentissage automatique, et suivre les étapes suivantes :

  • Charger les données ;
  • Les préparer pour l'analyse ;
  • Standardiser les variables ;
  • Appliquer PCA pour réduire la dimensionnalité.

Ce processus illustre la mise en œuvre de la réduction de dimensionnalité dans des cas pratiques.

12345678910111213141516171819202122
import numpy as np import pandas as pd from sklearn.datasets import load_iris from sklearn.preprocessing import StandardScaler from sklearn.decomposition import PCA # Load the Iris dataset data = load_iris() X = data.data feature_names = data.feature_names # Standardize features (important for PCA) scaler = StandardScaler() X_scaled = scaler.fit_transform(X) # Apply PCA to reduce to 2 components pca = PCA(n_components=2) X_pca = pca.fit_transform(X_scaled) print("Original shape:", X.shape) print("Transformed shape:", X_pca.shape) # Each row in X_pca is a sample projected onto the first two principal components
copy

Le code ci-dessus réalise une ACP sur le jeu de données Iris en suivant plusieurs étapes clés :

1. Chargement des données

Le jeu de données Iris est chargé à l'aide de load_iris() de scikit-learn. Ce jeu de données contient 150 échantillons de fleurs d'iris, chacune décrite par quatre variables : longueur du sépale, largeur du sépale, longueur du pétale, largeur du pétale.

2. Standardisation des variables

La standardisation garantit que chaque variable a une moyenne de 0 et une variance de 1 :

scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

Cette étape est essentielle car l'ACP est sensible à la variance de chaque variable. Sans standardisation, les variables ayant une plus grande échelle domineraient les composantes principales, ce qui conduirait à des résultats trompeurs.

3. Application de l'ACP

PCA(n_components=2) réduit le jeu de données de quatre dimensions à deux :

pca = PCA(n_components=2)
X_pca = pca.fit_transform(X_scaled)

Les composantes principales sont de nouveaux axes qui capturent les directions de variance maximale dans les données. Chaque échantillon est projeté sur ces axes, ce qui permet une représentation compacte conservant un maximum d'information.

4. Interprétation de la sortie de l'ACP

Il est possible de vérifier la part de variance expliquée par chaque composante principale :

print(pca.explained_variance_ratio_)

Cela affiche un tableau, tel que [0.7277, 0.2303], ce qui signifie que la première composante explique environ 73 % de la variance et la seconde environ 23 %. Ensemble, elles capturent la majeure partie de l'information des données d'origine.

question mark

Laquelle des affirmations suivantes est correcte concernant l'application de l'ACP sur le jeu de données Iris comme illustré dans l'exemple ?

Select the correct answer

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 3. Chapitre 1

Demandez à l'IA

expand

Demandez à l'IA

ChatGPT

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

Suggested prompts:

Can you explain how to interpret the principal components in this context?

How can I visualize the results of the PCA on the Iris dataset?

What are some practical applications of PCA beyond this example?

Awesome!

Completion rate improved to 8.33

bookRéalisation de l'ACP sur un Jeu de Données Réel

Glissez pour afficher le menu

Réaliser une ACP sur un jeu de données réel à l'aide de scikit-learn. Utiliser le jeu de données Iris, un classique de l'apprentissage automatique, et suivre les étapes suivantes :

  • Charger les données ;
  • Les préparer pour l'analyse ;
  • Standardiser les variables ;
  • Appliquer PCA pour réduire la dimensionnalité.

Ce processus illustre la mise en œuvre de la réduction de dimensionnalité dans des cas pratiques.

12345678910111213141516171819202122
import numpy as np import pandas as pd from sklearn.datasets import load_iris from sklearn.preprocessing import StandardScaler from sklearn.decomposition import PCA # Load the Iris dataset data = load_iris() X = data.data feature_names = data.feature_names # Standardize features (important for PCA) scaler = StandardScaler() X_scaled = scaler.fit_transform(X) # Apply PCA to reduce to 2 components pca = PCA(n_components=2) X_pca = pca.fit_transform(X_scaled) print("Original shape:", X.shape) print("Transformed shape:", X_pca.shape) # Each row in X_pca is a sample projected onto the first two principal components
copy

Le code ci-dessus réalise une ACP sur le jeu de données Iris en suivant plusieurs étapes clés :

1. Chargement des données

Le jeu de données Iris est chargé à l'aide de load_iris() de scikit-learn. Ce jeu de données contient 150 échantillons de fleurs d'iris, chacune décrite par quatre variables : longueur du sépale, largeur du sépale, longueur du pétale, largeur du pétale.

2. Standardisation des variables

La standardisation garantit que chaque variable a une moyenne de 0 et une variance de 1 :

scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

Cette étape est essentielle car l'ACP est sensible à la variance de chaque variable. Sans standardisation, les variables ayant une plus grande échelle domineraient les composantes principales, ce qui conduirait à des résultats trompeurs.

3. Application de l'ACP

PCA(n_components=2) réduit le jeu de données de quatre dimensions à deux :

pca = PCA(n_components=2)
X_pca = pca.fit_transform(X_scaled)

Les composantes principales sont de nouveaux axes qui capturent les directions de variance maximale dans les données. Chaque échantillon est projeté sur ces axes, ce qui permet une représentation compacte conservant un maximum d'information.

4. Interprétation de la sortie de l'ACP

Il est possible de vérifier la part de variance expliquée par chaque composante principale :

print(pca.explained_variance_ratio_)

Cela affiche un tableau, tel que [0.7277, 0.2303], ce qui signifie que la première composante explique environ 73 % de la variance et la seconde environ 23 %. Ensemble, elles capturent la majeure partie de l'information des données d'origine.

question mark

Laquelle des affirmations suivantes est correcte concernant l'application de l'ACP sur le jeu de données Iris comme illustré dans l'exemple ?

Select the correct answer

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 3. Chapitre 1
some-alt