Apprendre Réalisation de l'ACP sur un Jeu de Données Réel

Réaliser une ACP sur un jeu de données réel à l'aide de scikit-learn. Utiliser le jeu de données Iris, un classique de l'apprentissage automatique, et suivre les étapes suivantes :

Charger les données ;
Les préparer pour l'analyse ;
Standardiser les variables ;
Appliquer PCA pour réduire la dimensionnalité.

Ce processus illustre la mise en œuvre de la réduction de dimensionnalité dans des cas pratiques.


              12345678910111213141516171819202122
            
import numpy as np
import pandas as pd
from sklearn.datasets import load_iris
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA

# Load the Iris dataset
data = load_iris()
X = data.data
feature_names = data.feature_names

# Standardize features (important for PCA)
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# Apply PCA to reduce to 2 components
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X_scaled)

print("Original shape:", X.shape)
print("Transformed shape:", X_pca.shape)
# Each row in X_pca is a sample projected onto the first two principal components

Le code ci-dessus réalise une ACP sur le jeu de données Iris en suivant plusieurs étapes clés :

1. Chargement des données

Le jeu de données Iris est chargé à l'aide de load_iris() de scikit-learn. Ce jeu de données contient 150 échantillons de fleurs d'iris, chacune décrite par quatre variables : longueur du sépale, largeur du sépale, longueur du pétale, largeur du pétale.

2. Standardisation des variables

La standardisation garantit que chaque variable a une moyenne de 0 et une variance de 1 :

scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

Cette étape est essentielle car l'ACP est sensible à la variance de chaque variable. Sans standardisation, les variables ayant une plus grande échelle domineraient les composantes principales, ce qui conduirait à des résultats trompeurs.

3. Application de l'ACP

PCA(n_components=2) réduit le jeu de données de quatre dimensions à deux :

pca = PCA(n_components=2)
X_pca = pca.fit_transform(X_scaled)

Les composantes principales sont de nouveaux axes qui capturent les directions de variance maximale dans les données. Chaque échantillon est projeté sur ces axes, ce qui permet une représentation compacte conservant un maximum d'information.

4. Interprétation de la sortie de l'ACP

Il est possible de vérifier la part de variance expliquée par chaque composante principale :

print(pca.explained_variance_ratio_)

Cela affiche un tableau, tel que [0.7277, 0.2303], ce qui signifie que la première composante explique environ 73 % de la variance et la seconde environ 23 %. Ensemble, elles capturent la majeure partie de l'information des données d'origine.

Tout était clair ?

Merci pour vos commentaires !

Section 3. Chapitre 1

Demandez à l'IA

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

Suggested prompts:

Can you explain how to interpret the principal components in this context?

How can I visualize the results of the PCA on the Iris dataset?

What are some practical applications of PCA beyond this example?

Glissez pour afficher le menu