Apprendre Sélection de Caractéristiques vs. Extraction de Caractéristiques | Introduction à la Réduction de Dimensionnalité

Les ensembles de données à haute dimension comportent souvent plus de variables que nécessaire. Il est possible de réduire le nombre de variables selon deux stratégies principales : sélection de variables et extraction de variables.

Sélection de variables : conservation uniquement des variables originales les plus importantes – comme choisir vos fruits préférés dans un panier ;
Extraction de variables : création de nouvelles variables en combinant ou en transformant les originales – comme mixer tous les fruits pour en faire un smoothie.

L’Analyse en Composantes Principales (PCA) est une méthode courante d’extraction de variables, qui sera étudiée en détail ultérieurement.


              12345678910111213141516171819202122
            
import pandas as pd
from sklearn.decomposition import PCA

# Example dataset
data = {
    'height': [150, 160, 170, 180],
    'weight': [50, 60, 70, 80],
    'age':    [20, 25, 30, 35],
    'score':  [85, 90, 95, 100]
}
df = pd.DataFrame(data)

# Feature selection: pick only 'height' and 'weight'
selected_features = df[['height', 'weight']]
print("Selected features (feature selection):")
print(selected_features)

# Feature extraction: combine features using PCA (placeholder, details later)
pca = PCA(n_components=2)
extracted_features = pca.fit_transform(df)
print("\nExtracted features (feature extraction, via PCA):")
print(extracted_features)

Remarque

L’ACP est une technique puissante d’extraction de variables qui crée de nouvelles variables (composantes principales) à partir de vos données originales. Les détails du fonctionnement de l’ACP seront abordés dans les prochains chapitres.

La réduction du nombre de variables peut aider à révéler des motifs qui pourraient être cachés dans des dimensions plus élevées. Grâce à la visualisation, il est possible de tracer les variables sélectionnées afin de mettre en évidence plus clairement des groupes ou des tendances. Par exemple, en ne représentant que les variables les plus pertinentes avec seaborn, les relations dans vos données deviennent plus apparentes, ce qui facilite leur interprétation et leur analyse.

Tout était clair ?

Merci pour vos commentaires !

Section 1. Chapitre 3

Demandez à l'IA

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

Glissez pour afficher le menu

Sélection de variables : conservation uniquement des variables originales les plus importantes – comme choisir vos fruits préférés dans un panier ;
Extraction de variables : création de nouvelles variables en combinant ou en transformant les originales – comme mixer tous les fruits pour en faire un smoothie.

L’Analyse en Composantes Principales (PCA) est une méthode courante d’extraction de variables, qui sera étudiée en détail ultérieurement.


              12345678910111213141516171819202122
            
import pandas as pd
from sklearn.decomposition import PCA

# Example dataset
data = {
    'height': [150, 160, 170, 180],
    'weight': [50, 60, 70, 80],
    'age':    [20, 25, 30, 35],
    'score':  [85, 90, 95, 100]
}
df = pd.DataFrame(data)

# Feature selection: pick only 'height' and 'weight'
selected_features = df[['height', 'weight']]
print("Selected features (feature selection):")
print(selected_features)

# Feature extraction: combine features using PCA (placeholder, details later)
pca = PCA(n_components=2)
extracted_features = pca.fit_transform(df)
print("\nExtracted features (feature extraction, via PCA):")
print(extracted_features)

Remarque

Tout était clair ?

Merci pour vos commentaires !

Section 1. Chapitre 3