Lära Utför PCA på en Verklig Datamängd | Implementering av PCA i Python

Utför PCA på en verklig datamängd med hjälp av scikit-learn. Använd Iris-datasetet, en klassiker inom maskininlärning, och följ dessa steg:

Ladda in data;
Förbered för analys;
Standardisera variabler;
Applicera PCA för att reducera dimensioner.

Denna process visar hur dimensionsreduktion implementeras i praktiska sammanhang.


              12345678910111213141516171819202122
            
import numpy as np
import pandas as pd
from sklearn.datasets import load_iris
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA

# Load the Iris dataset
data = load_iris()
X = data.data
feature_names = data.feature_names

# Standardize features (important for PCA)
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# Apply PCA to reduce to 2 components
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X_scaled)

print("Original shape:", X.shape)
print("Transformed shape:", X_pca.shape)
# Each row in X_pca is a sample projected onto the first two principal components

Koden ovan utför PCA på Iris-datasetet genom att följa flera viktiga steg:

1. Ladda in data

Iris-datasetet laddas med load_iris() från scikit-learn. Denna datamängd innehåller 150 prover av irisblommor, där varje prov beskrivs av fyra variabler: sepal length, sepal width, petal length, petal width.

2. Standardisera variabler

Standardisering säkerställer att varje variabel har medelvärde 0 och varians 1:

scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

Detta steg är avgörande eftersom PCA är känsligt för variansen hos varje variabel. Utan standardisering skulle variabler med större skala dominera huvudkomponenterna, vilket leder till missvisande resultat.

3. Applicera PCA

PCA(n_components=2) reducerar datamängden från fyra dimensioner till två:

pca = PCA(n_components=2)
X_pca = pca.fit_transform(X_scaled)

Huvudkomponenter är nya axlar som fångar riktningarna med störst varians i datan. Varje prov projiceras på dessa axlar, vilket ger en kompakt representation som behåller så mycket information som möjligt.

4. Tolka PCA-resultat

Du kan kontrollera hur mycket varians varje huvudkomponent förklarar:

print(pca.explained_variance_ratio_)

Detta ger en array, till exempel [0.7277, 0.2303], vilket betyder att den första komponenten förklarar cirka 73 % av variansen och den andra cirka 23 %. Tillsammans fångar de största delen av informationen från ursprungsdatan.

Var allt tydligt?

Tack för dina kommentarer!

Avsnitt 3. Kapitel 1

Fråga AI

Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal

Svep för att visa menyn