Lære Sammenligning av Modellens Ytelse Før og Etter PCA

PCA kan brukes som et forbehandlingssteg før trening av maskinlæringsmodeller. I dette kapittelet skal du sammenligne ytelsen til en LogisticRegression-klassifiserer på de originale standardiserte dataene og på data redusert til to hovedkomponenter. Denne praktiske tilnærmingen viser hvordan dimensjonsreduksjon kan påvirke både effektiviteten og ytelsen til modellene dine.


              123456789101112131415161718192021222324
            
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# Split data into train and test sets
X_train, X_test, y_train, y_test = train_test_split(X_scaled, data.target, test_size=0.3, random_state=42)

# Train on original data
clf_orig = LogisticRegression(max_iter=200)
clf_orig.fit(X_train, y_train)
y_pred_orig = clf_orig.predict(X_test)
acc_orig = accuracy_score(y_test, y_pred_orig)

# Train on PCA-reduced data (2 components)
pca = PCA(n_components=2)
X_train_pca = pca.fit_transform(X_train)
X_test_pca = pca.transform(X_test)
clf_pca = LogisticRegression(max_iter=200)
clf_pca.fit(X_train_pca, y_train)
y_pred_pca = clf_pca.predict(X_test_pca)
acc_pca = accuracy_score(y_test, y_pred_pca)

print(f"Accuracy on original data: {acc_orig:.2f}")
print(f"Accuracy after PCA (2 components): {acc_pca:.2f}")

Koden over deler opp datasettet, trener en logistisk regresjonsmodell på både de originale og PCA-reduserte dataene, og sammenligner nøyaktighetene. Merk at perfekt nøyaktighet på 1,0 på de originale dataene kan indikere overtilpasning, hvor modellen tilpasser seg treningsdataene for tett og kanskje ikke generaliserer godt. Bruk av PCA reduserer dimensjonaliteten, noe som kan bidra til å motvirke overtilpasning. Etter PCA synker nøyaktigheten litt til 0,91, noe som gir en bedre balanse mellom ytelse og generalisering, med økt hastighet og tolkbarhet.

Alt var klart?

Takk for tilbakemeldingene dine!

Seksjon 3. Kapittel 4

Spør AI

Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår

Suggested prompts:

Can you explain why the accuracy drops after applying PCA?

What are the benefits of using PCA before training a model?

How do I choose the number of principal components for PCA?

Sveip for å vise menyen


              123456789101112131415161718192021222324
            
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# Split data into train and test sets
X_train, X_test, y_train, y_test = train_test_split(X_scaled, data.target, test_size=0.3, random_state=42)

# Train on original data
clf_orig = LogisticRegression(max_iter=200)
clf_orig.fit(X_train, y_train)
y_pred_orig = clf_orig.predict(X_test)
acc_orig = accuracy_score(y_test, y_pred_orig)

# Train on PCA-reduced data (2 components)
pca = PCA(n_components=2)
X_train_pca = pca.fit_transform(X_train)
X_test_pca = pca.transform(X_test)
clf_pca = LogisticRegression(max_iter=200)
clf_pca.fit(X_train_pca, y_train)
y_pred_pca = clf_pca.predict(X_test_pca)
acc_pca = accuracy_score(y_test, y_pred_pca)

print(f"Accuracy on original data: {acc_orig:.2f}")
print(f"Accuracy after PCA (2 components): {acc_pca:.2f}")

Alt var klart?

Takk for tilbakemeldingene dine!

Seksjon 3. Kapittel 4