Lære Utføring av PCA på et Reelt Datasett | Implementering av PCA i Python

Utfør PCA på et virkelig datasett ved hjelp av scikit-learn. Bruk Iris-datasettet, et klassisk datasett innen maskinlæring, og følg disse trinnene:

Last inn dataene;
Forbered dem for analyse;
Standardiser egenskapene;
Bruk PCA for å redusere dimensjonaliteten.

Denne prosessen viser hvordan man implementerer dimensjonsreduksjon i praktiske situasjoner.


              12345678910111213141516171819202122
            
import numpy as np
import pandas as pd
from sklearn.datasets import load_iris
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA

# Load the Iris dataset
data = load_iris()
X = data.data
feature_names = data.feature_names

# Standardize features (important for PCA)
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# Apply PCA to reduce to 2 components
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X_scaled)

print("Original shape:", X.shape)
print("Transformed shape:", X_pca.shape)
# Each row in X_pca is a sample projected onto the first two principal components

Koden ovenfor utfører PCA på Iris-datasettet ved å følge flere viktige trinn:

1. Laste inn dataene

Iris-datasettet lastes inn ved hjelp av load_iris() fra scikit-learn. Dette datasettet inneholder 150 prøver av irisblomster, hver beskrevet med fire egenskaper: begerbladlengde, begerbladbredde, kronbladlengde, kronbladbredde.

2. Standardisering av egenskaper

Standardisering sikrer at hver egenskap har gjennomsnitt 0 og varians 1:

scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

Dette trinnet er essensielt fordi PCA er følsom for variansen til hver egenskap. Uten standardisering vil egenskaper med større skala dominere hovedkomponentene, noe som kan gi misvisende resultater.

3. Bruke PCA

PCA(n_components=2) reduserer datasettet fra fire dimensjoner til to:

pca = PCA(n_components=2)
X_pca = pca.fit_transform(X_scaled)

Hovedkomponenter er nye akser som fanger opp retningene med størst variasjon i dataene. Hver prøve projiseres på disse aksene, noe som gir en kompakt representasjon som bevarer mest mulig informasjon.

4. Tolke PCA-resultater

Du kan sjekke hvor mye variasjon hver hovedkomponent forklarer:

print(pca.explained_variance_ratio_)

Dette gir en matrise, for eksempel [0.7277, 0.2303], som betyr at den første komponenten forklarer omtrent 73 % av variasjonen og den andre omtrent 23 %. Sammen fanger de opp det meste av informasjonen fra de opprinnelige dataene.

Alt var klart?

Takk for tilbakemeldingene dine!

Seksjon 3. Kapittel 1

Spør AI

Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår

Sveip for å vise menyen