Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lära Utför PCA på en Verklig Datamängd | Implementering av PCA i Python
Dimensionsreduktion med PCA

bookUtför PCA på en Verklig Datamängd

Utför PCA på en verklig datamängd med hjälp av scikit-learn. Använd Iris-datasetet, en klassiker inom maskininlärning, och följ dessa steg:

  • Ladda in data;
  • Förbered för analys;
  • Standardisera variabler;
  • Applicera PCA för att reducera dimensioner.

Denna process visar hur dimensionsreduktion implementeras i praktiska sammanhang.

12345678910111213141516171819202122
import numpy as np import pandas as pd from sklearn.datasets import load_iris from sklearn.preprocessing import StandardScaler from sklearn.decomposition import PCA # Load the Iris dataset data = load_iris() X = data.data feature_names = data.feature_names # Standardize features (important for PCA) scaler = StandardScaler() X_scaled = scaler.fit_transform(X) # Apply PCA to reduce to 2 components pca = PCA(n_components=2) X_pca = pca.fit_transform(X_scaled) print("Original shape:", X.shape) print("Transformed shape:", X_pca.shape) # Each row in X_pca is a sample projected onto the first two principal components
copy

Koden ovan utför PCA på Iris-datasetet genom att följa flera viktiga steg:

1. Ladda in data

Iris-datasetet laddas med load_iris() från scikit-learn. Denna datamängd innehåller 150 prover av irisblommor, där varje prov beskrivs av fyra variabler: sepal length, sepal width, petal length, petal width.

2. Standardisera variabler

Standardisering säkerställer att varje variabel har medelvärde 0 och varians 1:

scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

Detta steg är avgörande eftersom PCA är känsligt för variansen hos varje variabel. Utan standardisering skulle variabler med större skala dominera huvudkomponenterna, vilket leder till missvisande resultat.

3. Applicera PCA

PCA(n_components=2) reducerar datamängden från fyra dimensioner till två:

pca = PCA(n_components=2)
X_pca = pca.fit_transform(X_scaled)

Huvudkomponenter är nya axlar som fångar riktningarna med störst varians i datan. Varje prov projiceras på dessa axlar, vilket ger en kompakt representation som behåller så mycket information som möjligt.

4. Tolka PCA-resultat

Du kan kontrollera hur mycket varians varje huvudkomponent förklarar:

print(pca.explained_variance_ratio_)

Detta ger en array, till exempel [0.7277, 0.2303], vilket betyder att den första komponenten förklarar cirka 73 % av variansen och den andra cirka 23 %. Tillsammans fångar de största delen av informationen från ursprungsdatan.

question mark

Vilket påstående är korrekt om att utföra PCA på Iris-datasetet som visas i exemplet?

Select the correct answer

Var allt tydligt?

Hur kan vi förbättra det?

Tack för dina kommentarer!

Avsnitt 3. Kapitel 1

Fråga AI

expand

Fråga AI

ChatGPT

Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal

Suggested prompts:

Can you explain how to interpret the principal components in this context?

How can I visualize the results of the PCA on the Iris dataset?

What are some practical applications of PCA beyond this example?

Awesome!

Completion rate improved to 8.33

bookUtför PCA på en Verklig Datamängd

Svep för att visa menyn

Utför PCA på en verklig datamängd med hjälp av scikit-learn. Använd Iris-datasetet, en klassiker inom maskininlärning, och följ dessa steg:

  • Ladda in data;
  • Förbered för analys;
  • Standardisera variabler;
  • Applicera PCA för att reducera dimensioner.

Denna process visar hur dimensionsreduktion implementeras i praktiska sammanhang.

12345678910111213141516171819202122
import numpy as np import pandas as pd from sklearn.datasets import load_iris from sklearn.preprocessing import StandardScaler from sklearn.decomposition import PCA # Load the Iris dataset data = load_iris() X = data.data feature_names = data.feature_names # Standardize features (important for PCA) scaler = StandardScaler() X_scaled = scaler.fit_transform(X) # Apply PCA to reduce to 2 components pca = PCA(n_components=2) X_pca = pca.fit_transform(X_scaled) print("Original shape:", X.shape) print("Transformed shape:", X_pca.shape) # Each row in X_pca is a sample projected onto the first two principal components
copy

Koden ovan utför PCA på Iris-datasetet genom att följa flera viktiga steg:

1. Ladda in data

Iris-datasetet laddas med load_iris() från scikit-learn. Denna datamängd innehåller 150 prover av irisblommor, där varje prov beskrivs av fyra variabler: sepal length, sepal width, petal length, petal width.

2. Standardisera variabler

Standardisering säkerställer att varje variabel har medelvärde 0 och varians 1:

scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

Detta steg är avgörande eftersom PCA är känsligt för variansen hos varje variabel. Utan standardisering skulle variabler med större skala dominera huvudkomponenterna, vilket leder till missvisande resultat.

3. Applicera PCA

PCA(n_components=2) reducerar datamängden från fyra dimensioner till två:

pca = PCA(n_components=2)
X_pca = pca.fit_transform(X_scaled)

Huvudkomponenter är nya axlar som fångar riktningarna med störst varians i datan. Varje prov projiceras på dessa axlar, vilket ger en kompakt representation som behåller så mycket information som möjligt.

4. Tolka PCA-resultat

Du kan kontrollera hur mycket varians varje huvudkomponent förklarar:

print(pca.explained_variance_ratio_)

Detta ger en array, till exempel [0.7277, 0.2303], vilket betyder att den första komponenten förklarar cirka 73 % av variansen och den andra cirka 23 %. Tillsammans fångar de största delen av informationen från ursprungsdatan.

question mark

Vilket påstående är korrekt om att utföra PCA på Iris-datasetet som visas i exemplet?

Select the correct answer

Var allt tydligt?

Hur kan vi förbättra det?

Tack för dina kommentarer!

Avsnitt 3. Kapitel 1
some-alt