Utför PCA på en Verklig Datamängd
Utför PCA på en verklig datamängd med hjälp av scikit-learn. Använd Iris-datasetet, en klassiker inom maskininlärning, och följ dessa steg:
- Ladda in data;
- Förbered för analys;
- Standardisera variabler;
- Applicera
PCAför att reducera dimensioner.
Denna process visar hur dimensionsreduktion implementeras i praktiska sammanhang.
12345678910111213141516171819202122import numpy as np import pandas as pd from sklearn.datasets import load_iris from sklearn.preprocessing import StandardScaler from sklearn.decomposition import PCA # Load the Iris dataset data = load_iris() X = data.data feature_names = data.feature_names # Standardize features (important for PCA) scaler = StandardScaler() X_scaled = scaler.fit_transform(X) # Apply PCA to reduce to 2 components pca = PCA(n_components=2) X_pca = pca.fit_transform(X_scaled) print("Original shape:", X.shape) print("Transformed shape:", X_pca.shape) # Each row in X_pca is a sample projected onto the first two principal components
Koden ovan utför PCA på Iris-datasetet genom att följa flera viktiga steg:
1. Ladda in data
Iris-datasetet laddas med load_iris() från scikit-learn. Denna datamängd innehåller 150 prover av irisblommor, där varje prov beskrivs av fyra variabler: sepal length, sepal width, petal length, petal width.
2. Standardisera variabler
Standardisering säkerställer att varje variabel har medelvärde 0 och varians 1:
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)
Detta steg är avgörande eftersom PCA är känsligt för variansen hos varje variabel. Utan standardisering skulle variabler med större skala dominera huvudkomponenterna, vilket leder till missvisande resultat.
3. Applicera PCA
PCA(n_components=2) reducerar datamängden från fyra dimensioner till två:
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X_scaled)
Huvudkomponenter är nya axlar som fångar riktningarna med störst varians i datan. Varje prov projiceras på dessa axlar, vilket ger en kompakt representation som behåller så mycket information som möjligt.
4. Tolka PCA-resultat
Du kan kontrollera hur mycket varians varje huvudkomponent förklarar:
print(pca.explained_variance_ratio_)
Detta ger en array, till exempel [0.7277, 0.2303], vilket betyder att den första komponenten förklarar cirka 73 % av variansen och den andra cirka 23 %. Tillsammans fångar de största delen av informationen från ursprungsdatan.
Tack för dina kommentarer!
Fråga AI
Fråga AI
Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal
Can you explain how to interpret the principal components in this context?
How can I visualize the results of the PCA on the Iris dataset?
What are some practical applications of PCA beyond this example?
Awesome!
Completion rate improved to 8.33
Utför PCA på en Verklig Datamängd
Svep för att visa menyn
Utför PCA på en verklig datamängd med hjälp av scikit-learn. Använd Iris-datasetet, en klassiker inom maskininlärning, och följ dessa steg:
- Ladda in data;
- Förbered för analys;
- Standardisera variabler;
- Applicera
PCAför att reducera dimensioner.
Denna process visar hur dimensionsreduktion implementeras i praktiska sammanhang.
12345678910111213141516171819202122import numpy as np import pandas as pd from sklearn.datasets import load_iris from sklearn.preprocessing import StandardScaler from sklearn.decomposition import PCA # Load the Iris dataset data = load_iris() X = data.data feature_names = data.feature_names # Standardize features (important for PCA) scaler = StandardScaler() X_scaled = scaler.fit_transform(X) # Apply PCA to reduce to 2 components pca = PCA(n_components=2) X_pca = pca.fit_transform(X_scaled) print("Original shape:", X.shape) print("Transformed shape:", X_pca.shape) # Each row in X_pca is a sample projected onto the first two principal components
Koden ovan utför PCA på Iris-datasetet genom att följa flera viktiga steg:
1. Ladda in data
Iris-datasetet laddas med load_iris() från scikit-learn. Denna datamängd innehåller 150 prover av irisblommor, där varje prov beskrivs av fyra variabler: sepal length, sepal width, petal length, petal width.
2. Standardisera variabler
Standardisering säkerställer att varje variabel har medelvärde 0 och varians 1:
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)
Detta steg är avgörande eftersom PCA är känsligt för variansen hos varje variabel. Utan standardisering skulle variabler med större skala dominera huvudkomponenterna, vilket leder till missvisande resultat.
3. Applicera PCA
PCA(n_components=2) reducerar datamängden från fyra dimensioner till två:
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X_scaled)
Huvudkomponenter är nya axlar som fångar riktningarna med störst varians i datan. Varje prov projiceras på dessa axlar, vilket ger en kompakt representation som behåller så mycket information som möjligt.
4. Tolka PCA-resultat
Du kan kontrollera hur mycket varians varje huvudkomponent förklarar:
print(pca.explained_variance_ratio_)
Detta ger en array, till exempel [0.7277, 0.2303], vilket betyder att den första komponenten förklarar cirka 73 % av variansen och den andra cirka 23 %. Tillsammans fångar de största delen av informationen från ursprungsdatan.
Tack för dina kommentarer!