Utføring av PCA på et Reelt Datasett
Utfør PCA på et virkelig datasett ved hjelp av scikit-learn. Bruk Iris-datasettet, et klassisk datasett innen maskinlæring, og følg disse trinnene:
- Last inn dataene;
- Forbered dem for analyse;
- Standardiser egenskapene;
- Bruk
PCAfor å redusere dimensjonaliteten.
Denne prosessen viser hvordan man implementerer dimensjonsreduksjon i praktiske situasjoner.
12345678910111213141516171819202122import numpy as np import pandas as pd from sklearn.datasets import load_iris from sklearn.preprocessing import StandardScaler from sklearn.decomposition import PCA # Load the Iris dataset data = load_iris() X = data.data feature_names = data.feature_names # Standardize features (important for PCA) scaler = StandardScaler() X_scaled = scaler.fit_transform(X) # Apply PCA to reduce to 2 components pca = PCA(n_components=2) X_pca = pca.fit_transform(X_scaled) print("Original shape:", X.shape) print("Transformed shape:", X_pca.shape) # Each row in X_pca is a sample projected onto the first two principal components
Koden ovenfor utfører PCA på Iris-datasettet ved å følge flere viktige trinn:
1. Laste inn dataene
Iris-datasettet lastes inn ved hjelp av load_iris() fra scikit-learn. Dette datasettet inneholder 150 prøver av irisblomster, hver beskrevet med fire egenskaper: begerbladlengde, begerbladbredde, kronbladlengde, kronbladbredde.
2. Standardisering av egenskaper
Standardisering sikrer at hver egenskap har gjennomsnitt 0 og varians 1:
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)
Dette trinnet er essensielt fordi PCA er følsom for variansen til hver egenskap. Uten standardisering vil egenskaper med større skala dominere hovedkomponentene, noe som kan gi misvisende resultater.
3. Bruke PCA
PCA(n_components=2) reduserer datasettet fra fire dimensjoner til to:
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X_scaled)
Hovedkomponenter er nye akser som fanger opp retningene med størst variasjon i dataene. Hver prøve projiseres på disse aksene, noe som gir en kompakt representasjon som bevarer mest mulig informasjon.
4. Tolke PCA-resultater
Du kan sjekke hvor mye variasjon hver hovedkomponent forklarer:
print(pca.explained_variance_ratio_)
Dette gir en matrise, for eksempel [0.7277, 0.2303], som betyr at den første komponenten forklarer omtrent 73 % av variasjonen og den andre omtrent 23 %. Sammen fanger de opp det meste av informasjonen fra de opprinnelige dataene.
Takk for tilbakemeldingene dine!
Spør AI
Spør AI
Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår
Can you explain how to interpret the principal components in this context?
How can I visualize the results of the PCA on the Iris dataset?
What are some practical applications of PCA beyond this example?
Awesome!
Completion rate improved to 8.33
Utføring av PCA på et Reelt Datasett
Sveip for å vise menyen
Utfør PCA på et virkelig datasett ved hjelp av scikit-learn. Bruk Iris-datasettet, et klassisk datasett innen maskinlæring, og følg disse trinnene:
- Last inn dataene;
- Forbered dem for analyse;
- Standardiser egenskapene;
- Bruk
PCAfor å redusere dimensjonaliteten.
Denne prosessen viser hvordan man implementerer dimensjonsreduksjon i praktiske situasjoner.
12345678910111213141516171819202122import numpy as np import pandas as pd from sklearn.datasets import load_iris from sklearn.preprocessing import StandardScaler from sklearn.decomposition import PCA # Load the Iris dataset data = load_iris() X = data.data feature_names = data.feature_names # Standardize features (important for PCA) scaler = StandardScaler() X_scaled = scaler.fit_transform(X) # Apply PCA to reduce to 2 components pca = PCA(n_components=2) X_pca = pca.fit_transform(X_scaled) print("Original shape:", X.shape) print("Transformed shape:", X_pca.shape) # Each row in X_pca is a sample projected onto the first two principal components
Koden ovenfor utfører PCA på Iris-datasettet ved å følge flere viktige trinn:
1. Laste inn dataene
Iris-datasettet lastes inn ved hjelp av load_iris() fra scikit-learn. Dette datasettet inneholder 150 prøver av irisblomster, hver beskrevet med fire egenskaper: begerbladlengde, begerbladbredde, kronbladlengde, kronbladbredde.
2. Standardisering av egenskaper
Standardisering sikrer at hver egenskap har gjennomsnitt 0 og varians 1:
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)
Dette trinnet er essensielt fordi PCA er følsom for variansen til hver egenskap. Uten standardisering vil egenskaper med større skala dominere hovedkomponentene, noe som kan gi misvisende resultater.
3. Bruke PCA
PCA(n_components=2) reduserer datasettet fra fire dimensjoner til to:
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X_scaled)
Hovedkomponenter er nye akser som fanger opp retningene med størst variasjon i dataene. Hver prøve projiseres på disse aksene, noe som gir en kompakt representasjon som bevarer mest mulig informasjon.
4. Tolke PCA-resultater
Du kan sjekke hvor mye variasjon hver hovedkomponent forklarer:
print(pca.explained_variance_ratio_)
Dette gir en matrise, for eksempel [0.7277, 0.2303], som betyr at den første komponenten forklarer omtrent 73 % av variasjonen og den andre omtrent 23 %. Sammen fanger de opp det meste av informasjonen fra de opprinnelige dataene.
Takk for tilbakemeldingene dine!