PCA:n Suorittaminen Oikealla Tietoaineistolla
Suorita PCA oikealla aineistolla käyttäen scikit-learn-kirjastoa. Käytä Iris-aineistoa, joka on klassinen esimerkki koneoppimisessa, ja noudata seuraavia vaiheita:
- Lataa aineisto;
- Valmistele se analyysiä varten;
- Standardisoi piirteet;
- Sovella
PCA:ta ulottuvuuksien vähentämiseksi.
Tämä prosessi havainnollistaa, kuinka ulottuvuuksien vähentäminen toteutetaan käytännön tilanteissa.
12345678910111213141516171819202122import numpy as np import pandas as pd from sklearn.datasets import load_iris from sklearn.preprocessing import StandardScaler from sklearn.decomposition import PCA # Load the Iris dataset data = load_iris() X = data.data feature_names = data.feature_names # Standardize features (important for PCA) scaler = StandardScaler() X_scaled = scaler.fit_transform(X) # Apply PCA to reduce to 2 components pca = PCA(n_components=2) X_pca = pca.fit_transform(X_scaled) print("Original shape:", X.shape) print("Transformed shape:", X_pca.shape) # Each row in X_pca is a sample projected onto the first two principal components
Yllä oleva koodi suorittaa PCA-analyysin Iris-aineistolle useassa keskeisessä vaiheessa:
1. Aineiston lataaminen
Iris-aineisto ladataan käyttäen load_iris()-funktiota scikit-learn-kirjastosta. Tämä aineisto sisältää 150 näytettä iiriksen kukista, joista jokainen on kuvattu neljällä piirteellä: verholehden pituus, verholehden leveys, terälehden pituus, terälehden leveys.
2. Piirteiden standardisointi
Standardisointi varmistaa, että jokaisella piirteellä on keskiarvo 0 ja varianssi 1:
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)
Tämä vaihe on olennainen, koska PCA on herkkä piirteiden varianssille. Ilman standardisointia suuremman skaalan piirteet hallitsisivat pääkomponentteja, mikä johtaisi harhaanjohtaviin tuloksiin.
3. PCA:n soveltaminen
PCA(n_components=2) vähentää aineiston neljästä ulottuvuudesta kahteen:
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X_scaled)
Pääkomponentit ovat uusia akseleita, jotka kuvaavat datan suurimman varianssin suunnat. Jokainen näyte projisoidaan näille akseleille, jolloin saadaan tiivis esitys, joka säilyttää mahdollisimman paljon alkuperäistä tietoa.
4. PCA-tulosten tulkinta
Voit tarkistaa, kuinka paljon varianssia kukin pääkomponentti selittää:
print(pca.explained_variance_ratio_)
Tämä tulostaa taulukon, kuten [0.7277, 0.2303], mikä tarkoittaa, että ensimmäinen komponentti selittää noin 73 % varianssista ja toinen noin 23 %. Yhdessä ne kattavat suurimman osan alkuperäisen datan informaatiosta.
Kiitos palautteestasi!
Kysy tekoälyä
Kysy tekoälyä
Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme
Can you explain how to interpret the principal components in this context?
How can I visualize the results of the PCA on the Iris dataset?
What are some practical applications of PCA beyond this example?
Awesome!
Completion rate improved to 8.33
PCA:n Suorittaminen Oikealla Tietoaineistolla
Pyyhkäise näyttääksesi valikon
Suorita PCA oikealla aineistolla käyttäen scikit-learn-kirjastoa. Käytä Iris-aineistoa, joka on klassinen esimerkki koneoppimisessa, ja noudata seuraavia vaiheita:
- Lataa aineisto;
- Valmistele se analyysiä varten;
- Standardisoi piirteet;
- Sovella
PCA:ta ulottuvuuksien vähentämiseksi.
Tämä prosessi havainnollistaa, kuinka ulottuvuuksien vähentäminen toteutetaan käytännön tilanteissa.
12345678910111213141516171819202122import numpy as np import pandas as pd from sklearn.datasets import load_iris from sklearn.preprocessing import StandardScaler from sklearn.decomposition import PCA # Load the Iris dataset data = load_iris() X = data.data feature_names = data.feature_names # Standardize features (important for PCA) scaler = StandardScaler() X_scaled = scaler.fit_transform(X) # Apply PCA to reduce to 2 components pca = PCA(n_components=2) X_pca = pca.fit_transform(X_scaled) print("Original shape:", X.shape) print("Transformed shape:", X_pca.shape) # Each row in X_pca is a sample projected onto the first two principal components
Yllä oleva koodi suorittaa PCA-analyysin Iris-aineistolle useassa keskeisessä vaiheessa:
1. Aineiston lataaminen
Iris-aineisto ladataan käyttäen load_iris()-funktiota scikit-learn-kirjastosta. Tämä aineisto sisältää 150 näytettä iiriksen kukista, joista jokainen on kuvattu neljällä piirteellä: verholehden pituus, verholehden leveys, terälehden pituus, terälehden leveys.
2. Piirteiden standardisointi
Standardisointi varmistaa, että jokaisella piirteellä on keskiarvo 0 ja varianssi 1:
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)
Tämä vaihe on olennainen, koska PCA on herkkä piirteiden varianssille. Ilman standardisointia suuremman skaalan piirteet hallitsisivat pääkomponentteja, mikä johtaisi harhaanjohtaviin tuloksiin.
3. PCA:n soveltaminen
PCA(n_components=2) vähentää aineiston neljästä ulottuvuudesta kahteen:
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X_scaled)
Pääkomponentit ovat uusia akseleita, jotka kuvaavat datan suurimman varianssin suunnat. Jokainen näyte projisoidaan näille akseleille, jolloin saadaan tiivis esitys, joka säilyttää mahdollisimman paljon alkuperäistä tietoa.
4. PCA-tulosten tulkinta
Voit tarkistaa, kuinka paljon varianssia kukin pääkomponentti selittää:
print(pca.explained_variance_ratio_)
Tämä tulostaa taulukon, kuten [0.7277, 0.2303], mikä tarkoittaa, että ensimmäinen komponentti selittää noin 73 % varianssista ja toinen noin 23 %. Yhdessä ne kattavat suurimman osan alkuperäisen datan informaatiosta.
Kiitos palautteestasi!