Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Oppiskele PCA:n Suorittaminen Oikealla Tietoaineistolla | PCA:n Toteuttaminen Pythonilla
Ulottuvuuksien Vähentäminen PCA:lla

bookPCA:n Suorittaminen Oikealla Tietoaineistolla

Suorita PCA oikealla aineistolla käyttäen scikit-learn-kirjastoa. Käytä Iris-aineistoa, joka on klassinen esimerkki koneoppimisessa, ja noudata seuraavia vaiheita:

  • Lataa aineisto;
  • Valmistele se analyysiä varten;
  • Standardisoi piirteet;
  • Sovella PCA:ta ulottuvuuksien vähentämiseksi.

Tämä prosessi havainnollistaa, kuinka ulottuvuuksien vähentäminen toteutetaan käytännön tilanteissa.

12345678910111213141516171819202122
import numpy as np import pandas as pd from sklearn.datasets import load_iris from sklearn.preprocessing import StandardScaler from sklearn.decomposition import PCA # Load the Iris dataset data = load_iris() X = data.data feature_names = data.feature_names # Standardize features (important for PCA) scaler = StandardScaler() X_scaled = scaler.fit_transform(X) # Apply PCA to reduce to 2 components pca = PCA(n_components=2) X_pca = pca.fit_transform(X_scaled) print("Original shape:", X.shape) print("Transformed shape:", X_pca.shape) # Each row in X_pca is a sample projected onto the first two principal components
copy

Yllä oleva koodi suorittaa PCA-analyysin Iris-aineistolle useassa keskeisessä vaiheessa:

1. Aineiston lataaminen

Iris-aineisto ladataan käyttäen load_iris()-funktiota scikit-learn-kirjastosta. Tämä aineisto sisältää 150 näytettä iiriksen kukista, joista jokainen on kuvattu neljällä piirteellä: verholehden pituus, verholehden leveys, terälehden pituus, terälehden leveys.

2. Piirteiden standardisointi

Standardisointi varmistaa, että jokaisella piirteellä on keskiarvo 0 ja varianssi 1:

scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

Tämä vaihe on olennainen, koska PCA on herkkä piirteiden varianssille. Ilman standardisointia suuremman skaalan piirteet hallitsisivat pääkomponentteja, mikä johtaisi harhaanjohtaviin tuloksiin.

3. PCA:n soveltaminen

PCA(n_components=2) vähentää aineiston neljästä ulottuvuudesta kahteen:

pca = PCA(n_components=2)
X_pca = pca.fit_transform(X_scaled)

Pääkomponentit ovat uusia akseleita, jotka kuvaavat datan suurimman varianssin suunnat. Jokainen näyte projisoidaan näille akseleille, jolloin saadaan tiivis esitys, joka säilyttää mahdollisimman paljon alkuperäistä tietoa.

4. PCA-tulosten tulkinta

Voit tarkistaa, kuinka paljon varianssia kukin pääkomponentti selittää:

print(pca.explained_variance_ratio_)

Tämä tulostaa taulukon, kuten [0.7277, 0.2303], mikä tarkoittaa, että ensimmäinen komponentti selittää noin 73 % varianssista ja toinen noin 23 %. Yhdessä ne kattavat suurimman osan alkuperäisen datan informaatiosta.

question mark

Mikä väite on oikein, kun suoritetaan PCA Iris-datalla esimerkin mukaisesti?

Select the correct answer

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 3. Luku 1

Kysy tekoälyä

expand

Kysy tekoälyä

ChatGPT

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

Suggested prompts:

Can you explain how to interpret the principal components in this context?

How can I visualize the results of the PCA on the Iris dataset?

What are some practical applications of PCA beyond this example?

Awesome!

Completion rate improved to 8.33

bookPCA:n Suorittaminen Oikealla Tietoaineistolla

Pyyhkäise näyttääksesi valikon

Suorita PCA oikealla aineistolla käyttäen scikit-learn-kirjastoa. Käytä Iris-aineistoa, joka on klassinen esimerkki koneoppimisessa, ja noudata seuraavia vaiheita:

  • Lataa aineisto;
  • Valmistele se analyysiä varten;
  • Standardisoi piirteet;
  • Sovella PCA:ta ulottuvuuksien vähentämiseksi.

Tämä prosessi havainnollistaa, kuinka ulottuvuuksien vähentäminen toteutetaan käytännön tilanteissa.

12345678910111213141516171819202122
import numpy as np import pandas as pd from sklearn.datasets import load_iris from sklearn.preprocessing import StandardScaler from sklearn.decomposition import PCA # Load the Iris dataset data = load_iris() X = data.data feature_names = data.feature_names # Standardize features (important for PCA) scaler = StandardScaler() X_scaled = scaler.fit_transform(X) # Apply PCA to reduce to 2 components pca = PCA(n_components=2) X_pca = pca.fit_transform(X_scaled) print("Original shape:", X.shape) print("Transformed shape:", X_pca.shape) # Each row in X_pca is a sample projected onto the first two principal components
copy

Yllä oleva koodi suorittaa PCA-analyysin Iris-aineistolle useassa keskeisessä vaiheessa:

1. Aineiston lataaminen

Iris-aineisto ladataan käyttäen load_iris()-funktiota scikit-learn-kirjastosta. Tämä aineisto sisältää 150 näytettä iiriksen kukista, joista jokainen on kuvattu neljällä piirteellä: verholehden pituus, verholehden leveys, terälehden pituus, terälehden leveys.

2. Piirteiden standardisointi

Standardisointi varmistaa, että jokaisella piirteellä on keskiarvo 0 ja varianssi 1:

scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

Tämä vaihe on olennainen, koska PCA on herkkä piirteiden varianssille. Ilman standardisointia suuremman skaalan piirteet hallitsisivat pääkomponentteja, mikä johtaisi harhaanjohtaviin tuloksiin.

3. PCA:n soveltaminen

PCA(n_components=2) vähentää aineiston neljästä ulottuvuudesta kahteen:

pca = PCA(n_components=2)
X_pca = pca.fit_transform(X_scaled)

Pääkomponentit ovat uusia akseleita, jotka kuvaavat datan suurimman varianssin suunnat. Jokainen näyte projisoidaan näille akseleille, jolloin saadaan tiivis esitys, joka säilyttää mahdollisimman paljon alkuperäistä tietoa.

4. PCA-tulosten tulkinta

Voit tarkistaa, kuinka paljon varianssia kukin pääkomponentti selittää:

print(pca.explained_variance_ratio_)

Tämä tulostaa taulukon, kuten [0.7277, 0.2303], mikä tarkoittaa, että ensimmäinen komponentti selittää noin 73 % varianssista ja toinen noin 23 %. Yhdessä ne kattavat suurimman osan alkuperäisen datan informaatiosta.

question mark

Mikä väite on oikein, kun suoritetaan PCA Iris-datalla esimerkin mukaisesti?

Select the correct answer

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 3. Luku 1
some-alt