Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære Utføring av PCA på et Reelt Datasett | Implementering av PCA i Python
Dimensjonsreduksjon med PCA

bookUtføring av PCA på et Reelt Datasett

Utfør PCA på et virkelig datasett ved hjelp av scikit-learn. Bruk Iris-datasettet, et klassisk datasett innen maskinlæring, og følg disse trinnene:

  • Last inn dataene;
  • Forbered dem for analyse;
  • Standardiser egenskapene;
  • Bruk PCA for å redusere dimensjonaliteten.

Denne prosessen viser hvordan man implementerer dimensjonsreduksjon i praktiske situasjoner.

12345678910111213141516171819202122
import numpy as np import pandas as pd from sklearn.datasets import load_iris from sklearn.preprocessing import StandardScaler from sklearn.decomposition import PCA # Load the Iris dataset data = load_iris() X = data.data feature_names = data.feature_names # Standardize features (important for PCA) scaler = StandardScaler() X_scaled = scaler.fit_transform(X) # Apply PCA to reduce to 2 components pca = PCA(n_components=2) X_pca = pca.fit_transform(X_scaled) print("Original shape:", X.shape) print("Transformed shape:", X_pca.shape) # Each row in X_pca is a sample projected onto the first two principal components
copy

Koden ovenfor utfører PCA på Iris-datasettet ved å følge flere viktige trinn:

1. Laste inn dataene

Iris-datasettet lastes inn ved hjelp av load_iris() fra scikit-learn. Dette datasettet inneholder 150 prøver av irisblomster, hver beskrevet med fire egenskaper: begerbladlengde, begerbladbredde, kronbladlengde, kronbladbredde.

2. Standardisering av egenskaper

Standardisering sikrer at hver egenskap har gjennomsnitt 0 og varians 1:

scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

Dette trinnet er essensielt fordi PCA er følsom for variansen til hver egenskap. Uten standardisering vil egenskaper med større skala dominere hovedkomponentene, noe som kan gi misvisende resultater.

3. Bruke PCA

PCA(n_components=2) reduserer datasettet fra fire dimensjoner til to:

pca = PCA(n_components=2)
X_pca = pca.fit_transform(X_scaled)

Hovedkomponenter er nye akser som fanger opp retningene med størst variasjon i dataene. Hver prøve projiseres på disse aksene, noe som gir en kompakt representasjon som bevarer mest mulig informasjon.

4. Tolke PCA-resultater

Du kan sjekke hvor mye variasjon hver hovedkomponent forklarer:

print(pca.explained_variance_ratio_)

Dette gir en matrise, for eksempel [0.7277, 0.2303], som betyr at den første komponenten forklarer omtrent 73 % av variasjonen og den andre omtrent 23 %. Sammen fanger de opp det meste av informasjonen fra de opprinnelige dataene.

question mark

Hvilket utsagn er korrekt om å utføre PCA på Iris-datasettet som vist i eksemplet?

Select the correct answer

Alt var klart?

Hvordan kan vi forbedre det?

Takk for tilbakemeldingene dine!

Seksjon 3. Kapittel 1

Spør AI

expand

Spør AI

ChatGPT

Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår

Suggested prompts:

Can you explain how to interpret the principal components in this context?

How can I visualize the results of the PCA on the Iris dataset?

What are some practical applications of PCA beyond this example?

Awesome!

Completion rate improved to 8.33

bookUtføring av PCA på et Reelt Datasett

Sveip for å vise menyen

Utfør PCA på et virkelig datasett ved hjelp av scikit-learn. Bruk Iris-datasettet, et klassisk datasett innen maskinlæring, og følg disse trinnene:

  • Last inn dataene;
  • Forbered dem for analyse;
  • Standardiser egenskapene;
  • Bruk PCA for å redusere dimensjonaliteten.

Denne prosessen viser hvordan man implementerer dimensjonsreduksjon i praktiske situasjoner.

12345678910111213141516171819202122
import numpy as np import pandas as pd from sklearn.datasets import load_iris from sklearn.preprocessing import StandardScaler from sklearn.decomposition import PCA # Load the Iris dataset data = load_iris() X = data.data feature_names = data.feature_names # Standardize features (important for PCA) scaler = StandardScaler() X_scaled = scaler.fit_transform(X) # Apply PCA to reduce to 2 components pca = PCA(n_components=2) X_pca = pca.fit_transform(X_scaled) print("Original shape:", X.shape) print("Transformed shape:", X_pca.shape) # Each row in X_pca is a sample projected onto the first two principal components
copy

Koden ovenfor utfører PCA på Iris-datasettet ved å følge flere viktige trinn:

1. Laste inn dataene

Iris-datasettet lastes inn ved hjelp av load_iris() fra scikit-learn. Dette datasettet inneholder 150 prøver av irisblomster, hver beskrevet med fire egenskaper: begerbladlengde, begerbladbredde, kronbladlengde, kronbladbredde.

2. Standardisering av egenskaper

Standardisering sikrer at hver egenskap har gjennomsnitt 0 og varians 1:

scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

Dette trinnet er essensielt fordi PCA er følsom for variansen til hver egenskap. Uten standardisering vil egenskaper med større skala dominere hovedkomponentene, noe som kan gi misvisende resultater.

3. Bruke PCA

PCA(n_components=2) reduserer datasettet fra fire dimensjoner til to:

pca = PCA(n_components=2)
X_pca = pca.fit_transform(X_scaled)

Hovedkomponenter er nye akser som fanger opp retningene med størst variasjon i dataene. Hver prøve projiseres på disse aksene, noe som gir en kompakt representasjon som bevarer mest mulig informasjon.

4. Tolke PCA-resultater

Du kan sjekke hvor mye variasjon hver hovedkomponent forklarer:

print(pca.explained_variance_ratio_)

Dette gir en matrise, for eksempel [0.7277, 0.2303], som betyr at den første komponenten forklarer omtrent 73 % av variasjonen og den andre omtrent 23 %. Sammen fanger de opp det meste av informasjonen fra de opprinnelige dataene.

question mark

Hvilket utsagn er korrekt om å utføre PCA på Iris-datasettet som vist i eksemplet?

Select the correct answer

Alt var klart?

Hvordan kan vi forbedre det?

Takk for tilbakemeldingene dine!

Seksjon 3. Kapittel 1
some-alt