Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære Udførelse af PCA på et Reelt Datasæt | Implementering af PCA i Python
Dimensionsreduktion med PCA

bookUdførelse af PCA på et Reelt Datasæt

Udfør PCA på et reelt datasæt ved hjælp af scikit-learn. Brug Iris-datasættet, et klassisk datasæt inden for maskinlæring, og følg disse trin:

  • Indlæs dataene;
  • Forbered dem til analyse;
  • Standardisér funktionerne;
  • Anvend PCA for at reducere dimensionaliteten.

Denne proces demonstrerer, hvordan dimensionalitetsreduktion implementeres i praktiske scenarier.

12345678910111213141516171819202122
import numpy as np import pandas as pd from sklearn.datasets import load_iris from sklearn.preprocessing import StandardScaler from sklearn.decomposition import PCA # Load the Iris dataset data = load_iris() X = data.data feature_names = data.feature_names # Standardize features (important for PCA) scaler = StandardScaler() X_scaled = scaler.fit_transform(X) # Apply PCA to reduce to 2 components pca = PCA(n_components=2) X_pca = pca.fit_transform(X_scaled) print("Original shape:", X.shape) print("Transformed shape:", X_pca.shape) # Each row in X_pca is a sample projected onto the first two principal components
copy

Koden ovenfor udfører PCA på Iris-datasættet ved at følge flere centrale trin:

1. Indlæsning af data

Iris-datasættet indlæses ved hjælp af load_iris() fra scikit-learn. Dette datasæt indeholder 150 prøver af irisblomster, hver beskrevet ved fire funktioner: bægerbladslængde, bægerbladsbredde, kronbladslængde, kronbladsbredde.

2. Standardisering af funktioner

Standardisering sikrer, at hver funktion har middelværdi 0 og varians 1:

scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

Dette trin er essentielt, fordi PCA er følsom over for variansen af hver funktion. Uden standardisering vil funktioner med større skala dominere hovedkomponenterne, hvilket kan føre til misvisende resultater.

3. Anvendelse af PCA

PCA(n_components=2) reducerer datasættet fra fire dimensioner til to:

pca = PCA(n_components=2)
X_pca = pca.fit_transform(X_scaled)

Hovedkomponenter er nye akser, der fanger retningerne med størst varians i dataene. Hver prøve projiceres på disse akser, hvilket resulterer i en kompakt repræsentation, der bevarer så meget information som muligt.

4. Fortolkning af PCA-output

Det er muligt at kontrollere, hvor meget varians hver hovedkomponent forklarer:

print(pca.explained_variance_ratio_)

Dette udskriver et array, såsom [0.7277, 0.2303], hvilket betyder, at den første komponent forklarer ca. 73% af variansen og den anden ca. 23%. Samlet set fanger de det meste af informationen fra de oprindelige data.

question mark

Hvilken påstand er korrekt om udførelse af PCA på Iris-datasættet som vist i eksemplet?

Select the correct answer

Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 3. Kapitel 1

Spørg AI

expand

Spørg AI

ChatGPT

Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat

Suggested prompts:

Can you explain how to interpret the principal components in this context?

How can I visualize the results of the PCA on the Iris dataset?

What are some practical applications of PCA beyond this example?

Awesome!

Completion rate improved to 8.33

bookUdførelse af PCA på et Reelt Datasæt

Stryg for at vise menuen

Udfør PCA på et reelt datasæt ved hjælp af scikit-learn. Brug Iris-datasættet, et klassisk datasæt inden for maskinlæring, og følg disse trin:

  • Indlæs dataene;
  • Forbered dem til analyse;
  • Standardisér funktionerne;
  • Anvend PCA for at reducere dimensionaliteten.

Denne proces demonstrerer, hvordan dimensionalitetsreduktion implementeres i praktiske scenarier.

12345678910111213141516171819202122
import numpy as np import pandas as pd from sklearn.datasets import load_iris from sklearn.preprocessing import StandardScaler from sklearn.decomposition import PCA # Load the Iris dataset data = load_iris() X = data.data feature_names = data.feature_names # Standardize features (important for PCA) scaler = StandardScaler() X_scaled = scaler.fit_transform(X) # Apply PCA to reduce to 2 components pca = PCA(n_components=2) X_pca = pca.fit_transform(X_scaled) print("Original shape:", X.shape) print("Transformed shape:", X_pca.shape) # Each row in X_pca is a sample projected onto the first two principal components
copy

Koden ovenfor udfører PCA på Iris-datasættet ved at følge flere centrale trin:

1. Indlæsning af data

Iris-datasættet indlæses ved hjælp af load_iris() fra scikit-learn. Dette datasæt indeholder 150 prøver af irisblomster, hver beskrevet ved fire funktioner: bægerbladslængde, bægerbladsbredde, kronbladslængde, kronbladsbredde.

2. Standardisering af funktioner

Standardisering sikrer, at hver funktion har middelværdi 0 og varians 1:

scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

Dette trin er essentielt, fordi PCA er følsom over for variansen af hver funktion. Uden standardisering vil funktioner med større skala dominere hovedkomponenterne, hvilket kan føre til misvisende resultater.

3. Anvendelse af PCA

PCA(n_components=2) reducerer datasættet fra fire dimensioner til to:

pca = PCA(n_components=2)
X_pca = pca.fit_transform(X_scaled)

Hovedkomponenter er nye akser, der fanger retningerne med størst varians i dataene. Hver prøve projiceres på disse akser, hvilket resulterer i en kompakt repræsentation, der bevarer så meget information som muligt.

4. Fortolkning af PCA-output

Det er muligt at kontrollere, hvor meget varians hver hovedkomponent forklarer:

print(pca.explained_variance_ratio_)

Dette udskriver et array, såsom [0.7277, 0.2303], hvilket betyder, at den første komponent forklarer ca. 73% af variansen og den anden ca. 23%. Samlet set fanger de det meste af informationen fra de oprindelige data.

question mark

Hvilken påstand er korrekt om udførelse af PCA på Iris-datasættet som vist i eksemplet?

Select the correct answer

Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 3. Kapitel 1
some-alt