Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lernen Durchführung von PCA an einem realen Datensatz | Implementierung von PCA in Python
Dimensionsreduktion mit PCA

bookDurchführung von PCA an einem realen Datensatz

Führe PCA an einem realen Datensatz mit scikit-learn durch. Verwende den Iris-Datensatz, einen Klassiker im maschinellen Lernen, und folge diesen Schritten:

  • Laden der Daten;
  • Vorbereitung für die Analyse;
  • Standardisierung der Merkmale;
  • Anwendung von PCA zur Dimensionsreduktion.

Dieser Prozess zeigt, wie Dimensionsreduktion in praxisnahen Szenarien implementiert wird.

12345678910111213141516171819202122
import numpy as np import pandas as pd from sklearn.datasets import load_iris from sklearn.preprocessing import StandardScaler from sklearn.decomposition import PCA # Load the Iris dataset data = load_iris() X = data.data feature_names = data.feature_names # Standardize features (important for PCA) scaler = StandardScaler() X_scaled = scaler.fit_transform(X) # Apply PCA to reduce to 2 components pca = PCA(n_components=2) X_pca = pca.fit_transform(X_scaled) print("Original shape:", X.shape) print("Transformed shape:", X_pca.shape) # Each row in X_pca is a sample projected onto the first two principal components
copy

Der obige Code führt PCA auf dem Iris-Datensatz durch und folgt dabei mehreren Schritten:

1. Laden der Daten

Der Iris-Datensatz wird mit load_iris() aus scikit-learn geladen. Dieser Datensatz enthält 150 Proben von Iris-Blüten, die jeweils durch vier Merkmale beschrieben werden: Kelchlänge, Kelchbreite, Blütenblattlänge, Blütenblattbreite.

2. Standardisierung der Merkmale

Standardisierung stellt sicher, dass jedes Merkmal den Mittelwert 0 und die Varianz 1 hat:

scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

Dieser Schritt ist entscheidend, da PCA empfindlich auf die Varianz der einzelnen Merkmale reagiert. Ohne Standardisierung würden Merkmale mit größeren Skalen die Hauptkomponenten dominieren und zu irreführenden Ergebnissen führen.

3. Anwendung von PCA

PCA(n_components=2) reduziert den Datensatz von vier auf zwei Dimensionen:

pca = PCA(n_components=2)
X_pca = pca.fit_transform(X_scaled)

Hauptkomponenten sind neue Achsen, die die Richtungen maximaler Varianz in den Daten erfassen. Jede Probe wird auf diese Achsen projiziert, was zu einer kompakten Darstellung führt, die möglichst viele Informationen beibehält.

4. Interpretation der PCA-Ausgabe

Es kann überprüft werden, wie viel Varianz jede Hauptkomponente erklärt:

print(pca.explained_variance_ratio_)

Dies gibt ein Array wie [0.7277, 0.2303] aus, was bedeutet, dass die erste Komponente etwa 73% der Varianz erklärt und die zweite etwa 23%. Zusammen erfassen sie den Großteil der Informationen aus den Originaldaten.

question mark

Welche Aussage ist bezüglich der Durchführung von PCA auf dem Iris-Datensatz, wie im Beispiel gezeigt, korrekt?

Select the correct answer

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 3. Kapitel 1

Fragen Sie AI

expand

Fragen Sie AI

ChatGPT

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Awesome!

Completion rate improved to 8.33

bookDurchführung von PCA an einem realen Datensatz

Swipe um das Menü anzuzeigen

Führe PCA an einem realen Datensatz mit scikit-learn durch. Verwende den Iris-Datensatz, einen Klassiker im maschinellen Lernen, und folge diesen Schritten:

  • Laden der Daten;
  • Vorbereitung für die Analyse;
  • Standardisierung der Merkmale;
  • Anwendung von PCA zur Dimensionsreduktion.

Dieser Prozess zeigt, wie Dimensionsreduktion in praxisnahen Szenarien implementiert wird.

12345678910111213141516171819202122
import numpy as np import pandas as pd from sklearn.datasets import load_iris from sklearn.preprocessing import StandardScaler from sklearn.decomposition import PCA # Load the Iris dataset data = load_iris() X = data.data feature_names = data.feature_names # Standardize features (important for PCA) scaler = StandardScaler() X_scaled = scaler.fit_transform(X) # Apply PCA to reduce to 2 components pca = PCA(n_components=2) X_pca = pca.fit_transform(X_scaled) print("Original shape:", X.shape) print("Transformed shape:", X_pca.shape) # Each row in X_pca is a sample projected onto the first two principal components
copy

Der obige Code führt PCA auf dem Iris-Datensatz durch und folgt dabei mehreren Schritten:

1. Laden der Daten

Der Iris-Datensatz wird mit load_iris() aus scikit-learn geladen. Dieser Datensatz enthält 150 Proben von Iris-Blüten, die jeweils durch vier Merkmale beschrieben werden: Kelchlänge, Kelchbreite, Blütenblattlänge, Blütenblattbreite.

2. Standardisierung der Merkmale

Standardisierung stellt sicher, dass jedes Merkmal den Mittelwert 0 und die Varianz 1 hat:

scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

Dieser Schritt ist entscheidend, da PCA empfindlich auf die Varianz der einzelnen Merkmale reagiert. Ohne Standardisierung würden Merkmale mit größeren Skalen die Hauptkomponenten dominieren und zu irreführenden Ergebnissen führen.

3. Anwendung von PCA

PCA(n_components=2) reduziert den Datensatz von vier auf zwei Dimensionen:

pca = PCA(n_components=2)
X_pca = pca.fit_transform(X_scaled)

Hauptkomponenten sind neue Achsen, die die Richtungen maximaler Varianz in den Daten erfassen. Jede Probe wird auf diese Achsen projiziert, was zu einer kompakten Darstellung führt, die möglichst viele Informationen beibehält.

4. Interpretation der PCA-Ausgabe

Es kann überprüft werden, wie viel Varianz jede Hauptkomponente erklärt:

print(pca.explained_variance_ratio_)

Dies gibt ein Array wie [0.7277, 0.2303] aus, was bedeutet, dass die erste Komponente etwa 73% der Varianz erklärt und die zweite etwa 23%. Zusammen erfassen sie den Großteil der Informationen aus den Originaldaten.

question mark

Welche Aussage ist bezüglich der Durchführung von PCA auf dem Iris-Datensatz, wie im Beispiel gezeigt, korrekt?

Select the correct answer

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 3. Kapitel 1
some-alt