Durchführung von PCA an einem realen Datensatz
Führe PCA an einem realen Datensatz mit scikit-learn durch. Verwende den Iris-Datensatz, einen Klassiker im maschinellen Lernen, und folge diesen Schritten:
- Laden der Daten;
- Vorbereitung für die Analyse;
- Standardisierung der Merkmale;
- Anwendung von
PCAzur Dimensionsreduktion.
Dieser Prozess zeigt, wie Dimensionsreduktion in praxisnahen Szenarien implementiert wird.
12345678910111213141516171819202122import numpy as np import pandas as pd from sklearn.datasets import load_iris from sklearn.preprocessing import StandardScaler from sklearn.decomposition import PCA # Load the Iris dataset data = load_iris() X = data.data feature_names = data.feature_names # Standardize features (important for PCA) scaler = StandardScaler() X_scaled = scaler.fit_transform(X) # Apply PCA to reduce to 2 components pca = PCA(n_components=2) X_pca = pca.fit_transform(X_scaled) print("Original shape:", X.shape) print("Transformed shape:", X_pca.shape) # Each row in X_pca is a sample projected onto the first two principal components
Der obige Code führt PCA auf dem Iris-Datensatz durch und folgt dabei mehreren Schritten:
1. Laden der Daten
Der Iris-Datensatz wird mit load_iris() aus scikit-learn geladen. Dieser Datensatz enthält 150 Proben von Iris-Blüten, die jeweils durch vier Merkmale beschrieben werden: Kelchlänge, Kelchbreite, Blütenblattlänge, Blütenblattbreite.
2. Standardisierung der Merkmale
Standardisierung stellt sicher, dass jedes Merkmal den Mittelwert 0 und die Varianz 1 hat:
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)
Dieser Schritt ist entscheidend, da PCA empfindlich auf die Varianz der einzelnen Merkmale reagiert. Ohne Standardisierung würden Merkmale mit größeren Skalen die Hauptkomponenten dominieren und zu irreführenden Ergebnissen führen.
3. Anwendung von PCA
PCA(n_components=2) reduziert den Datensatz von vier auf zwei Dimensionen:
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X_scaled)
Hauptkomponenten sind neue Achsen, die die Richtungen maximaler Varianz in den Daten erfassen. Jede Probe wird auf diese Achsen projiziert, was zu einer kompakten Darstellung führt, die möglichst viele Informationen beibehält.
4. Interpretation der PCA-Ausgabe
Es kann überprüft werden, wie viel Varianz jede Hauptkomponente erklärt:
print(pca.explained_variance_ratio_)
Dies gibt ein Array wie [0.7277, 0.2303] aus, was bedeutet, dass die erste Komponente etwa 73% der Varianz erklärt und die zweite etwa 23%. Zusammen erfassen sie den Großteil der Informationen aus den Originaldaten.
Danke für Ihr Feedback!
Fragen Sie AI
Fragen Sie AI
Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen
Awesome!
Completion rate improved to 8.33
Durchführung von PCA an einem realen Datensatz
Swipe um das Menü anzuzeigen
Führe PCA an einem realen Datensatz mit scikit-learn durch. Verwende den Iris-Datensatz, einen Klassiker im maschinellen Lernen, und folge diesen Schritten:
- Laden der Daten;
- Vorbereitung für die Analyse;
- Standardisierung der Merkmale;
- Anwendung von
PCAzur Dimensionsreduktion.
Dieser Prozess zeigt, wie Dimensionsreduktion in praxisnahen Szenarien implementiert wird.
12345678910111213141516171819202122import numpy as np import pandas as pd from sklearn.datasets import load_iris from sklearn.preprocessing import StandardScaler from sklearn.decomposition import PCA # Load the Iris dataset data = load_iris() X = data.data feature_names = data.feature_names # Standardize features (important for PCA) scaler = StandardScaler() X_scaled = scaler.fit_transform(X) # Apply PCA to reduce to 2 components pca = PCA(n_components=2) X_pca = pca.fit_transform(X_scaled) print("Original shape:", X.shape) print("Transformed shape:", X_pca.shape) # Each row in X_pca is a sample projected onto the first two principal components
Der obige Code führt PCA auf dem Iris-Datensatz durch und folgt dabei mehreren Schritten:
1. Laden der Daten
Der Iris-Datensatz wird mit load_iris() aus scikit-learn geladen. Dieser Datensatz enthält 150 Proben von Iris-Blüten, die jeweils durch vier Merkmale beschrieben werden: Kelchlänge, Kelchbreite, Blütenblattlänge, Blütenblattbreite.
2. Standardisierung der Merkmale
Standardisierung stellt sicher, dass jedes Merkmal den Mittelwert 0 und die Varianz 1 hat:
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)
Dieser Schritt ist entscheidend, da PCA empfindlich auf die Varianz der einzelnen Merkmale reagiert. Ohne Standardisierung würden Merkmale mit größeren Skalen die Hauptkomponenten dominieren und zu irreführenden Ergebnissen führen.
3. Anwendung von PCA
PCA(n_components=2) reduziert den Datensatz von vier auf zwei Dimensionen:
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X_scaled)
Hauptkomponenten sind neue Achsen, die die Richtungen maximaler Varianz in den Daten erfassen. Jede Probe wird auf diese Achsen projiziert, was zu einer kompakten Darstellung führt, die möglichst viele Informationen beibehält.
4. Interpretation der PCA-Ausgabe
Es kann überprüft werden, wie viel Varianz jede Hauptkomponente erklärt:
print(pca.explained_variance_ratio_)
Dies gibt ein Array wie [0.7277, 0.2303] aus, was bedeutet, dass die erste Komponente etwa 73% der Varianz erklärt und die zweite etwa 23%. Zusammen erfassen sie den Großteil der Informationen aus den Originaldaten.
Danke für Ihr Feedback!