Lernen Durchführung von PCA an einem realen Datensatz

Führe PCA an einem realen Datensatz mit scikit-learn durch. Verwende den Iris-Datensatz, einen Klassiker im maschinellen Lernen, und folge diesen Schritten:

Laden der Daten;
Vorbereitung für die Analyse;
Standardisierung der Merkmale;
Anwendung von PCA zur Dimensionsreduktion.

Dieser Prozess zeigt, wie Dimensionsreduktion in praxisnahen Szenarien implementiert wird.


              12345678910111213141516171819202122
            
import numpy as np
import pandas as pd
from sklearn.datasets import load_iris
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA

# Load the Iris dataset
data = load_iris()
X = data.data
feature_names = data.feature_names

# Standardize features (important for PCA)
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# Apply PCA to reduce to 2 components
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X_scaled)

print("Original shape:", X.shape)
print("Transformed shape:", X_pca.shape)
# Each row in X_pca is a sample projected onto the first two principal components

Der obige Code führt PCA auf dem Iris-Datensatz durch und folgt dabei mehreren Schritten:

1. Laden der Daten

Der Iris-Datensatz wird mit load_iris() aus scikit-learn geladen. Dieser Datensatz enthält 150 Proben von Iris-Blüten, die jeweils durch vier Merkmale beschrieben werden: Kelchlänge, Kelchbreite, Blütenblattlänge, Blütenblattbreite.

2. Standardisierung der Merkmale

Standardisierung stellt sicher, dass jedes Merkmal den Mittelwert 0 und die Varianz 1 hat:

scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

Dieser Schritt ist entscheidend, da PCA empfindlich auf die Varianz der einzelnen Merkmale reagiert. Ohne Standardisierung würden Merkmale mit größeren Skalen die Hauptkomponenten dominieren und zu irreführenden Ergebnissen führen.

3. Anwendung von PCA

PCA(n_components=2) reduziert den Datensatz von vier auf zwei Dimensionen:

pca = PCA(n_components=2)
X_pca = pca.fit_transform(X_scaled)

Hauptkomponenten sind neue Achsen, die die Richtungen maximaler Varianz in den Daten erfassen. Jede Probe wird auf diese Achsen projiziert, was zu einer kompakten Darstellung führt, die möglichst viele Informationen beibehält.

4. Interpretation der PCA-Ausgabe

Es kann überprüft werden, wie viel Varianz jede Hauptkomponente erklärt:

print(pca.explained_variance_ratio_)

Dies gibt ein Array wie [0.7277, 0.2303] aus, was bedeutet, dass die erste Komponente etwa 73% der Varianz erklärt und die zweite etwa 23%. Zusammen erfassen sie den Großteil der Informationen aus den Originaldaten.

War alles klar?

Danke für Ihr Feedback!

Abschnitt 3. Kapitel 1

Fragen Sie AI

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Swipe um das Menü anzuzeigen