Lernen PCA-Intuition | Einführung in die Dimensionsreduktion

Definition

Principal Component Analysis (PCA) ist eine leistungsstarke Technik, die neue Achsen identifiziert – sogenannte Hauptkomponenten –, welche die Richtungen in Ihren Daten darstellen, die die meiste Varianz erfassen.

PCA behält die Richtungen bei, in denen Ihre Daten am stärksten variieren, da diese die wichtigsten Muster und Strukturen erfassen.

Stellen Sie sich PCA wie eine Taschenlampe vor, die auf ein 3D-Objekt gerichtet ist, wobei der Schatten an der Wand betrachtet wird. Der Winkel des Lichts verändert die Details des Schattens. PCA findet den besten Winkel, sodass der Schatten oder die projection möglichst viele Informationen über die Form des Objekts preisgibt. Ähnlich projiziert PCA Ihre Daten auf neue Achsen, um möglichst viel Variation zu erhalten.


              12345678910111213141516171819202122232425262728293031323334
            
import numpy as np
import matplotlib.pyplot as plt

# Generate a simple 2D dataset
np.random.seed(0)
mean = [0, 0]
cov = [[3, 2], [2, 2]]  # Covariance matrix
X = np.random.multivariate_normal(mean, cov, 200)

# Compute the mean of the data
mean_vector = np.mean(X, axis=0)

# Compute the covariance matrix and its eigenvectors
cov_matrix = np.cov(X.T)
eigenvalues, eigenvectors = np.linalg.eig(cov_matrix)

# First principal component (direction of maximum variance)
pc1 = eigenvectors[:, np.argmax(eigenvalues)]

# Plot the data
plt.figure(figsize=(8,6))
plt.scatter(X[:,0], X[:,1], alpha=0.3, label="Data points")
plt.quiver(
    mean_vector[0], mean_vector[1], 
    pc1[0], pc1[1], 
    angles='xy', scale_units='xy', scale=1.5, color='red', width=0.01,
    label="First principal component"
)
plt.xlabel("Feature 1")
plt.ylabel("Feature 2")
plt.title("Direction of Maximum Variance (First Principal Component)")
plt.legend()
plt.axis("equal")
plt.show()

Durch die Identifizierung der Richtungen, in denen Ihre Daten am stärksten variieren, ermöglicht PCA eine Dimensionsreduktion bei gleichzeitiger Erhaltung der wichtigsten Informationen. Die Konzentration auf diese Richtungen maximaler Varianz stellt sicher, dass die Struktur und Muster in Ihrem Datensatz klar erkennbar bleiben. Dieses Verständnis bereitet Sie darauf vor, die mathematischen Grundlagen von PCA in den kommenden Abschnitten zu erkunden.

War alles klar?

Danke für Ihr Feedback!

Abschnitt 1. Kapitel 4

Fragen Sie AI

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Suggested prompts:

Can you explain how the principal components are calculated in PCA?

What does the red arrow in the plot represent?

How does PCA help with dimensionality reduction?

Swipe um das Menü anzuzeigen

Definition

PCA behält die Richtungen bei, in denen Ihre Daten am stärksten variieren, da diese die wichtigsten Muster und Strukturen erfassen.


              12345678910111213141516171819202122232425262728293031323334
            
import numpy as np
import matplotlib.pyplot as plt

# Generate a simple 2D dataset
np.random.seed(0)
mean = [0, 0]
cov = [[3, 2], [2, 2]]  # Covariance matrix
X = np.random.multivariate_normal(mean, cov, 200)

# Compute the mean of the data
mean_vector = np.mean(X, axis=0)

# Compute the covariance matrix and its eigenvectors
cov_matrix = np.cov(X.T)
eigenvalues, eigenvectors = np.linalg.eig(cov_matrix)

# First principal component (direction of maximum variance)
pc1 = eigenvectors[:, np.argmax(eigenvalues)]

# Plot the data
plt.figure(figsize=(8,6))
plt.scatter(X[:,0], X[:,1], alpha=0.3, label="Data points")
plt.quiver(
    mean_vector[0], mean_vector[1], 
    pc1[0], pc1[1], 
    angles='xy', scale_units='xy', scale=1.5, color='red', width=0.01,
    label="First principal component"
)
plt.xlabel("Feature 1")
plt.ylabel("Feature 2")
plt.title("Direction of Maximum Variance (First Principal Component)")
plt.legend()
plt.axis("equal")
plt.show()

War alles klar?

Danke für Ihr Feedback!

Abschnitt 1. Kapitel 4