PCA-Intuition
Principal Component Analysis (PCA) ist eine leistungsstarke Technik, die neue Achsen identifiziert – sogenannte Hauptkomponenten –, welche die Richtungen in Ihren Daten darstellen, die die meiste Varianz erfassen.
PCA behält die Richtungen bei, in denen Ihre Daten am stärksten variieren, da diese die wichtigsten Muster und Strukturen erfassen.
Stellen Sie sich PCA wie eine Taschenlampe vor, die auf ein 3D-Objekt gerichtet ist, wobei der Schatten an der Wand betrachtet wird. Der Winkel des Lichts verändert die Details des Schattens. PCA findet den besten Winkel, sodass der Schatten oder die projection möglichst viele Informationen über die Form des Objekts preisgibt. Ähnlich projiziert PCA Ihre Daten auf neue Achsen, um möglichst viel Variation zu erhalten.
12345678910111213141516171819202122232425262728293031323334import numpy as np import matplotlib.pyplot as plt # Generate a simple 2D dataset np.random.seed(0) mean = [0, 0] cov = [[3, 2], [2, 2]] # Covariance matrix X = np.random.multivariate_normal(mean, cov, 200) # Compute the mean of the data mean_vector = np.mean(X, axis=0) # Compute the covariance matrix and its eigenvectors cov_matrix = np.cov(X.T) eigenvalues, eigenvectors = np.linalg.eig(cov_matrix) # First principal component (direction of maximum variance) pc1 = eigenvectors[:, np.argmax(eigenvalues)] # Plot the data plt.figure(figsize=(8,6)) plt.scatter(X[:,0], X[:,1], alpha=0.3, label="Data points") plt.quiver( mean_vector[0], mean_vector[1], pc1[0], pc1[1], angles='xy', scale_units='xy', scale=1.5, color='red', width=0.01, label="First principal component" ) plt.xlabel("Feature 1") plt.ylabel("Feature 2") plt.title("Direction of Maximum Variance (First Principal Component)") plt.legend() plt.axis("equal") plt.show()
Durch die Identifizierung der Richtungen, in denen Ihre Daten am stärksten variieren, ermöglicht PCA eine Dimensionsreduktion bei gleichzeitiger Erhaltung der wichtigsten Informationen. Die Konzentration auf diese Richtungen maximaler Varianz stellt sicher, dass die Struktur und Muster in Ihrem Datensatz klar erkennbar bleiben. Dieses Verständnis bereitet Sie darauf vor, die mathematischen Grundlagen von PCA in den kommenden Abschnitten zu erkunden.
Danke für Ihr Feedback!
Fragen Sie AI
Fragen Sie AI
Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen
Awesome!
Completion rate improved to 8.33
PCA-Intuition
Swipe um das Menü anzuzeigen
Principal Component Analysis (PCA) ist eine leistungsstarke Technik, die neue Achsen identifiziert – sogenannte Hauptkomponenten –, welche die Richtungen in Ihren Daten darstellen, die die meiste Varianz erfassen.
PCA behält die Richtungen bei, in denen Ihre Daten am stärksten variieren, da diese die wichtigsten Muster und Strukturen erfassen.
Stellen Sie sich PCA wie eine Taschenlampe vor, die auf ein 3D-Objekt gerichtet ist, wobei der Schatten an der Wand betrachtet wird. Der Winkel des Lichts verändert die Details des Schattens. PCA findet den besten Winkel, sodass der Schatten oder die projection möglichst viele Informationen über die Form des Objekts preisgibt. Ähnlich projiziert PCA Ihre Daten auf neue Achsen, um möglichst viel Variation zu erhalten.
12345678910111213141516171819202122232425262728293031323334import numpy as np import matplotlib.pyplot as plt # Generate a simple 2D dataset np.random.seed(0) mean = [0, 0] cov = [[3, 2], [2, 2]] # Covariance matrix X = np.random.multivariate_normal(mean, cov, 200) # Compute the mean of the data mean_vector = np.mean(X, axis=0) # Compute the covariance matrix and its eigenvectors cov_matrix = np.cov(X.T) eigenvalues, eigenvectors = np.linalg.eig(cov_matrix) # First principal component (direction of maximum variance) pc1 = eigenvectors[:, np.argmax(eigenvalues)] # Plot the data plt.figure(figsize=(8,6)) plt.scatter(X[:,0], X[:,1], alpha=0.3, label="Data points") plt.quiver( mean_vector[0], mean_vector[1], pc1[0], pc1[1], angles='xy', scale_units='xy', scale=1.5, color='red', width=0.01, label="First principal component" ) plt.xlabel("Feature 1") plt.ylabel("Feature 2") plt.title("Direction of Maximum Variance (First Principal Component)") plt.legend() plt.axis("equal") plt.show()
Durch die Identifizierung der Richtungen, in denen Ihre Daten am stärksten variieren, ermöglicht PCA eine Dimensionsreduktion bei gleichzeitiger Erhaltung der wichtigsten Informationen. Die Konzentration auf diese Richtungen maximaler Varianz stellt sicher, dass die Struktur und Muster in Ihrem Datensatz klar erkennbar bleiben. Dieses Verständnis bereitet Sie darauf vor, die mathematischen Grundlagen von PCA in den kommenden Abschnitten zu erkunden.
Danke für Ihr Feedback!