Lära PCA-intuitionen | Introduktion till Dimensionsreduktion

Definition

Principal component analysis (PCA) är en kraftfull teknik som identifierar nya axlar – kallade huvudkomponenter – vilka är riktningar i dina data som fångar mest varians.

PCA behåller de riktningar där dina data varierar mest, eftersom dessa fångar de viktigaste mönstren och strukturerna.

Tänk på PCA som att lysa med en ficklampa på ett 3D-objekt och undersöka skuggan på en vägg. Ljuskällans vinkel förändrar skuggans detaljer. PCA hittar den bästa vinkeln så att skuggan, eller projection, avslöjar mest om objektets form. På liknande sätt projicerar PCA dina data på nya axlar för att bevara så mycket variation som möjligt.


              12345678910111213141516171819202122232425262728293031323334
            
import numpy as np
import matplotlib.pyplot as plt

# Generate a simple 2D dataset
np.random.seed(0)
mean = [0, 0]
cov = [[3, 2], [2, 2]]  # Covariance matrix
X = np.random.multivariate_normal(mean, cov, 200)

# Compute the mean of the data
mean_vector = np.mean(X, axis=0)

# Compute the covariance matrix and its eigenvectors
cov_matrix = np.cov(X.T)
eigenvalues, eigenvectors = np.linalg.eig(cov_matrix)

# First principal component (direction of maximum variance)
pc1 = eigenvectors[:, np.argmax(eigenvalues)]

# Plot the data
plt.figure(figsize=(8,6))
plt.scatter(X[:,0], X[:,1], alpha=0.3, label="Data points")
plt.quiver(
    mean_vector[0], mean_vector[1], 
    pc1[0], pc1[1], 
    angles='xy', scale_units='xy', scale=1.5, color='red', width=0.01,
    label="First principal component"
)
plt.xlabel("Feature 1")
plt.ylabel("Feature 2")
plt.title("Direction of Maximum Variance (First Principal Component)")
plt.legend()
plt.axis("equal")
plt.show()

Genom att identifiera de riktningar där dina data varierar mest möjliggör PCA dimensionsreduktion samtidigt som den viktigaste informationen bevaras. Fokusering på dessa riktningar med maximal varians säkerställer att strukturen och mönstren i din datamängd förblir tydliga. Denna förståelse förbereder dig för att utforska den matematiska grunden för PCA i kommande avsnitt.

Var allt tydligt?

Tack för dina kommentarer!

Avsnitt 1. Kapitel 4

Fråga AI

Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal

Suggested prompts:

Can you explain how the principal components are calculated in PCA?

What does the red arrow in the plot represent?

How does PCA help with dimensionality reduction?