Lære Intuisjon Bak PCA | Introduksjon til Dimensjonsreduksjon

Definisjon

Principal component analysis (PCA) er en kraftig teknikk som identifiserer nye akser – kalt hovedkomponenter – som er retninger i dataene dine som fanger opp mest varians.

PCA beholder retningene der dataene dine varierer mest, da disse fanger opp de viktigste mønstrene og strukturen.

Tenk på PCA som å lyse med en lommelykt på et 3D-objekt og undersøke skyggen på en vegg. Vinkelen på lyset endrer detaljene i skyggen. PCA finner den beste vinkelen slik at skyggen, eller projection, avslører mest mulig om objektets form. På samme måte projiserer PCA dataene dine på nye akser for å bevare mest mulig variasjon.


              12345678910111213141516171819202122232425262728293031323334
            
import numpy as np
import matplotlib.pyplot as plt

# Generate a simple 2D dataset
np.random.seed(0)
mean = [0, 0]
cov = [[3, 2], [2, 2]]  # Covariance matrix
X = np.random.multivariate_normal(mean, cov, 200)

# Compute the mean of the data
mean_vector = np.mean(X, axis=0)

# Compute the covariance matrix and its eigenvectors
cov_matrix = np.cov(X.T)
eigenvalues, eigenvectors = np.linalg.eig(cov_matrix)

# First principal component (direction of maximum variance)
pc1 = eigenvectors[:, np.argmax(eigenvalues)]

# Plot the data
plt.figure(figsize=(8,6))
plt.scatter(X[:,0], X[:,1], alpha=0.3, label="Data points")
plt.quiver(
    mean_vector[0], mean_vector[1], 
    pc1[0], pc1[1], 
    angles='xy', scale_units='xy', scale=1.5, color='red', width=0.01,
    label="First principal component"
)
plt.xlabel("Feature 1")
plt.ylabel("Feature 2")
plt.title("Direction of Maximum Variance (First Principal Component)")
plt.legend()
plt.axis("equal")
plt.show()

Ved å identifisere retningene der dataene dine varierer mest, gjør PCA det mulig å redusere dimensjoner samtidig som den viktigste informasjonen bevares. Fokuset på disse retningene med maksimal variasjon sikrer at strukturen og mønstrene i datasettet forblir tydelige. Denne forståelsen forbereder deg på å utforske det matematiske grunnlaget for PCA i de kommende seksjonene.

Alt var klart?

Takk for tilbakemeldingene dine!

Seksjon 1. Kapittel 4

Spør AI

Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår

Suggested prompts:

Can you explain how the principal components are calculated in PCA?

What does the red arrow in the plot represent?

How does PCA help with dimensionality reduction?