Lære PCA-intuition | Introduktion til Dimensionalitetsreduktion

Definition

Principal component analysis (PCA) er en kraftfuld teknik, der identificerer nye akser – kaldet hovedkomponenter – som er retninger i dine data, der fanger mest varians.

PCA bevarer de retninger, hvor dine data varierer mest, da disse fanger de vigtigste mønstre og strukturer.

Forestil dig PCA som at lyse med en lommelygte på et 3D-objekt og undersøge skyggen på en væg. Lysets vinkel ændrer skyggens detaljer. PCA finder den bedste vinkel, så skyggen, eller projection, afslører mest muligt om objektets form. På samme måde projicerer PCA dine data på nye akser for at bevare så meget variation som muligt.


              12345678910111213141516171819202122232425262728293031323334
            
import numpy as np
import matplotlib.pyplot as plt

# Generate a simple 2D dataset
np.random.seed(0)
mean = [0, 0]
cov = [[3, 2], [2, 2]]  # Covariance matrix
X = np.random.multivariate_normal(mean, cov, 200)

# Compute the mean of the data
mean_vector = np.mean(X, axis=0)

# Compute the covariance matrix and its eigenvectors
cov_matrix = np.cov(X.T)
eigenvalues, eigenvectors = np.linalg.eig(cov_matrix)

# First principal component (direction of maximum variance)
pc1 = eigenvectors[:, np.argmax(eigenvalues)]

# Plot the data
plt.figure(figsize=(8,6))
plt.scatter(X[:,0], X[:,1], alpha=0.3, label="Data points")
plt.quiver(
    mean_vector[0], mean_vector[1], 
    pc1[0], pc1[1], 
    angles='xy', scale_units='xy', scale=1.5, color='red', width=0.01,
    label="First principal component"
)
plt.xlabel("Feature 1")
plt.ylabel("Feature 2")
plt.title("Direction of Maximum Variance (First Principal Component)")
plt.legend()
plt.axis("equal")
plt.show()

Ved at identificere de retninger, hvor dine data varierer mest, gør PCA det muligt at reducere dimensioner, samtidig med at den vigtigste information bevares. Fokus på disse retninger med maksimal varians sikrer, at struktur og mønstre i datasættet forbliver tydelige. Denne forståelse forbereder dig på at udforske det matematiske grundlag for PCA i de kommende afsnit.

Var alt klart?

Tak for dine kommentarer!

Sektion 1. Kapitel 4

Spørg AI

Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat