Impara Derivazione della PCA Tramite Algebra Lineare

La PCA cerca un nuovo insieme di assi, chiamati componenti principali, tali che i dati proiettati abbiano varianza massima. Il primo componente principale, indicato come $w_{\raisebox{-0.5pt}{$1$}}$ , viene scelto per massimizzare la varianza dei dati proiettati:

\mathrm{Var}(X w_1)

Soggetto al vincolo che $\|w_{\raisebox{-0.5pt}{$1$}}\| = 1$ . La soluzione a questo problema di massimizzazione è il vettore proprio della matrice di covarianza corrispondente al più grande autovalore.

Il problema di ottimizzazione è:

\max_{w} \ w^T \Sigma w \quad \text{subject to} \quad \|w\| = 1

La soluzione è qualsiasi vettore $w$ che soddisfa $\Sigma w = \lambda w$ , dove $\lambda$ è il corrispondente autovalore. In altre parole, $w$ è un vettore proprio della matrice di covarianza $\Sigma$ associato all'autovalore $\lambda$ .


              12345678910111213
            
import numpy as np

# Assume cov_matrix from earlier
X = np.array([[2.5, 2.4],
              [0.5, 0.7],
              [2.2, 2.9]])
X_centered = X - np.mean(X, axis=0)
cov_matrix = (X_centered.T @ X_centered) / X_centered.shape[0]

# Find the principal component (eigenvector with largest eigenvalue)
values, vectors = np.linalg.eig(cov_matrix)
principal_component = vectors[:, np.argmax(values)]
print("First principal component:", principal_component)

Questo componente principale è la direzione lungo la quale i dati presentano la massima varianza. Proiettare i dati su questa direzione fornisce la rappresentazione monodimensionale più informativa del dataset originale.

Tutto è chiaro?

Grazie per i tuoi commenti!

Sezione 2. Capitolo 3

Chieda ad AI

Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione

Suggested prompts:

Can you explain why the principal component is important in PCA?

How do I interpret the values of the principal component?

What does projecting data onto the principal component mean?

Scorri per mostrare il menu

\mathrm{Var}(X w_1)

Il problema di ottimizzazione è:

\max_{w} \ w^T \Sigma w \quad \text{subject to} \quad \|w\| = 1


              12345678910111213
            
import numpy as np

# Assume cov_matrix from earlier
X = np.array([[2.5, 2.4],
              [0.5, 0.7],
              [2.2, 2.9]])
X_centered = X - np.mean(X, axis=0)
cov_matrix = (X_centered.T @ X_centered) / X_centered.shape[0]

# Find the principal component (eigenvector with largest eigenvalue)
values, vectors = np.linalg.eig(cov_matrix)
principal_component = vectors[:, np.argmax(values)]
print("First principal component:", principal_component)

Tutto è chiaro?

Grazie per i tuoi commenti!

Sezione 2. Capitolo 3