Impara Riduzione delle Dimensioni Massimizzando la Varianza

PCA classifica le componenti principali in base alla varianza che catturano, misurata tramite i loro autovalori. Mantenere le prime k componenti preserva la maggior parte della varianza, poiché ogni componente cattura meno della precedente ed è ortogonale alle componenti precedenti. Questo riduce le dimensioni mantenendo le direzioni più informative nei dati.

Il rapporto di varianza spiegata per ciascuna componente principale è:

\text{Explained Variance Ratio} = \frac{\lambda_i}{\sum_j \lambda_j}

dove $λ_i$ è il $i$ -esimo autovalore più grande. Questo rapporto indica quanta parte della varianza totale nei dati viene catturata da ciascuna componente principale. La somma di tutti i rapporti di varianza spiegata è sempre 1, poiché tutti gli autovalori insieme rappresentano la varianza totale del dataset.


              123456789101112
            
import numpy as np

# Using eigenvalues from previous code
X = np.array([[2.5, 2.4],
              [0.5, 0.7],
              [2.2, 2.9]])
X_centered = X - np.mean(X, axis=0)
cov_matrix = (X_centered.T @ X_centered) / X_centered.shape[0]
values, vectors = np.linalg.eig(cov_matrix)

explained_variance_ratio = values / np.sum(values)
print("Explained variance ratio:", explained_variance_ratio)

Selezionare le principali componenti in modo che la somma dei loro rapporti di varianza spiegata raggiunga una soglia specifica - come il 95% - consente di ridurre il numero di dimensioni mantenendo la maggior parte delle informazioni dei dati. Questo significa conservare solo le direzioni nei dati in cui la dispersione è maggiore, che sono le più informative per l'analisi o la modellizzazione. Concentrandosi su queste componenti, si semplifica il dataset senza perdere i pattern più rilevanti. Questo equilibrio tra dimensionalità e informazione è un vantaggio fondamentale della PCA.

Tutto è chiaro?

Grazie per i tuoi commenti!

Sezione 2. Capitolo 4

Chieda ad AI

Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione

Suggested prompts:

Can you explain how to choose the optimal number of principal components?

What happens if I keep too few or too many principal components?

Can you show how to calculate the cumulative explained variance?

Scorri per mostrare il menu

Il rapporto di varianza spiegata per ciascuna componente principale è:

\text{Explained Variance Ratio} = \frac{\lambda_i}{\sum_j \lambda_j}


              123456789101112
            
import numpy as np

# Using eigenvalues from previous code
X = np.array([[2.5, 2.4],
              [0.5, 0.7],
              [2.2, 2.9]])
X_centered = X - np.mean(X, axis=0)
cov_matrix = (X_centered.T @ X_centered) / X_centered.shape[0]
values, vectors = np.linalg.eig(cov_matrix)

explained_variance_ratio = values / np.sum(values)
print("Explained variance ratio:", explained_variance_ratio)

Tutto è chiaro?

Grazie per i tuoi commenti!

Sezione 2. Capitolo 4