Riduzione delle Dimensioni Massimizzando la Varianza
PCA classifica le componenti principali in base alla varianza che catturano, misurata tramite i loro autovalori. Mantenere le prime k componenti preserva la maggior parte della varianza, poiché ogni componente cattura meno della precedente ed è ortogonale alle componenti precedenti. Questo riduce le dimensioni mantenendo le direzioni più informative nei dati.
Il rapporto di varianza spiegata per ciascuna componente principale è:
Explained Variance Ratio=∑jλjλidove λi è il i-esimo autovalore più grande. Questo rapporto indica quanta parte della varianza totale nei dati viene catturata da ciascuna componente principale. La somma di tutti i rapporti di varianza spiegata è sempre 1, poiché tutti gli autovalori insieme rappresentano la varianza totale del dataset.
123456789101112import numpy as np # Using eigenvalues from previous code X = np.array([[2.5, 2.4], [0.5, 0.7], [2.2, 2.9]]) X_centered = X - np.mean(X, axis=0) cov_matrix = (X_centered.T @ X_centered) / X_centered.shape[0] values, vectors = np.linalg.eig(cov_matrix) explained_variance_ratio = values / np.sum(values) print("Explained variance ratio:", explained_variance_ratio)
Selezionare le principali componenti in modo che la somma dei loro rapporti di varianza spiegata raggiunga una soglia specifica - come il 95% - consente di ridurre il numero di dimensioni mantenendo la maggior parte delle informazioni dei dati. Questo significa conservare solo le direzioni nei dati in cui la dispersione è maggiore, che sono le più informative per l'analisi o la modellizzazione. Concentrandosi su queste componenti, si semplifica il dataset senza perdere i pattern più rilevanti. Questo equilibrio tra dimensionalità e informazione è un vantaggio fondamentale della PCA.
Grazie per i tuoi commenti!
Chieda ad AI
Chieda ad AI
Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione
Can you explain how to choose the optimal number of principal components?
What happens if I keep too few or too many principal components?
Can you show how to calculate the cumulative explained variance?
Awesome!
Completion rate improved to 8.33
Riduzione delle Dimensioni Massimizzando la Varianza
Scorri per mostrare il menu
PCA classifica le componenti principali in base alla varianza che catturano, misurata tramite i loro autovalori. Mantenere le prime k componenti preserva la maggior parte della varianza, poiché ogni componente cattura meno della precedente ed è ortogonale alle componenti precedenti. Questo riduce le dimensioni mantenendo le direzioni più informative nei dati.
Il rapporto di varianza spiegata per ciascuna componente principale è:
Explained Variance Ratio=∑jλjλidove λi è il i-esimo autovalore più grande. Questo rapporto indica quanta parte della varianza totale nei dati viene catturata da ciascuna componente principale. La somma di tutti i rapporti di varianza spiegata è sempre 1, poiché tutti gli autovalori insieme rappresentano la varianza totale del dataset.
123456789101112import numpy as np # Using eigenvalues from previous code X = np.array([[2.5, 2.4], [0.5, 0.7], [2.2, 2.9]]) X_centered = X - np.mean(X, axis=0) cov_matrix = (X_centered.T @ X_centered) / X_centered.shape[0] values, vectors = np.linalg.eig(cov_matrix) explained_variance_ratio = values / np.sum(values) print("Explained variance ratio:", explained_variance_ratio)
Selezionare le principali componenti in modo che la somma dei loro rapporti di varianza spiegata raggiunga una soglia specifica - come il 95% - consente di ridurre il numero di dimensioni mantenendo la maggior parte delle informazioni dei dati. Questo significa conservare solo le direzioni nei dati in cui la dispersione è maggiore, che sono le più informative per l'analisi o la modellizzazione. Concentrandosi su queste componenti, si semplifica il dataset senza perdere i pattern più rilevanti. Questo equilibrio tra dimensionalità e informazione è un vantaggio fondamentale della PCA.
Grazie per i tuoi commenti!