Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Impara Riduzione delle Dimensioni Massimizzando la Varianza | Fondamenti Matematici della PCA
Riduzione della Dimensionalità con PCA

bookRiduzione delle Dimensioni Massimizzando la Varianza

PCA classifica le componenti principali in base alla varianza che catturano, misurata tramite i loro autovalori. Mantenere le prime k componenti preserva la maggior parte della varianza, poiché ogni componente cattura meno della precedente ed è ortogonale alle componenti precedenti. Questo riduce le dimensioni mantenendo le direzioni più informative nei dati.

Il rapporto di varianza spiegata per ciascuna componente principale è:

Explained Variance Ratio=λijλj\text{Explained Variance Ratio} = \frac{\lambda_i}{\sum_j \lambda_j}

dove λiλ_i è il ii-esimo autovalore più grande. Questo rapporto indica quanta parte della varianza totale nei dati viene catturata da ciascuna componente principale. La somma di tutti i rapporti di varianza spiegata è sempre 1, poiché tutti gli autovalori insieme rappresentano la varianza totale del dataset.

123456789101112
import numpy as np # Using eigenvalues from previous code X = np.array([[2.5, 2.4], [0.5, 0.7], [2.2, 2.9]]) X_centered = X - np.mean(X, axis=0) cov_matrix = (X_centered.T @ X_centered) / X_centered.shape[0] values, vectors = np.linalg.eig(cov_matrix) explained_variance_ratio = values / np.sum(values) print("Explained variance ratio:", explained_variance_ratio)
copy

Selezionare le principali componenti in modo che la somma dei loro rapporti di varianza spiegata raggiunga una soglia specifica - come il 95% - consente di ridurre il numero di dimensioni mantenendo la maggior parte delle informazioni dei dati. Questo significa conservare solo le direzioni nei dati in cui la dispersione è maggiore, che sono le più informative per l'analisi o la modellizzazione. Concentrandosi su queste componenti, si semplifica il dataset senza perdere i pattern più rilevanti. Questo equilibrio tra dimensionalità e informazione è un vantaggio fondamentale della PCA.

question mark

Cosa rappresenta il rapporto di varianza spiegata nell'analisi delle componenti principali (PCA)?

Select the correct answer

Tutto è chiaro?

Come possiamo migliorarlo?

Grazie per i tuoi commenti!

Sezione 2. Capitolo 4

Chieda ad AI

expand

Chieda ad AI

ChatGPT

Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione

Suggested prompts:

Can you explain how to choose the optimal number of principal components?

What happens if I keep too few or too many principal components?

Can you show how to calculate the cumulative explained variance?

Awesome!

Completion rate improved to 8.33

bookRiduzione delle Dimensioni Massimizzando la Varianza

Scorri per mostrare il menu

PCA classifica le componenti principali in base alla varianza che catturano, misurata tramite i loro autovalori. Mantenere le prime k componenti preserva la maggior parte della varianza, poiché ogni componente cattura meno della precedente ed è ortogonale alle componenti precedenti. Questo riduce le dimensioni mantenendo le direzioni più informative nei dati.

Il rapporto di varianza spiegata per ciascuna componente principale è:

Explained Variance Ratio=λijλj\text{Explained Variance Ratio} = \frac{\lambda_i}{\sum_j \lambda_j}

dove λiλ_i è il ii-esimo autovalore più grande. Questo rapporto indica quanta parte della varianza totale nei dati viene catturata da ciascuna componente principale. La somma di tutti i rapporti di varianza spiegata è sempre 1, poiché tutti gli autovalori insieme rappresentano la varianza totale del dataset.

123456789101112
import numpy as np # Using eigenvalues from previous code X = np.array([[2.5, 2.4], [0.5, 0.7], [2.2, 2.9]]) X_centered = X - np.mean(X, axis=0) cov_matrix = (X_centered.T @ X_centered) / X_centered.shape[0] values, vectors = np.linalg.eig(cov_matrix) explained_variance_ratio = values / np.sum(values) print("Explained variance ratio:", explained_variance_ratio)
copy

Selezionare le principali componenti in modo che la somma dei loro rapporti di varianza spiegata raggiunga una soglia specifica - come il 95% - consente di ridurre il numero di dimensioni mantenendo la maggior parte delle informazioni dei dati. Questo significa conservare solo le direzioni nei dati in cui la dispersione è maggiore, che sono le più informative per l'analisi o la modellizzazione. Concentrandosi su queste componenti, si semplifica il dataset senza perdere i pattern più rilevanti. Questo equilibrio tra dimensionalità e informazione è un vantaggio fondamentale della PCA.

question mark

Cosa rappresenta il rapporto di varianza spiegata nell'analisi delle componenti principali (PCA)?

Select the correct answer

Tutto è chiaro?

Come possiamo migliorarlo?

Grazie per i tuoi commenti!

Sezione 2. Capitolo 4
some-alt