Lære Redusere Dimensjoner ved å Maksimere Varians

PCA rangerer hovedkomponenter etter variansen de fanger opp, målt ved deres egenverdier. Ved å beholde de øverste k komponentene bevares mest mulig varians, ettersom hver komponent fanger opp mindre enn den forrige og er ortogonal til tidligere komponenter. Dette reduserer dimensjonene samtidig som de mest informative retningene i dataene beholdes.

Forklart variansforhold for hver hovedkomponent er:

\text{Explained Variance Ratio} = \frac{\lambda_i}{\sum_j \lambda_j}

hvor $λ_i$ er den $i$ -te største egenverdien. Dette forholdet viser hvor mye av den totale variansen i dataene som fanges opp av hver hovedkomponent. Summen av alle forklarte variansforhold er alltid 1, siden alle egenverdiene til sammen utgjør totalvariansen i datasettet.


              123456789101112
            
import numpy as np

# Using eigenvalues from previous code
X = np.array([[2.5, 2.4],
              [0.5, 0.7],
              [2.2, 2.9]])
X_centered = X - np.mean(X, axis=0)
cov_matrix = (X_centered.T @ X_centered) / X_centered.shape[0]
values, vectors = np.linalg.eig(cov_matrix)

explained_variance_ratio = values / np.sum(values)
print("Explained variance ratio:", explained_variance_ratio)

Ved å velge de øverste hovedkomponentene slik at deres forklarte variansforhold summerer seg til en bestemt terskel – for eksempel 95 % – kan du redusere antall dimensjoner samtidig som du beholder mesteparten av informasjonen i dataene. Dette betyr at du kun beholder retningene i dataene der spredningen er størst, som er de mest informative for analyse eller modellering. Ved å fokusere på disse komponentene forenkler du datasettet uten å miste de viktigste mønstrene. Denne balansen mellom dimensjonalitet og informasjon er en sentral fordel med PCA.

Alt var klart?

Takk for tilbakemeldingene dine!

Seksjon 2. Kapittel 4

Spør AI

Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår

Sveip for å vise menyen

Forklart variansforhold for hver hovedkomponent er:

\text{Explained Variance Ratio} = \frac{\lambda_i}{\sum_j \lambda_j}


              123456789101112
            
import numpy as np

# Using eigenvalues from previous code
X = np.array([[2.5, 2.4],
              [0.5, 0.7],
              [2.2, 2.9]])
X_centered = X - np.mean(X, axis=0)
cov_matrix = (X_centered.T @ X_centered) / X_centered.shape[0]
values, vectors = np.linalg.eig(cov_matrix)

explained_variance_ratio = values / np.sum(values)
print("Explained variance ratio:", explained_variance_ratio)

Alt var klart?

Takk for tilbakemeldingene dine!

Seksjon 2. Kapittel 4