Redusere Dimensjoner ved å Maksimere Varians
PCA rangerer hovedkomponenter etter variansen de fanger opp, målt ved deres egenverdier. Ved å beholde de øverste k komponentene bevares mest mulig varians, ettersom hver komponent fanger opp mindre enn den forrige og er ortogonal til tidligere komponenter. Dette reduserer dimensjonene samtidig som de mest informative retningene i dataene beholdes.
Forklart variansforhold for hver hovedkomponent er:
Explained Variance Ratio=∑jλjλihvor λi er den i-te største egenverdien. Dette forholdet viser hvor mye av den totale variansen i dataene som fanges opp av hver hovedkomponent. Summen av alle forklarte variansforhold er alltid 1, siden alle egenverdiene til sammen utgjør totalvariansen i datasettet.
123456789101112import numpy as np # Using eigenvalues from previous code X = np.array([[2.5, 2.4], [0.5, 0.7], [2.2, 2.9]]) X_centered = X - np.mean(X, axis=0) cov_matrix = (X_centered.T @ X_centered) / X_centered.shape[0] values, vectors = np.linalg.eig(cov_matrix) explained_variance_ratio = values / np.sum(values) print("Explained variance ratio:", explained_variance_ratio)
Ved å velge de øverste hovedkomponentene slik at deres forklarte variansforhold summerer seg til en bestemt terskel – for eksempel 95 % – kan du redusere antall dimensjoner samtidig som du beholder mesteparten av informasjonen i dataene. Dette betyr at du kun beholder retningene i dataene der spredningen er størst, som er de mest informative for analyse eller modellering. Ved å fokusere på disse komponentene forenkler du datasettet uten å miste de viktigste mønstrene. Denne balansen mellom dimensjonalitet og informasjon er en sentral fordel med PCA.
Takk for tilbakemeldingene dine!
Spør AI
Spør AI
Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår
Awesome!
Completion rate improved to 8.33
Redusere Dimensjoner ved å Maksimere Varians
Sveip for å vise menyen
PCA rangerer hovedkomponenter etter variansen de fanger opp, målt ved deres egenverdier. Ved å beholde de øverste k komponentene bevares mest mulig varians, ettersom hver komponent fanger opp mindre enn den forrige og er ortogonal til tidligere komponenter. Dette reduserer dimensjonene samtidig som de mest informative retningene i dataene beholdes.
Forklart variansforhold for hver hovedkomponent er:
Explained Variance Ratio=∑jλjλihvor λi er den i-te største egenverdien. Dette forholdet viser hvor mye av den totale variansen i dataene som fanges opp av hver hovedkomponent. Summen av alle forklarte variansforhold er alltid 1, siden alle egenverdiene til sammen utgjør totalvariansen i datasettet.
123456789101112import numpy as np # Using eigenvalues from previous code X = np.array([[2.5, 2.4], [0.5, 0.7], [2.2, 2.9]]) X_centered = X - np.mean(X, axis=0) cov_matrix = (X_centered.T @ X_centered) / X_centered.shape[0] values, vectors = np.linalg.eig(cov_matrix) explained_variance_ratio = values / np.sum(values) print("Explained variance ratio:", explained_variance_ratio)
Ved å velge de øverste hovedkomponentene slik at deres forklarte variansforhold summerer seg til en bestemt terskel – for eksempel 95 % – kan du redusere antall dimensjoner samtidig som du beholder mesteparten av informasjonen i dataene. Dette betyr at du kun beholder retningene i dataene der spredningen er størst, som er de mest informative for analyse eller modellering. Ved å fokusere på disse komponentene forenkler du datasettet uten å miste de viktigste mønstrene. Denne balansen mellom dimensjonalitet og informasjon er en sentral fordel med PCA.
Takk for tilbakemeldingene dine!