Reduktion af Dimensioner ved Maksimering af Varians
PCA rangerer hovedkomponenter efter den varians, de fanger, målt ved deres egenværdier. Ved at beholde de øverste k komponenter bevares mest mulig varians, da hver komponent fanger mindre end den forrige og er ortogonal til tidligere komponenter. Dette reducerer dimensionerne, mens de mest informative retninger i dine data bevares.
Forklaret variansforhold for hver hovedkomponent er:
Explained Variance Ratio=∑jλjλihvor λi er den i-største egenværdi. Dette forhold viser, hvor meget af den samlede varians i dine data, der fanges af hver hovedkomponent. Summen af alle forklarede variansforhold er altid 1, da alle egenværdier tilsammen udgør den totale varians i datasættet.
123456789101112import numpy as np # Using eigenvalues from previous code X = np.array([[2.5, 2.4], [0.5, 0.7], [2.2, 2.9]]) X_centered = X - np.mean(X, axis=0) cov_matrix = (X_centered.T @ X_centered) / X_centered.shape[0] values, vectors = np.linalg.eig(cov_matrix) explained_variance_ratio = values / np.sum(values) print("Explained variance ratio:", explained_variance_ratio)
Udvælgelse af de øverste hovedkomponenter, så deres forklaringsgrader tilsammen når en bestemt tærskel – for eksempel 95% – gør det muligt at reducere antallet af dimensioner, mens størstedelen af informationen i data bevares. Dette betyder, at du kun beholder de retninger i dine data, hvor spredningen er størst, hvilket er de mest informative for analyse eller modellering. Ved at fokusere på disse komponenter forenkler du dit datasæt uden at miste de vigtigste mønstre. Denne balance mellem dimensionalitet og information er en central fordel ved PCA.
Tak for dine kommentarer!
Spørg AI
Spørg AI
Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat
Awesome!
Completion rate improved to 8.33
Reduktion af Dimensioner ved Maksimering af Varians
Stryg for at vise menuen
PCA rangerer hovedkomponenter efter den varians, de fanger, målt ved deres egenværdier. Ved at beholde de øverste k komponenter bevares mest mulig varians, da hver komponent fanger mindre end den forrige og er ortogonal til tidligere komponenter. Dette reducerer dimensionerne, mens de mest informative retninger i dine data bevares.
Forklaret variansforhold for hver hovedkomponent er:
Explained Variance Ratio=∑jλjλihvor λi er den i-største egenværdi. Dette forhold viser, hvor meget af den samlede varians i dine data, der fanges af hver hovedkomponent. Summen af alle forklarede variansforhold er altid 1, da alle egenværdier tilsammen udgør den totale varians i datasættet.
123456789101112import numpy as np # Using eigenvalues from previous code X = np.array([[2.5, 2.4], [0.5, 0.7], [2.2, 2.9]]) X_centered = X - np.mean(X, axis=0) cov_matrix = (X_centered.T @ X_centered) / X_centered.shape[0] values, vectors = np.linalg.eig(cov_matrix) explained_variance_ratio = values / np.sum(values) print("Explained variance ratio:", explained_variance_ratio)
Udvælgelse af de øverste hovedkomponenter, så deres forklaringsgrader tilsammen når en bestemt tærskel – for eksempel 95% – gør det muligt at reducere antallet af dimensioner, mens størstedelen af informationen i data bevares. Dette betyder, at du kun beholder de retninger i dine data, hvor spredningen er størst, hvilket er de mest informative for analyse eller modellering. Ved at fokusere på disse komponenter forenkler du dit datasæt uden at miste de vigtigste mønstre. Denne balance mellem dimensionalitet og information er en central fordel ved PCA.
Tak for dine kommentarer!