Dimensionsreduktion Durch Maximierung Der Varianz
PCA ordnet die Hauptkomponenten nach der von ihnen erfassten Varianz, gemessen an ihren Eigenwerten. Das Beibehalten der obersten k Komponenten bewahrt die meiste Varianz, da jede Komponente weniger als die vorherige erfasst und orthogonal zu den früheren Komponenten ist. Dies reduziert die Dimensionen, während die informativsten Richtungen in den Daten erhalten bleiben.
Das erklärte Varianzverhältnis für jede Hauptkomponente ist:
Explained Variance Ratio=∑jλjλiwobei λi der i-größte Eigenwert ist. Dieses Verhältnis zeigt, wie viel der Gesamtvarianz in den Daten durch jede Hauptkomponente erfasst wird. Die Summe aller erklärten Varianzverhältnisse ist immer 1, da alle Eigenwerte zusammen die Gesamtvarianz im Datensatz ausmachen.
123456789101112import numpy as np # Using eigenvalues from previous code X = np.array([[2.5, 2.4], [0.5, 0.7], [2.2, 2.9]]) X_centered = X - np.mean(X, axis=0) cov_matrix = (X_centered.T @ X_centered) / X_centered.shape[0] values, vectors = np.linalg.eig(cov_matrix) explained_variance_ratio = values / np.sum(values) print("Explained variance ratio:", explained_variance_ratio)
Die Auswahl der wichtigsten Hauptkomponenten, sodass ihre erklärten Varianzanteile eine bestimmte Schwelle – beispielsweise 95 % – erreichen, ermöglicht es, die Anzahl der Dimensionen zu reduzieren und dennoch den Großteil der Informationsgehalte der Daten zu bewahren. Das bedeutet, dass nur die Richtungen in den Daten beibehalten werden, in denen die Streuung am größten ist, da diese für die Analyse oder Modellierung am aussagekräftigsten sind. Durch die Konzentration auf diese Komponenten wird der Datensatz vereinfacht, ohne die wichtigsten Muster zu verlieren. Dieses Gleichgewicht zwischen Dimensionalität und Informationsgehalt ist ein zentraler Vorteil der PCA.
Danke für Ihr Feedback!
Fragen Sie AI
Fragen Sie AI
Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen
Can you explain how to choose the optimal number of principal components?
What happens if I keep too few or too many principal components?
Can you show how to calculate the cumulative explained variance?
Awesome!
Completion rate improved to 8.33
Dimensionsreduktion Durch Maximierung Der Varianz
Swipe um das Menü anzuzeigen
PCA ordnet die Hauptkomponenten nach der von ihnen erfassten Varianz, gemessen an ihren Eigenwerten. Das Beibehalten der obersten k Komponenten bewahrt die meiste Varianz, da jede Komponente weniger als die vorherige erfasst und orthogonal zu den früheren Komponenten ist. Dies reduziert die Dimensionen, während die informativsten Richtungen in den Daten erhalten bleiben.
Das erklärte Varianzverhältnis für jede Hauptkomponente ist:
Explained Variance Ratio=∑jλjλiwobei λi der i-größte Eigenwert ist. Dieses Verhältnis zeigt, wie viel der Gesamtvarianz in den Daten durch jede Hauptkomponente erfasst wird. Die Summe aller erklärten Varianzverhältnisse ist immer 1, da alle Eigenwerte zusammen die Gesamtvarianz im Datensatz ausmachen.
123456789101112import numpy as np # Using eigenvalues from previous code X = np.array([[2.5, 2.4], [0.5, 0.7], [2.2, 2.9]]) X_centered = X - np.mean(X, axis=0) cov_matrix = (X_centered.T @ X_centered) / X_centered.shape[0] values, vectors = np.linalg.eig(cov_matrix) explained_variance_ratio = values / np.sum(values) print("Explained variance ratio:", explained_variance_ratio)
Die Auswahl der wichtigsten Hauptkomponenten, sodass ihre erklärten Varianzanteile eine bestimmte Schwelle – beispielsweise 95 % – erreichen, ermöglicht es, die Anzahl der Dimensionen zu reduzieren und dennoch den Großteil der Informationsgehalte der Daten zu bewahren. Das bedeutet, dass nur die Richtungen in den Daten beibehalten werden, in denen die Streuung am größten ist, da diese für die Analyse oder Modellierung am aussagekräftigsten sind. Durch die Konzentration auf diese Komponenten wird der Datensatz vereinfacht, ohne die wichtigsten Muster zu verlieren. Dieses Gleichgewicht zwischen Dimensionalität und Informationsgehalt ist ein zentraler Vorteil der PCA.
Danke für Ihr Feedback!