Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lernen Dimensionsreduktion Durch Maximierung Der Varianz | Mathematische Grundlagen der PCA
Dimensionsreduktion mit PCA

bookDimensionsreduktion Durch Maximierung Der Varianz

PCA ordnet die Hauptkomponenten nach der von ihnen erfassten Varianz, gemessen an ihren Eigenwerten. Das Beibehalten der obersten k Komponenten bewahrt die meiste Varianz, da jede Komponente weniger als die vorherige erfasst und orthogonal zu den früheren Komponenten ist. Dies reduziert die Dimensionen, während die informativsten Richtungen in den Daten erhalten bleiben.

Das erklärte Varianzverhältnis für jede Hauptkomponente ist:

Explained Variance Ratio=λijλj\text{Explained Variance Ratio} = \frac{\lambda_i}{\sum_j \lambda_j}

wobei λiλ_i der ii-größte Eigenwert ist. Dieses Verhältnis zeigt, wie viel der Gesamtvarianz in den Daten durch jede Hauptkomponente erfasst wird. Die Summe aller erklärten Varianzverhältnisse ist immer 1, da alle Eigenwerte zusammen die Gesamtvarianz im Datensatz ausmachen.

123456789101112
import numpy as np # Using eigenvalues from previous code X = np.array([[2.5, 2.4], [0.5, 0.7], [2.2, 2.9]]) X_centered = X - np.mean(X, axis=0) cov_matrix = (X_centered.T @ X_centered) / X_centered.shape[0] values, vectors = np.linalg.eig(cov_matrix) explained_variance_ratio = values / np.sum(values) print("Explained variance ratio:", explained_variance_ratio)
copy

Die Auswahl der wichtigsten Hauptkomponenten, sodass ihre erklärten Varianzanteile eine bestimmte Schwelle – beispielsweise 95 % – erreichen, ermöglicht es, die Anzahl der Dimensionen zu reduzieren und dennoch den Großteil der Informationsgehalte der Daten zu bewahren. Das bedeutet, dass nur die Richtungen in den Daten beibehalten werden, in denen die Streuung am größten ist, da diese für die Analyse oder Modellierung am aussagekräftigsten sind. Durch die Konzentration auf diese Komponenten wird der Datensatz vereinfacht, ohne die wichtigsten Muster zu verlieren. Dieses Gleichgewicht zwischen Dimensionalität und Informationsgehalt ist ein zentraler Vorteil der PCA.

question mark

Was stellt das erklärte Varianzverhältnis in der Hauptkomponentenanalyse (PCA) dar?

Select the correct answer

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 2. Kapitel 4

Fragen Sie AI

expand

Fragen Sie AI

ChatGPT

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Suggested prompts:

Can you explain how to choose the optimal number of principal components?

What happens if I keep too few or too many principal components?

Can you show how to calculate the cumulative explained variance?

Awesome!

Completion rate improved to 8.33

bookDimensionsreduktion Durch Maximierung Der Varianz

Swipe um das Menü anzuzeigen

PCA ordnet die Hauptkomponenten nach der von ihnen erfassten Varianz, gemessen an ihren Eigenwerten. Das Beibehalten der obersten k Komponenten bewahrt die meiste Varianz, da jede Komponente weniger als die vorherige erfasst und orthogonal zu den früheren Komponenten ist. Dies reduziert die Dimensionen, während die informativsten Richtungen in den Daten erhalten bleiben.

Das erklärte Varianzverhältnis für jede Hauptkomponente ist:

Explained Variance Ratio=λijλj\text{Explained Variance Ratio} = \frac{\lambda_i}{\sum_j \lambda_j}

wobei λiλ_i der ii-größte Eigenwert ist. Dieses Verhältnis zeigt, wie viel der Gesamtvarianz in den Daten durch jede Hauptkomponente erfasst wird. Die Summe aller erklärten Varianzverhältnisse ist immer 1, da alle Eigenwerte zusammen die Gesamtvarianz im Datensatz ausmachen.

123456789101112
import numpy as np # Using eigenvalues from previous code X = np.array([[2.5, 2.4], [0.5, 0.7], [2.2, 2.9]]) X_centered = X - np.mean(X, axis=0) cov_matrix = (X_centered.T @ X_centered) / X_centered.shape[0] values, vectors = np.linalg.eig(cov_matrix) explained_variance_ratio = values / np.sum(values) print("Explained variance ratio:", explained_variance_ratio)
copy

Die Auswahl der wichtigsten Hauptkomponenten, sodass ihre erklärten Varianzanteile eine bestimmte Schwelle – beispielsweise 95 % – erreichen, ermöglicht es, die Anzahl der Dimensionen zu reduzieren und dennoch den Großteil der Informationsgehalte der Daten zu bewahren. Das bedeutet, dass nur die Richtungen in den Daten beibehalten werden, in denen die Streuung am größten ist, da diese für die Analyse oder Modellierung am aussagekräftigsten sind. Durch die Konzentration auf diese Komponenten wird der Datensatz vereinfacht, ohne die wichtigsten Muster zu verlieren. Dieses Gleichgewicht zwischen Dimensionalität und Informationsgehalt ist ein zentraler Vorteil der PCA.

question mark

Was stellt das erklärte Varianzverhältnis in der Hauptkomponentenanalyse (PCA) dar?

Select the correct answer

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 2. Kapitel 4
some-alt