Lernen Dimensionsreduktion Durch Maximierung Der Varianz

PCA ordnet die Hauptkomponenten nach der von ihnen erfassten Varianz, gemessen an ihren Eigenwerten. Das Beibehalten der obersten k Komponenten bewahrt die meiste Varianz, da jede Komponente weniger als die vorherige erfasst und orthogonal zu den früheren Komponenten ist. Dies reduziert die Dimensionen, während die informativsten Richtungen in den Daten erhalten bleiben.

Das erklärte Varianzverhältnis für jede Hauptkomponente ist:

\text{Explained Variance Ratio} = \frac{\lambda_i}{\sum_j \lambda_j}

wobei $λ_i$ der $i$ -größte Eigenwert ist. Dieses Verhältnis zeigt, wie viel der Gesamtvarianz in den Daten durch jede Hauptkomponente erfasst wird. Die Summe aller erklärten Varianzverhältnisse ist immer 1, da alle Eigenwerte zusammen die Gesamtvarianz im Datensatz ausmachen.


              123456789101112
            
import numpy as np

# Using eigenvalues from previous code
X = np.array([[2.5, 2.4],
              [0.5, 0.7],
              [2.2, 2.9]])
X_centered = X - np.mean(X, axis=0)
cov_matrix = (X_centered.T @ X_centered) / X_centered.shape[0]
values, vectors = np.linalg.eig(cov_matrix)

explained_variance_ratio = values / np.sum(values)
print("Explained variance ratio:", explained_variance_ratio)

Die Auswahl der wichtigsten Hauptkomponenten, sodass ihre erklärten Varianzanteile eine bestimmte Schwelle – beispielsweise 95 % – erreichen, ermöglicht es, die Anzahl der Dimensionen zu reduzieren und dennoch den Großteil der Informationsgehalte der Daten zu bewahren. Das bedeutet, dass nur die Richtungen in den Daten beibehalten werden, in denen die Streuung am größten ist, da diese für die Analyse oder Modellierung am aussagekräftigsten sind. Durch die Konzentration auf diese Komponenten wird der Datensatz vereinfacht, ohne die wichtigsten Muster zu verlieren. Dieses Gleichgewicht zwischen Dimensionalität und Informationsgehalt ist ein zentraler Vorteil der PCA.

War alles klar?

Danke für Ihr Feedback!

Abschnitt 2. Kapitel 4

Fragen Sie AI

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Suggested prompts:

Can you explain how to choose the optimal number of principal components?

What happens if I keep too few or too many principal components?

Can you show how to calculate the cumulative explained variance?

Swipe um das Menü anzuzeigen

Das erklärte Varianzverhältnis für jede Hauptkomponente ist:

\text{Explained Variance Ratio} = \frac{\lambda_i}{\sum_j \lambda_j}


              123456789101112
            
import numpy as np

# Using eigenvalues from previous code
X = np.array([[2.5, 2.4],
              [0.5, 0.7],
              [2.2, 2.9]])
X_centered = X - np.mean(X, axis=0)
cov_matrix = (X_centered.T @ X_centered) / X_centered.shape[0]
values, vectors = np.linalg.eig(cov_matrix)

explained_variance_ratio = values / np.sum(values)
print("Explained variance ratio:", explained_variance_ratio)

War alles klar?

Danke für Ihr Feedback!

Abschnitt 2. Kapitel 4