Intuisjon Bak PCA
Principal component analysis (PCA) er en kraftig teknikk som identifiserer nye akser – kalt hovedkomponenter – som er retninger i dataene dine som fanger opp mest varians.
PCA beholder retningene der dataene dine varierer mest, da disse fanger opp de viktigste mønstrene og strukturen.
Tenk på PCA som å lyse med en lommelykt på et 3D-objekt og undersøke skyggen på en vegg. Vinkelen på lyset endrer detaljene i skyggen. PCA finner den beste vinkelen slik at skyggen, eller projection, avslører mest mulig om objektets form. På samme måte projiserer PCA dataene dine på nye akser for å bevare mest mulig variasjon.
12345678910111213141516171819202122232425262728293031323334import numpy as np import matplotlib.pyplot as plt # Generate a simple 2D dataset np.random.seed(0) mean = [0, 0] cov = [[3, 2], [2, 2]] # Covariance matrix X = np.random.multivariate_normal(mean, cov, 200) # Compute the mean of the data mean_vector = np.mean(X, axis=0) # Compute the covariance matrix and its eigenvectors cov_matrix = np.cov(X.T) eigenvalues, eigenvectors = np.linalg.eig(cov_matrix) # First principal component (direction of maximum variance) pc1 = eigenvectors[:, np.argmax(eigenvalues)] # Plot the data plt.figure(figsize=(8,6)) plt.scatter(X[:,0], X[:,1], alpha=0.3, label="Data points") plt.quiver( mean_vector[0], mean_vector[1], pc1[0], pc1[1], angles='xy', scale_units='xy', scale=1.5, color='red', width=0.01, label="First principal component" ) plt.xlabel("Feature 1") plt.ylabel("Feature 2") plt.title("Direction of Maximum Variance (First Principal Component)") plt.legend() plt.axis("equal") plt.show()
Ved å identifisere retningene der dataene dine varierer mest, gjør PCA det mulig å redusere dimensjoner samtidig som den viktigste informasjonen bevares. Fokuset på disse retningene med maksimal variasjon sikrer at strukturen og mønstrene i datasettet forblir tydelige. Denne forståelsen forbereder deg på å utforske det matematiske grunnlaget for PCA i de kommende seksjonene.
Takk for tilbakemeldingene dine!
Spør AI
Spør AI
Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår
Can you explain how the principal components are calculated in PCA?
What does the red arrow in the plot represent?
How does PCA help with dimensionality reduction?
Awesome!
Completion rate improved to 8.33
Intuisjon Bak PCA
Sveip for å vise menyen
Principal component analysis (PCA) er en kraftig teknikk som identifiserer nye akser – kalt hovedkomponenter – som er retninger i dataene dine som fanger opp mest varians.
PCA beholder retningene der dataene dine varierer mest, da disse fanger opp de viktigste mønstrene og strukturen.
Tenk på PCA som å lyse med en lommelykt på et 3D-objekt og undersøke skyggen på en vegg. Vinkelen på lyset endrer detaljene i skyggen. PCA finner den beste vinkelen slik at skyggen, eller projection, avslører mest mulig om objektets form. På samme måte projiserer PCA dataene dine på nye akser for å bevare mest mulig variasjon.
12345678910111213141516171819202122232425262728293031323334import numpy as np import matplotlib.pyplot as plt # Generate a simple 2D dataset np.random.seed(0) mean = [0, 0] cov = [[3, 2], [2, 2]] # Covariance matrix X = np.random.multivariate_normal(mean, cov, 200) # Compute the mean of the data mean_vector = np.mean(X, axis=0) # Compute the covariance matrix and its eigenvectors cov_matrix = np.cov(X.T) eigenvalues, eigenvectors = np.linalg.eig(cov_matrix) # First principal component (direction of maximum variance) pc1 = eigenvectors[:, np.argmax(eigenvalues)] # Plot the data plt.figure(figsize=(8,6)) plt.scatter(X[:,0], X[:,1], alpha=0.3, label="Data points") plt.quiver( mean_vector[0], mean_vector[1], pc1[0], pc1[1], angles='xy', scale_units='xy', scale=1.5, color='red', width=0.01, label="First principal component" ) plt.xlabel("Feature 1") plt.ylabel("Feature 2") plt.title("Direction of Maximum Variance (First Principal Component)") plt.legend() plt.axis("equal") plt.show()
Ved å identifisere retningene der dataene dine varierer mest, gjør PCA det mulig å redusere dimensjoner samtidig som den viktigste informasjonen bevares. Fokuset på disse retningene med maksimal variasjon sikrer at strukturen og mønstrene i datasettet forblir tydelige. Denne forståelsen forbereder deg på å utforske det matematiske grunnlaget for PCA i de kommende seksjonene.
Takk for tilbakemeldingene dine!