Esecuzione della PCA su un Dataset Reale
Eseguire la PCA su un dataset reale utilizzando scikit-learn. Utilizzare il dataset Iris, un classico nel machine learning, seguendo questi passaggi:
- Caricare i dati;
- Prepararli per l'analisi;
- Standardizzare le caratteristiche;
- Applicare
PCAper ridurre la dimensionalità.
Questo processo dimostra come implementare la riduzione della dimensionalità in scenari pratici.
12345678910111213141516171819202122import numpy as np import pandas as pd from sklearn.datasets import load_iris from sklearn.preprocessing import StandardScaler from sklearn.decomposition import PCA # Load the Iris dataset data = load_iris() X = data.data feature_names = data.feature_names # Standardize features (important for PCA) scaler = StandardScaler() X_scaled = scaler.fit_transform(X) # Apply PCA to reduce to 2 components pca = PCA(n_components=2) X_pca = pca.fit_transform(X_scaled) print("Original shape:", X.shape) print("Transformed shape:", X_pca.shape) # Each row in X_pca is a sample projected onto the first two principal components
Il codice sopra esegue la PCA sul dataset Iris seguendo diversi passaggi chiave:
1. Caricamento dei dati
Il dataset Iris viene caricato utilizzando load_iris() da scikit-learn. Questo dataset contiene 150 campioni di fiori di iris, ciascuno descritto da quattro caratteristiche: lunghezza sepalo, larghezza sepalo, lunghezza petalo, larghezza petalo.
2. Standardizzazione delle caratteristiche
La standardizzazione garantisce che ogni caratteristica abbia media 0 e varianza 1:
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)
Questo passaggio è essenziale perché la PCA è sensibile alla varianza di ciascuna caratteristica. Senza standardizzazione, le caratteristiche con scale maggiori dominerebbero le componenti principali, portando a risultati fuorvianti.
3. Applicazione della PCA
PCA(n_components=2) riduce il dataset da quattro a due dimensioni:
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X_scaled)
Le componenti principali sono nuovi assi che catturano le direzioni di massima varianza nei dati. Ogni campione viene proiettato su questi assi, ottenendo una rappresentazione compatta che conserva quante più informazioni possibili.
4. Interpretazione dell'output della PCA
È possibile verificare quanta varianza spiega ciascuna componente principale:
print(pca.explained_variance_ratio_)
Questo restituisce un array, ad esempio [0.7277, 0.2303], il che significa che la prima componente spiega circa il 73% della varianza e la seconda circa il 23%. Insieme, catturano la maggior parte delle informazioni dai dati originali.
Grazie per i tuoi commenti!
Chieda ad AI
Chieda ad AI
Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione
Awesome!
Completion rate improved to 8.33
Esecuzione della PCA su un Dataset Reale
Scorri per mostrare il menu
Eseguire la PCA su un dataset reale utilizzando scikit-learn. Utilizzare il dataset Iris, un classico nel machine learning, seguendo questi passaggi:
- Caricare i dati;
- Prepararli per l'analisi;
- Standardizzare le caratteristiche;
- Applicare
PCAper ridurre la dimensionalità.
Questo processo dimostra come implementare la riduzione della dimensionalità in scenari pratici.
12345678910111213141516171819202122import numpy as np import pandas as pd from sklearn.datasets import load_iris from sklearn.preprocessing import StandardScaler from sklearn.decomposition import PCA # Load the Iris dataset data = load_iris() X = data.data feature_names = data.feature_names # Standardize features (important for PCA) scaler = StandardScaler() X_scaled = scaler.fit_transform(X) # Apply PCA to reduce to 2 components pca = PCA(n_components=2) X_pca = pca.fit_transform(X_scaled) print("Original shape:", X.shape) print("Transformed shape:", X_pca.shape) # Each row in X_pca is a sample projected onto the first two principal components
Il codice sopra esegue la PCA sul dataset Iris seguendo diversi passaggi chiave:
1. Caricamento dei dati
Il dataset Iris viene caricato utilizzando load_iris() da scikit-learn. Questo dataset contiene 150 campioni di fiori di iris, ciascuno descritto da quattro caratteristiche: lunghezza sepalo, larghezza sepalo, lunghezza petalo, larghezza petalo.
2. Standardizzazione delle caratteristiche
La standardizzazione garantisce che ogni caratteristica abbia media 0 e varianza 1:
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)
Questo passaggio è essenziale perché la PCA è sensibile alla varianza di ciascuna caratteristica. Senza standardizzazione, le caratteristiche con scale maggiori dominerebbero le componenti principali, portando a risultati fuorvianti.
3. Applicazione della PCA
PCA(n_components=2) riduce il dataset da quattro a due dimensioni:
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X_scaled)
Le componenti principali sono nuovi assi che catturano le direzioni di massima varianza nei dati. Ogni campione viene proiettato su questi assi, ottenendo una rappresentazione compatta che conserva quante più informazioni possibili.
4. Interpretazione dell'output della PCA
È possibile verificare quanta varianza spiega ciascuna componente principale:
print(pca.explained_variance_ratio_)
Questo restituisce un array, ad esempio [0.7277, 0.2303], il che significa che la prima componente spiega circa il 73% della varianza e la seconda circa il 23%. Insieme, catturano la maggior parte delle informazioni dai dati originali.
Grazie per i tuoi commenti!