Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Impara Esecuzione della PCA su un Dataset Reale | Implementazione della PCA in Python
Riduzione della Dimensionalità con PCA

bookEsecuzione della PCA su un Dataset Reale

Eseguire la PCA su un dataset reale utilizzando scikit-learn. Utilizzare il dataset Iris, un classico nel machine learning, seguendo questi passaggi:

  • Caricare i dati;
  • Prepararli per l'analisi;
  • Standardizzare le caratteristiche;
  • Applicare PCA per ridurre la dimensionalità.

Questo processo dimostra come implementare la riduzione della dimensionalità in scenari pratici.

12345678910111213141516171819202122
import numpy as np import pandas as pd from sklearn.datasets import load_iris from sklearn.preprocessing import StandardScaler from sklearn.decomposition import PCA # Load the Iris dataset data = load_iris() X = data.data feature_names = data.feature_names # Standardize features (important for PCA) scaler = StandardScaler() X_scaled = scaler.fit_transform(X) # Apply PCA to reduce to 2 components pca = PCA(n_components=2) X_pca = pca.fit_transform(X_scaled) print("Original shape:", X.shape) print("Transformed shape:", X_pca.shape) # Each row in X_pca is a sample projected onto the first two principal components
copy

Il codice sopra esegue la PCA sul dataset Iris seguendo diversi passaggi chiave:

1. Caricamento dei dati

Il dataset Iris viene caricato utilizzando load_iris() da scikit-learn. Questo dataset contiene 150 campioni di fiori di iris, ciascuno descritto da quattro caratteristiche: lunghezza sepalo, larghezza sepalo, lunghezza petalo, larghezza petalo.

2. Standardizzazione delle caratteristiche

La standardizzazione garantisce che ogni caratteristica abbia media 0 e varianza 1:

scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

Questo passaggio è essenziale perché la PCA è sensibile alla varianza di ciascuna caratteristica. Senza standardizzazione, le caratteristiche con scale maggiori dominerebbero le componenti principali, portando a risultati fuorvianti.

3. Applicazione della PCA

PCA(n_components=2) riduce il dataset da quattro a due dimensioni:

pca = PCA(n_components=2)
X_pca = pca.fit_transform(X_scaled)

Le componenti principali sono nuovi assi che catturano le direzioni di massima varianza nei dati. Ogni campione viene proiettato su questi assi, ottenendo una rappresentazione compatta che conserva quante più informazioni possibili.

4. Interpretazione dell'output della PCA

È possibile verificare quanta varianza spiega ciascuna componente principale:

print(pca.explained_variance_ratio_)

Questo restituisce un array, ad esempio [0.7277, 0.2303], il che significa che la prima componente spiega circa il 73% della varianza e la seconda circa il 23%. Insieme, catturano la maggior parte delle informazioni dai dati originali.

question mark

Quale affermazione è corretta riguardo l'esecuzione della PCA sul dataset Iris come mostrato nell'esempio?

Select the correct answer

Tutto è chiaro?

Come possiamo migliorarlo?

Grazie per i tuoi commenti!

Sezione 3. Capitolo 1

Chieda ad AI

expand

Chieda ad AI

ChatGPT

Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione

Awesome!

Completion rate improved to 8.33

bookEsecuzione della PCA su un Dataset Reale

Scorri per mostrare il menu

Eseguire la PCA su un dataset reale utilizzando scikit-learn. Utilizzare il dataset Iris, un classico nel machine learning, seguendo questi passaggi:

  • Caricare i dati;
  • Prepararli per l'analisi;
  • Standardizzare le caratteristiche;
  • Applicare PCA per ridurre la dimensionalità.

Questo processo dimostra come implementare la riduzione della dimensionalità in scenari pratici.

12345678910111213141516171819202122
import numpy as np import pandas as pd from sklearn.datasets import load_iris from sklearn.preprocessing import StandardScaler from sklearn.decomposition import PCA # Load the Iris dataset data = load_iris() X = data.data feature_names = data.feature_names # Standardize features (important for PCA) scaler = StandardScaler() X_scaled = scaler.fit_transform(X) # Apply PCA to reduce to 2 components pca = PCA(n_components=2) X_pca = pca.fit_transform(X_scaled) print("Original shape:", X.shape) print("Transformed shape:", X_pca.shape) # Each row in X_pca is a sample projected onto the first two principal components
copy

Il codice sopra esegue la PCA sul dataset Iris seguendo diversi passaggi chiave:

1. Caricamento dei dati

Il dataset Iris viene caricato utilizzando load_iris() da scikit-learn. Questo dataset contiene 150 campioni di fiori di iris, ciascuno descritto da quattro caratteristiche: lunghezza sepalo, larghezza sepalo, lunghezza petalo, larghezza petalo.

2. Standardizzazione delle caratteristiche

La standardizzazione garantisce che ogni caratteristica abbia media 0 e varianza 1:

scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

Questo passaggio è essenziale perché la PCA è sensibile alla varianza di ciascuna caratteristica. Senza standardizzazione, le caratteristiche con scale maggiori dominerebbero le componenti principali, portando a risultati fuorvianti.

3. Applicazione della PCA

PCA(n_components=2) riduce il dataset da quattro a due dimensioni:

pca = PCA(n_components=2)
X_pca = pca.fit_transform(X_scaled)

Le componenti principali sono nuovi assi che catturano le direzioni di massima varianza nei dati. Ogni campione viene proiettato su questi assi, ottenendo una rappresentazione compatta che conserva quante più informazioni possibili.

4. Interpretazione dell'output della PCA

È possibile verificare quanta varianza spiega ciascuna componente principale:

print(pca.explained_variance_ratio_)

Questo restituisce un array, ad esempio [0.7277, 0.2303], il che significa che la prima componente spiega circa il 73% della varianza e la seconda circa il 23%. Insieme, catturano la maggior parte delle informazioni dai dati originali.

question mark

Quale affermazione è corretta riguardo l'esecuzione della PCA sul dataset Iris come mostrato nell'esempio?

Select the correct answer

Tutto è chiaro?

Come possiamo migliorarlo?

Grazie per i tuoi commenti!

Sezione 3. Capitolo 1
some-alt