Impara Esecuzione della PCA su un Dataset Reale | Implementazione della PCA in Python

Eseguire la PCA su un dataset reale utilizzando scikit-learn. Utilizzare il dataset Iris, un classico nel machine learning, seguendo questi passaggi:

Caricare i dati;
Prepararli per l'analisi;
Standardizzare le caratteristiche;
Applicare PCA per ridurre la dimensionalità.

Questo processo dimostra come implementare la riduzione della dimensionalità in scenari pratici.


              12345678910111213141516171819202122
            
import numpy as np
import pandas as pd
from sklearn.datasets import load_iris
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA

# Load the Iris dataset
data = load_iris()
X = data.data
feature_names = data.feature_names

# Standardize features (important for PCA)
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# Apply PCA to reduce to 2 components
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X_scaled)

print("Original shape:", X.shape)
print("Transformed shape:", X_pca.shape)
# Each row in X_pca is a sample projected onto the first two principal components

Il codice sopra esegue la PCA sul dataset Iris seguendo diversi passaggi chiave:

1. Caricamento dei dati

Il dataset Iris viene caricato utilizzando load_iris() da scikit-learn. Questo dataset contiene 150 campioni di fiori di iris, ciascuno descritto da quattro caratteristiche: lunghezza sepalo, larghezza sepalo, lunghezza petalo, larghezza petalo.

2. Standardizzazione delle caratteristiche

La standardizzazione garantisce che ogni caratteristica abbia media 0 e varianza 1:

scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

Questo passaggio è essenziale perché la PCA è sensibile alla varianza di ciascuna caratteristica. Senza standardizzazione, le caratteristiche con scale maggiori dominerebbero le componenti principali, portando a risultati fuorvianti.

3. Applicazione della PCA

PCA(n_components=2) riduce il dataset da quattro a due dimensioni:

pca = PCA(n_components=2)
X_pca = pca.fit_transform(X_scaled)

Le componenti principali sono nuovi assi che catturano le direzioni di massima varianza nei dati. Ogni campione viene proiettato su questi assi, ottenendo una rappresentazione compatta che conserva quante più informazioni possibili.

4. Interpretazione dell'output della PCA

È possibile verificare quanta varianza spiega ciascuna componente principale:

print(pca.explained_variance_ratio_)

Questo restituisce un array, ad esempio [0.7277, 0.2303], il che significa che la prima componente spiega circa il 73% della varianza e la seconda circa il 23%. Insieme, catturano la maggior parte delle informazioni dai dati originali.

Tutto è chiaro?

Grazie per i tuoi commenti!

Sezione 3. Capitolo 1

Chieda ad AI

Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione

Scorri per mostrare il menu