Aprenda Realizando PCA em um Conjunto de Dados Real

Realize PCA em um conjunto de dados real utilizando scikit-learn. Utilize o conjunto de dados Iris, um clássico em aprendizado de máquina, e siga estes passos:

Carregamento dos dados;
Preparação para análise;
Padronização das variáveis;
Aplicação do PCA para redução de dimensionalidade.

Este processo demonstra como implementar a redução de dimensionalidade em cenários práticos.


              12345678910111213141516171819202122
            
import numpy as np
import pandas as pd
from sklearn.datasets import load_iris
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA

# Load the Iris dataset
data = load_iris()
X = data.data
feature_names = data.feature_names

# Standardize features (important for PCA)
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# Apply PCA to reduce to 2 components
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X_scaled)

print("Original shape:", X.shape)
print("Transformed shape:", X_pca.shape)
# Each row in X_pca is a sample projected onto the first two principal components

O código acima executa o PCA no conjunto de dados Iris seguindo várias etapas principais:

1. Carregamento dos Dados

O conjunto de dados Iris é carregado utilizando load_iris() do scikit-learn. Este conjunto contém 150 amostras de flores de íris, cada uma descrita por quatro variáveis: comprimento da sépala, largura da sépala, comprimento da pétala, largura da pétala.

2. Padronização das Variáveis

A padronização garante que cada variável tenha média 0 e variância 1:

scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

Esta etapa é essencial porque o PCA é sensível à variância de cada variável. Sem padronização, variáveis com escalas maiores dominariam os componentes principais, levando a resultados distorcidos.

3. Aplicação do PCA

PCA(n_components=2) reduz o conjunto de dados de quatro dimensões para duas:

pca = PCA(n_components=2)
X_pca = pca.fit_transform(X_scaled)

Componentes principais são novos eixos que capturam as direções de maior variância nos dados. Cada amostra é projetada nesses eixos, resultando em uma representação compacta que retém o máximo de informação possível.

4. Interpretação do Resultado do PCA

É possível verificar quanta variância cada componente principal explica:

print(pca.explained_variance_ratio_)

Isso retorna um array, como [0.7277, 0.2303], indicando que o primeiro componente explica cerca de 73% da variância e o segundo cerca de 23%. Juntos, eles capturam a maior parte da informação dos dados originais.

Tudo estava claro?

Obrigado pelo seu feedback!

Seção 3. Capítulo 1

Pergunte à IA

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

Suggested prompts:

Can you explain how to interpret the principal components in this context?

How can I visualize the results of the PCA on the Iris dataset?

What are some practical applications of PCA beyond this example?

Deslize para mostrar o menu