Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprenda Realizando PCA em um Conjunto de Dados Real | Implementando PCA em Python
Redução de Dimensionalidade com PCA

bookRealizando PCA em um Conjunto de Dados Real

Realize PCA em um conjunto de dados real utilizando scikit-learn. Utilize o conjunto de dados Iris, um clássico em aprendizado de máquina, e siga estes passos:

  • Carregamento dos dados;
  • Preparação para análise;
  • Padronização das variáveis;
  • Aplicação do PCA para redução de dimensionalidade.

Este processo demonstra como implementar a redução de dimensionalidade em cenários práticos.

12345678910111213141516171819202122
import numpy as np import pandas as pd from sklearn.datasets import load_iris from sklearn.preprocessing import StandardScaler from sklearn.decomposition import PCA # Load the Iris dataset data = load_iris() X = data.data feature_names = data.feature_names # Standardize features (important for PCA) scaler = StandardScaler() X_scaled = scaler.fit_transform(X) # Apply PCA to reduce to 2 components pca = PCA(n_components=2) X_pca = pca.fit_transform(X_scaled) print("Original shape:", X.shape) print("Transformed shape:", X_pca.shape) # Each row in X_pca is a sample projected onto the first two principal components
copy

O código acima executa o PCA no conjunto de dados Iris seguindo várias etapas principais:

1. Carregamento dos Dados

O conjunto de dados Iris é carregado utilizando load_iris() do scikit-learn. Este conjunto contém 150 amostras de flores de íris, cada uma descrita por quatro variáveis: comprimento da sépala, largura da sépala, comprimento da pétala, largura da pétala.

2. Padronização das Variáveis

A padronização garante que cada variável tenha média 0 e variância 1:

scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

Esta etapa é essencial porque o PCA é sensível à variância de cada variável. Sem padronização, variáveis com escalas maiores dominariam os componentes principais, levando a resultados distorcidos.

3. Aplicação do PCA

PCA(n_components=2) reduz o conjunto de dados de quatro dimensões para duas:

pca = PCA(n_components=2)
X_pca = pca.fit_transform(X_scaled)

Componentes principais são novos eixos que capturam as direções de maior variância nos dados. Cada amostra é projetada nesses eixos, resultando em uma representação compacta que retém o máximo de informação possível.

4. Interpretação do Resultado do PCA

É possível verificar quanta variância cada componente principal explica:

print(pca.explained_variance_ratio_)

Isso retorna um array, como [0.7277, 0.2303], indicando que o primeiro componente explica cerca de 73% da variância e o segundo cerca de 23%. Juntos, eles capturam a maior parte da informação dos dados originais.

question mark

Qual afirmação está correta sobre a execução da ACP no conjunto de dados Iris conforme mostrado no exemplo?

Select the correct answer

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 3. Capítulo 1

Pergunte à IA

expand

Pergunte à IA

ChatGPT

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

Suggested prompts:

Can you explain how to interpret the principal components in this context?

How can I visualize the results of the PCA on the Iris dataset?

What are some practical applications of PCA beyond this example?

Awesome!

Completion rate improved to 8.33

bookRealizando PCA em um Conjunto de Dados Real

Deslize para mostrar o menu

Realize PCA em um conjunto de dados real utilizando scikit-learn. Utilize o conjunto de dados Iris, um clássico em aprendizado de máquina, e siga estes passos:

  • Carregamento dos dados;
  • Preparação para análise;
  • Padronização das variáveis;
  • Aplicação do PCA para redução de dimensionalidade.

Este processo demonstra como implementar a redução de dimensionalidade em cenários práticos.

12345678910111213141516171819202122
import numpy as np import pandas as pd from sklearn.datasets import load_iris from sklearn.preprocessing import StandardScaler from sklearn.decomposition import PCA # Load the Iris dataset data = load_iris() X = data.data feature_names = data.feature_names # Standardize features (important for PCA) scaler = StandardScaler() X_scaled = scaler.fit_transform(X) # Apply PCA to reduce to 2 components pca = PCA(n_components=2) X_pca = pca.fit_transform(X_scaled) print("Original shape:", X.shape) print("Transformed shape:", X_pca.shape) # Each row in X_pca is a sample projected onto the first two principal components
copy

O código acima executa o PCA no conjunto de dados Iris seguindo várias etapas principais:

1. Carregamento dos Dados

O conjunto de dados Iris é carregado utilizando load_iris() do scikit-learn. Este conjunto contém 150 amostras de flores de íris, cada uma descrita por quatro variáveis: comprimento da sépala, largura da sépala, comprimento da pétala, largura da pétala.

2. Padronização das Variáveis

A padronização garante que cada variável tenha média 0 e variância 1:

scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

Esta etapa é essencial porque o PCA é sensível à variância de cada variável. Sem padronização, variáveis com escalas maiores dominariam os componentes principais, levando a resultados distorcidos.

3. Aplicação do PCA

PCA(n_components=2) reduz o conjunto de dados de quatro dimensões para duas:

pca = PCA(n_components=2)
X_pca = pca.fit_transform(X_scaled)

Componentes principais são novos eixos que capturam as direções de maior variância nos dados. Cada amostra é projetada nesses eixos, resultando em uma representação compacta que retém o máximo de informação possível.

4. Interpretação do Resultado do PCA

É possível verificar quanta variância cada componente principal explica:

print(pca.explained_variance_ratio_)

Isso retorna um array, como [0.7277, 0.2303], indicando que o primeiro componente explica cerca de 73% da variância e o segundo cerca de 23%. Juntos, eles capturam a maior parte da informação dos dados originais.

question mark

Qual afirmação está correta sobre a execução da ACP no conjunto de dados Iris conforme mostrado no exemplo?

Select the correct answer

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 3. Capítulo 1
some-alt