Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprenda Implementação no Conjunto de Dados de Clientes | Seção
Fundamentos do Aprendizado Não Supervisionado

bookImplementação no Conjunto de Dados de Clientes

Você utilizará os dados de clientes de cartão de crédito. Antes de realizar a clusterização dos dados, siga estas etapas:

  1. Carregar os dados: utilize o pandas para carregar o arquivo CSV;

  2. Tratar valores ausentes: se necessário, impute ou remova linhas com dados ausentes;

  3. Escalonamento de variáveis: aplique o StandardScaler para padronizar as variáveis. Isso é importante porque a clusterização hierárquica utiliza cálculos de distância;

  4. Redução de dimensionalidade (PCA): aplique a análise de componentes principais (PCA) para reduzir os dados para duas dimensões. Isso facilitará a visualização dos clusters.

Interpretando o Dendrograma

Primeiro, analise o dendrograma para determinar um número adequado de clusters. Procure por grandes distâncias verticais que não sejam cruzadas por linhas horizontais estendidas.

Em seguida, é possível plotar os pontos de dados após o PCA, colorindo-os de acordo com os rótulos dos clusters obtidos ao cortar o dendrograma na altura escolhida.

Por fim, é importante examinar as características dos clusters resultantes. Recomenda-se analisar os valores médios das variáveis originais (antes do PCA) para cada cluster, a fim de compreender como eles diferem entre si.

Conclusão

A clusterização hierárquica é uma técnica poderosa quando não se deseja pré-definir o número de clusters ou quando é necessário compreender as relações hierárquicas entre os pontos de dados. No entanto, pode ser computacionalmente custosa para conjuntos de dados muito grandes, e a escolha do método de ligação e do número ideal de clusters exige análise criteriosa, frequentemente envolvendo uma combinação de métodos quantitativos e conhecimento do domínio.

question mark

Qual etapa de pré-processamento é essencial antes de aplicar a clusterização hierárquica para garantir que todas as variáveis contribuam igualmente para os cálculos de distância?

Select the correct answer

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 1. Capítulo 17

Pergunte à IA

expand

Pergunte à IA

ChatGPT

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

bookImplementação no Conjunto de Dados de Clientes

Deslize para mostrar o menu

Você utilizará os dados de clientes de cartão de crédito. Antes de realizar a clusterização dos dados, siga estas etapas:

  1. Carregar os dados: utilize o pandas para carregar o arquivo CSV;

  2. Tratar valores ausentes: se necessário, impute ou remova linhas com dados ausentes;

  3. Escalonamento de variáveis: aplique o StandardScaler para padronizar as variáveis. Isso é importante porque a clusterização hierárquica utiliza cálculos de distância;

  4. Redução de dimensionalidade (PCA): aplique a análise de componentes principais (PCA) para reduzir os dados para duas dimensões. Isso facilitará a visualização dos clusters.

Interpretando o Dendrograma

Primeiro, analise o dendrograma para determinar um número adequado de clusters. Procure por grandes distâncias verticais que não sejam cruzadas por linhas horizontais estendidas.

Em seguida, é possível plotar os pontos de dados após o PCA, colorindo-os de acordo com os rótulos dos clusters obtidos ao cortar o dendrograma na altura escolhida.

Por fim, é importante examinar as características dos clusters resultantes. Recomenda-se analisar os valores médios das variáveis originais (antes do PCA) para cada cluster, a fim de compreender como eles diferem entre si.

Conclusão

A clusterização hierárquica é uma técnica poderosa quando não se deseja pré-definir o número de clusters ou quando é necessário compreender as relações hierárquicas entre os pontos de dados. No entanto, pode ser computacionalmente custosa para conjuntos de dados muito grandes, e a escolha do método de ligação e do número ideal de clusters exige análise criteriosa, frequentemente envolvendo uma combinação de métodos quantitativos e conhecimento do domínio.

question mark

Qual etapa de pré-processamento é essencial antes de aplicar a clusterização hierárquica para garantir que todas as variáveis contribuam igualmente para os cálculos de distância?

Select the correct answer

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 1. Capítulo 17
some-alt