Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprenda Número Ótimo de Clusters | Agrupamento Hierárquico
Análise de Clusters

bookNúmero Ótimo de Clusters

Diferentemente do K-means, a clusterização hierárquica não produz diretamente um número fixo de clusters. Em vez disso, ela gera uma hierarquia. É necessário um método para decidir onde cortar o dendrograma para obter o número desejado de clusters.

Métodos para Determinar o Número de Clusters

Para determinar o número ideal de clusters, são comumente utilizados vários métodos, incluindo a visualização do dendrograma, o método do cotovelo e o método da silhueta.

Visualização do Dendrograma

Este método envolve a inspeção visual do dendrograma em busca dos maiores intervalos verticais que não são cruzados por linhas horizontais. O número de clusters pode ser deduzido a partir da quantidade de linhas verticais que esses intervalos abrangem. No entanto, este método é subjetivo e depende fortemente da interpretação visual.

Método do Cotovelo (utilizando a soma dos quadrados intra-cluster - WCSS)

Nesta abordagem, realiza-se a clusterização hierárquica para uma faixa de números de clusters e calcula-se o WCSS para cada um. Ao plotar os valores de WCSS em relação ao número de clusters, é possível identificar um ponto de "cotovelo" no gráfico. Este ponto indica um bom equilíbrio entre a minimização do WCSS e a evitação de um número excessivo de clusters, semelhante ao método do cotovelo no K-means.

Método da Silhueta

Este método envolve o cálculo dos escores de silhueta para diferentes números de clusters ao cortar o dendrograma em várias alturas. O número ideal de clusters é aquele que corresponde ao maior escore médio de silhueta.

Note
Nota

O cálculo do WCSS e dos escores de silhueta para clusterização hierárquica pode ser computacionalmente custoso, especialmente para conjuntos de dados grandes.

Ao escolher o número de clusters, o entendimento sobre os dados e o problema a ser resolvido também deve orientar essa escolha.

question mark

Qual dos métodos a seguir é comumente utilizado para determinar o número de clusters na clusterização hierárquica?

Select the correct answer

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 4. Capítulo 2

Pergunte à IA

expand

Pergunte à IA

ChatGPT

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

Suggested prompts:

Can you explain how to interpret a dendrogram to choose the number of clusters?

What are the steps to calculate the silhouette score for hierarchical clustering?

How does the elbow method work differently in hierarchical clustering compared to K-means?

Awesome!

Completion rate improved to 2.94

bookNúmero Ótimo de Clusters

Deslize para mostrar o menu

Diferentemente do K-means, a clusterização hierárquica não produz diretamente um número fixo de clusters. Em vez disso, ela gera uma hierarquia. É necessário um método para decidir onde cortar o dendrograma para obter o número desejado de clusters.

Métodos para Determinar o Número de Clusters

Para determinar o número ideal de clusters, são comumente utilizados vários métodos, incluindo a visualização do dendrograma, o método do cotovelo e o método da silhueta.

Visualização do Dendrograma

Este método envolve a inspeção visual do dendrograma em busca dos maiores intervalos verticais que não são cruzados por linhas horizontais. O número de clusters pode ser deduzido a partir da quantidade de linhas verticais que esses intervalos abrangem. No entanto, este método é subjetivo e depende fortemente da interpretação visual.

Método do Cotovelo (utilizando a soma dos quadrados intra-cluster - WCSS)

Nesta abordagem, realiza-se a clusterização hierárquica para uma faixa de números de clusters e calcula-se o WCSS para cada um. Ao plotar os valores de WCSS em relação ao número de clusters, é possível identificar um ponto de "cotovelo" no gráfico. Este ponto indica um bom equilíbrio entre a minimização do WCSS e a evitação de um número excessivo de clusters, semelhante ao método do cotovelo no K-means.

Método da Silhueta

Este método envolve o cálculo dos escores de silhueta para diferentes números de clusters ao cortar o dendrograma em várias alturas. O número ideal de clusters é aquele que corresponde ao maior escore médio de silhueta.

Note
Nota

O cálculo do WCSS e dos escores de silhueta para clusterização hierárquica pode ser computacionalmente custoso, especialmente para conjuntos de dados grandes.

Ao escolher o número de clusters, o entendimento sobre os dados e o problema a ser resolvido também deve orientar essa escolha.

question mark

Qual dos métodos a seguir é comumente utilizado para determinar o número de clusters na clusterização hierárquica?

Select the correct answer

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 4. Capítulo 2
some-alt