Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprenda Número Ótimo de Clusters | Seção
Fundamentos do Aprendizado Não Supervisionado

bookNúmero Ótimo de Clusters

Diferente do K-means, a clusterização hierárquica não produz diretamente um número fixo de clusters. Em vez disso, ela gera uma hierarquia. É necessário um método para decidir onde cortar o dendrograma para obter o número desejado de clusters.

Métodos para Determinar o Número de Clusters

Para determinar o número ótimo de clusters, vários métodos são comumente utilizados, incluindo a visualização do dendrograma, o método do cotovelo e o método da silhueta.

Visualização do Dendrograma

Este método envolve a inspeção visual do dendrograma em busca dos maiores intervalos verticais que não são cruzados por linhas horizontais. O número de clusters pode ser deduzido a partir da quantidade de linhas verticais que esses intervalos abrangem. No entanto, este método é subjetivo e depende fortemente da interpretação visual.

Método do Cotovelo (utilizando a soma dos quadrados intra-cluster - WCSS)

Nesta abordagem, realiza-se a clusterização hierárquica para uma faixa de números de clusters e calcula-se o WCSS para cada um. Ao plotar os valores de WCSS em relação ao número de clusters, é possível identificar um ponto de "cotovelo" no gráfico. Esse ponto indica um bom equilíbrio entre minimizar o WCSS e evitar um número excessivo de clusters, semelhante ao método do cotovelo no K-means.

Método da Silhueta

Este método envolve o cálculo dos escores de silhueta para diferentes números de clusters ao cortar o dendrograma em várias alturas. O número ótimo de clusters é aquele que corresponde ao maior escore médio de silhueta.

Note
Nota

O cálculo do WCSS e dos escores de silhueta para clusterização hierárquica pode ser computacionalmente custoso, especialmente para conjuntos de dados grandes.

Ao escolher o número de clusters, seu entendimento dos dados e do problema que está tentando resolver também deve orientar sua escolha.

question mark

Qual dos seguintes é um método comumente utilizado para determinar o número de clusters na clusterização hierárquica?

Select the correct answer

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 1. Capítulo 15

Pergunte à IA

expand

Pergunte à IA

ChatGPT

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

bookNúmero Ótimo de Clusters

Deslize para mostrar o menu

Diferente do K-means, a clusterização hierárquica não produz diretamente um número fixo de clusters. Em vez disso, ela gera uma hierarquia. É necessário um método para decidir onde cortar o dendrograma para obter o número desejado de clusters.

Métodos para Determinar o Número de Clusters

Para determinar o número ótimo de clusters, vários métodos são comumente utilizados, incluindo a visualização do dendrograma, o método do cotovelo e o método da silhueta.

Visualização do Dendrograma

Este método envolve a inspeção visual do dendrograma em busca dos maiores intervalos verticais que não são cruzados por linhas horizontais. O número de clusters pode ser deduzido a partir da quantidade de linhas verticais que esses intervalos abrangem. No entanto, este método é subjetivo e depende fortemente da interpretação visual.

Método do Cotovelo (utilizando a soma dos quadrados intra-cluster - WCSS)

Nesta abordagem, realiza-se a clusterização hierárquica para uma faixa de números de clusters e calcula-se o WCSS para cada um. Ao plotar os valores de WCSS em relação ao número de clusters, é possível identificar um ponto de "cotovelo" no gráfico. Esse ponto indica um bom equilíbrio entre minimizar o WCSS e evitar um número excessivo de clusters, semelhante ao método do cotovelo no K-means.

Método da Silhueta

Este método envolve o cálculo dos escores de silhueta para diferentes números de clusters ao cortar o dendrograma em várias alturas. O número ótimo de clusters é aquele que corresponde ao maior escore médio de silhueta.

Note
Nota

O cálculo do WCSS e dos escores de silhueta para clusterização hierárquica pode ser computacionalmente custoso, especialmente para conjuntos de dados grandes.

Ao escolher o número de clusters, seu entendimento dos dados e do problema que está tentando resolver também deve orientar sua escolha.

question mark

Qual dos seguintes é um método comumente utilizado para determinar o número de clusters na clusterização hierárquica?

Select the correct answer

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 1. Capítulo 15
some-alt