Implementação em Conjunto de Dados Fictício
Deslize para mostrar o menu
Como de costume, você utilizará as seguintes bibliotecas:
-
sklearnpara gerar dados fictícios e implementar a clusterização hierárquica (AgglomerativeClustering); -
scipypara gerar e trabalhar com o dendrograma; -
matplotlibpara visualizar os clusters e o dendrograma; -
numpypara operações numéricas.
Gerando Dados Fictícios
Você pode usar a função make_blobs() do scikit-learn para gerar conjuntos de dados com diferentes números de clusters e graus variados de separação. Isso ajudará a visualizar como a clusterização hierárquica se comporta em diferentes cenários.
O algoritmo geral é o seguinte:
-
Instanciação do objeto
AgglomerativeClustering, especificando o método de ligação e outros parâmetros; -
Ajuste do modelo aos seus dados;
-
Extração dos rótulos dos clusters caso seja definido um número específico de clusters;
-
Visualização dos clusters (se os dados forem 2D ou 3D) utilizando gráficos de dispersão;
-
Utilização do
linkagedo SciPy para criar a matriz de ligação e, em seguida, o dendrograma para visualizar o dendrograma.
Também é possível experimentar diferentes métodos de ligação (por exemplo, single, complete, average, Ward's) e observar como eles afetam os resultados da clusterização e a estrutura do dendrograma.
Obrigado pelo seu feedback!
Pergunte à IA
Pergunte à IA
Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo