Implementação em Conjunto de Dados Real
Após praticar o K-means em dados simulados, agora é possível aplicá-lo a um conjunto de dados do mundo real: o wine dataset. Conjuntos de dados reais apresentam complexidades como estruturas de clusters pouco claras e escalas de variáveis diferentes, oferecendo um desafio de clusterização mais prático.
Será utilizada a função datasets.load_wine()
para carregar este conjunto de dados. O wine dataset possui diversos atributos de diferentes vinhos. O objetivo é verificar se o K-means consegue identificar clusters que refletem semelhanças entre vinhos com base nesses atributos.
Dados reais frequentemente exigem pré-processamento. Escalonamento de variáveis pode ser necessário para garantir que todas as características contribuam igualmente para os cálculos de distância no K-means.
Para encontrar o número ideal de clusters, novamente serão utilizados:
-
Método WSS: análise do gráfico do cotovelo para uma faixa de valores de K. Os cotovelos podem ser menos evidentes em dados reais;
-
Método do índice de Silhouette: análise do gráfico de Silhouette e das médias dos índices para encontrar o melhor K. Os índices podem ser mais variáveis do que em dados simulados.
Visualizações são fundamentais para a compreensão dos resultados:
-
Plotagem de 3 variáveis selecionadas em um gráfico 3D do wine dataset permite inspecionar visualmente a distribuição dos dados em um espaço de características reduzido, sem utilizar redução de dimensionalidade;
-
Gráfico WSS para identificação do cotovelo;
-
Gráfico de Silhouette para avaliação da qualidade dos clusters.
Clusters do K-means visualizados no gráfico 3D das 3 variáveis do wine dataset, mostrando as atribuições de clusters dentro desse espaço de características reduzido.
Obrigado pelo seu feedback!
Pergunte à IA
Pergunte à IA
Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo
Awesome!
Completion rate improved to 2.94
Implementação em Conjunto de Dados Real
Deslize para mostrar o menu
Após praticar o K-means em dados simulados, agora é possível aplicá-lo a um conjunto de dados do mundo real: o wine dataset. Conjuntos de dados reais apresentam complexidades como estruturas de clusters pouco claras e escalas de variáveis diferentes, oferecendo um desafio de clusterização mais prático.
Será utilizada a função datasets.load_wine()
para carregar este conjunto de dados. O wine dataset possui diversos atributos de diferentes vinhos. O objetivo é verificar se o K-means consegue identificar clusters que refletem semelhanças entre vinhos com base nesses atributos.
Dados reais frequentemente exigem pré-processamento. Escalonamento de variáveis pode ser necessário para garantir que todas as características contribuam igualmente para os cálculos de distância no K-means.
Para encontrar o número ideal de clusters, novamente serão utilizados:
-
Método WSS: análise do gráfico do cotovelo para uma faixa de valores de K. Os cotovelos podem ser menos evidentes em dados reais;
-
Método do índice de Silhouette: análise do gráfico de Silhouette e das médias dos índices para encontrar o melhor K. Os índices podem ser mais variáveis do que em dados simulados.
Visualizações são fundamentais para a compreensão dos resultados:
-
Plotagem de 3 variáveis selecionadas em um gráfico 3D do wine dataset permite inspecionar visualmente a distribuição dos dados em um espaço de características reduzido, sem utilizar redução de dimensionalidade;
-
Gráfico WSS para identificação do cotovelo;
-
Gráfico de Silhouette para avaliação da qualidade dos clusters.
Clusters do K-means visualizados no gráfico 3D das 3 variáveis do wine dataset, mostrando as atribuições de clusters dentro desse espaço de características reduzido.
Obrigado pelo seu feedback!