Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprenda Implementação em Conjunto de Dados Real | Seção
Fundamentos do Aprendizado Não Supervisionado

bookImplementação em Conjunto de Dados Real

Após praticar o K-means em dados simulados, agora é possível aplicá-lo a um conjunto de dados do mundo real: o wine dataset. Conjuntos de dados reais apresentam complexidades como estruturas de clusters pouco claras e escalas de variáveis diferentes, oferecendo um desafio de agrupamento mais prático.

Você utilizará a função datasets.load_wine() para carregar este conjunto de dados. O wine dataset possui diversos atributos de diferentes vinhos. O objetivo é verificar se o K-means consegue identificar clusters que refletem semelhanças entre vinhos com base nesses atributos.

Dados reais frequentemente exigem pré-processamento. Escalonamento de variáveis pode ser necessário para garantir que todas as variáveis contribuam igualmente nos cálculos de distância do K-means.

Para encontrar o número ideal de clusters, você utilizará novamente:

  • Método WSS: analisar o gráfico do cotovelo para uma faixa de valores de K. Os cotovelos podem ser menos distintos em dados reais;

  • Método do índice de silhueta: examinar o gráfico de silhueta e as médias dos índices para encontrar o melhor K. Os índices podem ser mais variáveis do que em dados simulados.

Visualizações são fundamentais para compreender os resultados:

  • Plotar 3 variáveis selecionadas em um gráfico 3D do wine permite inspecionar visualmente a distribuição dos dados em um espaço de variáveis reduzido, sem utilizar redução de dimensionalidade;

  • Gráfico WSS para identificação do cotovelo;

  • Gráfico de silhueta para avaliar a qualidade dos clusters.

Clusters do K-means visualizados no gráfico 3D das 3 variáveis do wine dataset, mostrando as atribuições de clusters dentro deste espaço de variáveis reduzido.

question mark

Por que o escalonamento de variáveis é realizado antes de aplicar o K-means ao wine dataset?

Select the correct answer

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 1. Capítulo 12

Pergunte à IA

expand

Pergunte à IA

ChatGPT

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

bookImplementação em Conjunto de Dados Real

Deslize para mostrar o menu

Após praticar o K-means em dados simulados, agora é possível aplicá-lo a um conjunto de dados do mundo real: o wine dataset. Conjuntos de dados reais apresentam complexidades como estruturas de clusters pouco claras e escalas de variáveis diferentes, oferecendo um desafio de agrupamento mais prático.

Você utilizará a função datasets.load_wine() para carregar este conjunto de dados. O wine dataset possui diversos atributos de diferentes vinhos. O objetivo é verificar se o K-means consegue identificar clusters que refletem semelhanças entre vinhos com base nesses atributos.

Dados reais frequentemente exigem pré-processamento. Escalonamento de variáveis pode ser necessário para garantir que todas as variáveis contribuam igualmente nos cálculos de distância do K-means.

Para encontrar o número ideal de clusters, você utilizará novamente:

  • Método WSS: analisar o gráfico do cotovelo para uma faixa de valores de K. Os cotovelos podem ser menos distintos em dados reais;

  • Método do índice de silhueta: examinar o gráfico de silhueta e as médias dos índices para encontrar o melhor K. Os índices podem ser mais variáveis do que em dados simulados.

Visualizações são fundamentais para compreender os resultados:

  • Plotar 3 variáveis selecionadas em um gráfico 3D do wine permite inspecionar visualmente a distribuição dos dados em um espaço de variáveis reduzido, sem utilizar redução de dimensionalidade;

  • Gráfico WSS para identificação do cotovelo;

  • Gráfico de silhueta para avaliar a qualidade dos clusters.

Clusters do K-means visualizados no gráfico 3D das 3 variáveis do wine dataset, mostrando as atribuições de clusters dentro deste espaço de variáveis reduzido.

question mark

Por que o escalonamento de variáveis é realizado antes de aplicar o K-means ao wine dataset?

Select the correct answer

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 1. Capítulo 12
some-alt