Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprenda Implementação em Conjunto de Dados Fictício | K-Means
Análise de Clusters

bookImplementação em Conjunto de Dados Fictício

Agora você irá acompanhar um exemplo prático de aplicação do agrupamento K-means. Para isso, será utilizado um conjunto de dados fictício. Conjuntos de dados fictícios são conjuntos de dados gerados artificialmente, frequentemente usados para fins de demonstração e aprendizado. Eles permitem controlar as características dos dados e observar claramente como algoritmos como o K-means se comportam.

Conjunto de Dados Fictício

Para esta demonstração, criaremos um conjunto de dados fictício utilizando a função make_blobs(). Esta função é excelente para gerar agrupamentos de pontos de dados de forma visual clara e controlável. Geraremos dados com as seguintes características:

  • Número de amostras: criaremos um conjunto de dados com 300 pontos de dados;

  • Número de centros: definiremos o número de agrupamentos reais como 4. Isso significa que os dados fictícios são projetados para ter quatro grupos distintos;

  • Desvio padrão dos agrupamentos: controlaremos a dispersão dos pontos de dados dentro de cada agrupamento, definindo como 0.60 para agrupamentos relativamente compactos;

  • Estado aleatório: utilizaremos um random_state fixo para reprodutibilidade, garantindo que a geração dos dados seja consistente a cada execução do código.

X, y_true = make_blobs(n_samples=300,
                       centers=4,
                       cluster_std=0.60,
                       random_state=0)

Implementação do K-Means

Com esses dados fictícios criados, aplicaremos o algoritmo K-means. Exploraremos como o K-means tenta particionar esses dados em agrupamentos com base nos princípios apresentados nos capítulos anteriores.

O K-means pode ser inicializado e treinado da seguinte forma em Python:

kmeans = KMeans(n_clusters=k, random_state=42) 
kmeans.fit(X)

Para determinar o número ideal de agrupamentos para esses dados, utilizaremos os métodos discutidos nos capítulos anteriores:

  • Método WSS: calcularemos o Within-Sum-of-Squares para diferentes valores de K e analisaremos o gráfico do cotovelo para identificar um possível K ideal;

  • Método da pontuação Silhouette: calcularemos a Pontuação Silhouette para diferentes valores de K e examinaremos o gráfico Silhouette e as médias das pontuações para encontrar o K que maximiza a qualidade dos agrupamentos.

Por fim, as visualizações desempenharão um papel fundamental em nossa implementação. Iremos visualizar:

  • O próprio conjunto de dados fictício, para observar a estrutura inerente dos agrupamentos;

  • O gráfico WSS, para identificar o ponto de cotovelo;

  • O gráfico Silhouette, para avaliar a qualidade dos agrupamentos para diferentes valores de K;

  • Os agrupamentos finais do K-means sobrepostos ao conjunto de dados fictício, para verificar visualmente os resultados do agrupamento e o K ideal escolhido.

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 3. Capítulo 5

Pergunte à IA

expand

Pergunte à IA

ChatGPT

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

Awesome!

Completion rate improved to 2.94

bookImplementação em Conjunto de Dados Fictício

Deslize para mostrar o menu

Agora você irá acompanhar um exemplo prático de aplicação do agrupamento K-means. Para isso, será utilizado um conjunto de dados fictício. Conjuntos de dados fictícios são conjuntos de dados gerados artificialmente, frequentemente usados para fins de demonstração e aprendizado. Eles permitem controlar as características dos dados e observar claramente como algoritmos como o K-means se comportam.

Conjunto de Dados Fictício

Para esta demonstração, criaremos um conjunto de dados fictício utilizando a função make_blobs(). Esta função é excelente para gerar agrupamentos de pontos de dados de forma visual clara e controlável. Geraremos dados com as seguintes características:

  • Número de amostras: criaremos um conjunto de dados com 300 pontos de dados;

  • Número de centros: definiremos o número de agrupamentos reais como 4. Isso significa que os dados fictícios são projetados para ter quatro grupos distintos;

  • Desvio padrão dos agrupamentos: controlaremos a dispersão dos pontos de dados dentro de cada agrupamento, definindo como 0.60 para agrupamentos relativamente compactos;

  • Estado aleatório: utilizaremos um random_state fixo para reprodutibilidade, garantindo que a geração dos dados seja consistente a cada execução do código.

X, y_true = make_blobs(n_samples=300,
                       centers=4,
                       cluster_std=0.60,
                       random_state=0)

Implementação do K-Means

Com esses dados fictícios criados, aplicaremos o algoritmo K-means. Exploraremos como o K-means tenta particionar esses dados em agrupamentos com base nos princípios apresentados nos capítulos anteriores.

O K-means pode ser inicializado e treinado da seguinte forma em Python:

kmeans = KMeans(n_clusters=k, random_state=42) 
kmeans.fit(X)

Para determinar o número ideal de agrupamentos para esses dados, utilizaremos os métodos discutidos nos capítulos anteriores:

  • Método WSS: calcularemos o Within-Sum-of-Squares para diferentes valores de K e analisaremos o gráfico do cotovelo para identificar um possível K ideal;

  • Método da pontuação Silhouette: calcularemos a Pontuação Silhouette para diferentes valores de K e examinaremos o gráfico Silhouette e as médias das pontuações para encontrar o K que maximiza a qualidade dos agrupamentos.

Por fim, as visualizações desempenharão um papel fundamental em nossa implementação. Iremos visualizar:

  • O próprio conjunto de dados fictício, para observar a estrutura inerente dos agrupamentos;

  • O gráfico WSS, para identificar o ponto de cotovelo;

  • O gráfico Silhouette, para avaliar a qualidade dos agrupamentos para diferentes valores de K;

  • Os agrupamentos finais do K-means sobrepostos ao conjunto de dados fictício, para verificar visualmente os resultados do agrupamento e o K ideal escolhido.

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 3. Capítulo 5
some-alt