Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprenda Implementação em Conjunto de Dados Fictício | K-Means
Análise de Clusters

bookImplementação em Conjunto de Dados Fictício

Agora será apresentado um exemplo prático de aplicação do agrupamento K-means. Para isso, será utilizado um conjunto de dados fictício. Conjuntos de dados fictícios são conjuntos de dados gerados artificialmente, frequentemente usados para fins de demonstração e aprendizado. Eles permitem controlar as características dos dados e observar claramente como algoritmos como o K-means se comportam.

Conjunto de Dados Fictício

Para esta demonstração, será criado um conjunto de dados fictício utilizando a função make_blobs(). Esta função é excelente para gerar agrupamentos de pontos de dados de forma visual clara e controlável. Os dados serão gerados com as seguintes características:

  • Número de amostras: será criado um conjunto de dados com 300 pontos de dados;

  • Número de centros: o número de agrupamentos reais será definido como 4. Isso significa que os dados fictícios são projetados para ter quatro grupos distintos;

  • Desvio padrão dos agrupamentos: o espalhamento dos pontos de dados dentro de cada agrupamento será controlado, sendo definido como 0.60 para agrupamentos relativamente compactos;

  • Estado aleatório: será utilizado um random_state fixo para reprodutibilidade, garantindo que a geração dos dados seja consistente a cada execução do código.

X, y_true = make_blobs(n_samples=300,
                       centers=4,
                       cluster_std=0.60,
                       random_state=0)

Implementação do K-Means

Com esses dados fictícios criados, será aplicada a seguir o algoritmo K-means. Será explorado como o K-means tenta particionar esses dados em agrupamentos com base nos princípios apresentados nos capítulos anteriores.

O K-means pode ser inicializado e treinado da seguinte forma em Python:

kmeans = KMeans(n_clusters=k, random_state=42) 
kmeans.fit(X)

Para determinar o número ideal de agrupamentos para esses dados, serão utilizados os métodos discutidos nos capítulos anteriores:

  • Método WSS: será calculado o Within-Sum-of-Squares para diferentes valores de K e analisado o gráfico do cotovelo para identificar um possível K ideal;

  • Método do índice de silhueta: será calculado o Índice de Silhueta para diferentes valores de K e examinados o gráfico de silhueta e as médias dos índices para encontrar o K que maximize a qualidade dos agrupamentos.

Por fim, visualizações desempenharão um papel fundamental na implementação. Serão visualizados:

  • O próprio conjunto de dados fictício, para observar a estrutura inerente dos agrupamentos;

  • O gráfico WSS, para identificar o ponto de cotovelo;

  • O gráfico de silhueta, para avaliar a qualidade dos agrupamentos para diferentes valores de K;

  • Os agrupamentos finais do K-means sobrepostos ao conjunto de dados fictício, para verificar visualmente os resultados do agrupamento e o K ideal escolhido.

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 3. Capítulo 5

Pergunte à IA

expand

Pergunte à IA

ChatGPT

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

Awesome!

Completion rate improved to 2.94

bookImplementação em Conjunto de Dados Fictício

Deslize para mostrar o menu

Agora será apresentado um exemplo prático de aplicação do agrupamento K-means. Para isso, será utilizado um conjunto de dados fictício. Conjuntos de dados fictícios são conjuntos de dados gerados artificialmente, frequentemente usados para fins de demonstração e aprendizado. Eles permitem controlar as características dos dados e observar claramente como algoritmos como o K-means se comportam.

Conjunto de Dados Fictício

Para esta demonstração, será criado um conjunto de dados fictício utilizando a função make_blobs(). Esta função é excelente para gerar agrupamentos de pontos de dados de forma visual clara e controlável. Os dados serão gerados com as seguintes características:

  • Número de amostras: será criado um conjunto de dados com 300 pontos de dados;

  • Número de centros: o número de agrupamentos reais será definido como 4. Isso significa que os dados fictícios são projetados para ter quatro grupos distintos;

  • Desvio padrão dos agrupamentos: o espalhamento dos pontos de dados dentro de cada agrupamento será controlado, sendo definido como 0.60 para agrupamentos relativamente compactos;

  • Estado aleatório: será utilizado um random_state fixo para reprodutibilidade, garantindo que a geração dos dados seja consistente a cada execução do código.

X, y_true = make_blobs(n_samples=300,
                       centers=4,
                       cluster_std=0.60,
                       random_state=0)

Implementação do K-Means

Com esses dados fictícios criados, será aplicada a seguir o algoritmo K-means. Será explorado como o K-means tenta particionar esses dados em agrupamentos com base nos princípios apresentados nos capítulos anteriores.

O K-means pode ser inicializado e treinado da seguinte forma em Python:

kmeans = KMeans(n_clusters=k, random_state=42) 
kmeans.fit(X)

Para determinar o número ideal de agrupamentos para esses dados, serão utilizados os métodos discutidos nos capítulos anteriores:

  • Método WSS: será calculado o Within-Sum-of-Squares para diferentes valores de K e analisado o gráfico do cotovelo para identificar um possível K ideal;

  • Método do índice de silhueta: será calculado o Índice de Silhueta para diferentes valores de K e examinados o gráfico de silhueta e as médias dos índices para encontrar o K que maximize a qualidade dos agrupamentos.

Por fim, visualizações desempenharão um papel fundamental na implementação. Serão visualizados:

  • O próprio conjunto de dados fictício, para observar a estrutura inerente dos agrupamentos;

  • O gráfico WSS, para identificar o ponto de cotovelo;

  • O gráfico de silhueta, para avaliar a qualidade dos agrupamentos para diferentes valores de K;

  • Os agrupamentos finais do K-means sobrepostos ao conjunto de dados fictício, para verificar visualmente os resultados do agrupamento e o K ideal escolhido.

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 3. Capítulo 5
some-alt