Deslize para mostrar o menu

Agora será apresentado um exemplo prático de aplicação do agrupamento K-means. Para isso, será utilizado um conjunto de dados fictício. Conjuntos de dados fictícios são conjuntos de dados gerados artificialmente, frequentemente usados para fins de demonstração e aprendizado. Eles permitem controlar as características dos dados e observar claramente como algoritmos como o K-means se comportam.

Conjunto de Dados Fictício

Para esta demonstração, será criado um conjunto de dados fictício utilizando a função make_blobs(). Essa função é excelente para gerar agrupamentos de pontos de dados de forma visual clara e controlável. Os dados serão gerados com as seguintes características:

Número de amostras: será criado um conjunto de dados com 300 pontos de dados;
Número de centros: será definido o número de agrupamentos reais como 4. Isso significa que os dados fictícios são projetados para ter quatro grupos distintos;
Desvio padrão dos agrupamentos: será controlada a dispersão dos pontos de dados dentro de cada agrupamento, definindo-a como 0.60 para agrupamentos relativamente compactos;
Estado aleatório: será utilizado um random_state fixo para reprodutibilidade, garantindo que a geração dos dados seja consistente a cada execução do código.

X, y_true = make_blobs(n_samples=300,
                       centers=4,
                       cluster_std=0.60,
                       random_state=0)

Implementação do K-Means

Com esses dados fictícios criados, será aplicado o algoritmo K-means. Será explorado como o K-means tenta particionar esses dados em agrupamentos com base nos princípios apresentados nos capítulos anteriores.

O K-means pode ser inicializado e treinado da seguinte forma em Python:

kmeans = KMeans(n_clusters=k, random_state=42) 
kmeans.fit(X)

Para determinar o número ideal de agrupamentos para esses dados, serão utilizados os métodos discutidos nos capítulos anteriores:

Método WSS: será calculado o Within-Sum-of-Squares para diferentes valores de K e analisado o gráfico do cotovelo para identificar um possível K ideal;
Método do índice de silhueta: será calculado o Índice de Silhueta para diferentes valores de K e examinados o gráfico de silhueta e as médias dos índices para encontrar o K que maximize a qualidade dos agrupamentos.

Por fim, as visualizações desempenharão um papel fundamental na implementação. Serão visualizados:

O próprio conjunto de dados fictício, para observar a estrutura inerente dos agrupamentos;
O gráfico WSS, para identificar o ponto de cotovelo;
O gráfico de silhueta, para avaliar a qualidade dos agrupamentos para diferentes valores de K;
Os agrupamentos finais do K-means sobrepostos ao conjunto de dados fictício, para verificar visualmente os resultados do agrupamento e o K ideal escolhido.

Tudo estava claro?

Obrigado pelo seu feedback!

Seção 3. Capítulo 5

Pergunte à IA

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

Implementação em Conjunto de Dados Fictício