Implementação em Conjunto de Dados Fictício
Agora você irá acompanhar um exemplo prático de aplicação do agrupamento K-means. Para isso, será utilizado um conjunto de dados fictício. Conjuntos de dados fictícios são conjuntos de dados gerados artificialmente, frequentemente usados para fins de demonstração e aprendizado. Eles permitem controlar as características dos dados e observar claramente como algoritmos como o K-means se comportam.
Conjunto de Dados Fictício
Para esta demonstração, criaremos um conjunto de dados fictício utilizando a função make_blobs()
. Esta função é excelente para gerar agrupamentos de pontos de dados de forma visual clara e controlável. Geraremos dados com as seguintes características:
-
Número de amostras: criaremos um conjunto de dados com
300
pontos de dados; -
Número de centros: definiremos o número de agrupamentos reais como
4
. Isso significa que os dados fictícios são projetados para ter quatro grupos distintos; -
Desvio padrão dos agrupamentos: controlaremos a dispersão dos pontos de dados dentro de cada agrupamento, definindo como
0.60
para agrupamentos relativamente compactos; -
Estado aleatório: utilizaremos um
random_state
fixo para reprodutibilidade, garantindo que a geração dos dados seja consistente a cada execução do código.
X, y_true = make_blobs(n_samples=300,
centers=4,
cluster_std=0.60,
random_state=0)
Implementação do K-Means
Com esses dados fictícios criados, aplicaremos o algoritmo K-means. Exploraremos como o K-means tenta particionar esses dados em agrupamentos com base nos princípios apresentados nos capítulos anteriores.
O K-means pode ser inicializado e treinado da seguinte forma em Python:
kmeans = KMeans(n_clusters=k, random_state=42)
kmeans.fit(X)
Para determinar o número ideal de agrupamentos para esses dados, utilizaremos os métodos discutidos nos capítulos anteriores:
-
Método WSS: calcularemos o Within-Sum-of-Squares para diferentes valores de K e analisaremos o gráfico do cotovelo para identificar um possível K ideal;
-
Método da pontuação Silhouette: calcularemos a Pontuação Silhouette para diferentes valores de K e examinaremos o gráfico Silhouette e as médias das pontuações para encontrar o K que maximiza a qualidade dos agrupamentos.
Por fim, as visualizações desempenharão um papel fundamental em nossa implementação. Iremos visualizar:
-
O próprio conjunto de dados fictício, para observar a estrutura inerente dos agrupamentos;
-
O gráfico WSS, para identificar o ponto de cotovelo;
-
O gráfico Silhouette, para avaliar a qualidade dos agrupamentos para diferentes valores de K;
-
Os agrupamentos finais do K-means sobrepostos ao conjunto de dados fictício, para verificar visualmente os resultados do agrupamento e o K ideal escolhido.
Obrigado pelo seu feedback!
Pergunte à IA
Pergunte à IA
Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo
Awesome!
Completion rate improved to 2.94
Implementação em Conjunto de Dados Fictício
Deslize para mostrar o menu
Agora você irá acompanhar um exemplo prático de aplicação do agrupamento K-means. Para isso, será utilizado um conjunto de dados fictício. Conjuntos de dados fictícios são conjuntos de dados gerados artificialmente, frequentemente usados para fins de demonstração e aprendizado. Eles permitem controlar as características dos dados e observar claramente como algoritmos como o K-means se comportam.
Conjunto de Dados Fictício
Para esta demonstração, criaremos um conjunto de dados fictício utilizando a função make_blobs()
. Esta função é excelente para gerar agrupamentos de pontos de dados de forma visual clara e controlável. Geraremos dados com as seguintes características:
-
Número de amostras: criaremos um conjunto de dados com
300
pontos de dados; -
Número de centros: definiremos o número de agrupamentos reais como
4
. Isso significa que os dados fictícios são projetados para ter quatro grupos distintos; -
Desvio padrão dos agrupamentos: controlaremos a dispersão dos pontos de dados dentro de cada agrupamento, definindo como
0.60
para agrupamentos relativamente compactos; -
Estado aleatório: utilizaremos um
random_state
fixo para reprodutibilidade, garantindo que a geração dos dados seja consistente a cada execução do código.
X, y_true = make_blobs(n_samples=300,
centers=4,
cluster_std=0.60,
random_state=0)
Implementação do K-Means
Com esses dados fictícios criados, aplicaremos o algoritmo K-means. Exploraremos como o K-means tenta particionar esses dados em agrupamentos com base nos princípios apresentados nos capítulos anteriores.
O K-means pode ser inicializado e treinado da seguinte forma em Python:
kmeans = KMeans(n_clusters=k, random_state=42)
kmeans.fit(X)
Para determinar o número ideal de agrupamentos para esses dados, utilizaremos os métodos discutidos nos capítulos anteriores:
-
Método WSS: calcularemos o Within-Sum-of-Squares para diferentes valores de K e analisaremos o gráfico do cotovelo para identificar um possível K ideal;
-
Método da pontuação Silhouette: calcularemos a Pontuação Silhouette para diferentes valores de K e examinaremos o gráfico Silhouette e as médias das pontuações para encontrar o K que maximiza a qualidade dos agrupamentos.
Por fim, as visualizações desempenharão um papel fundamental em nossa implementação. Iremos visualizar:
-
O próprio conjunto de dados fictício, para observar a estrutura inerente dos agrupamentos;
-
O gráfico WSS, para identificar o ponto de cotovelo;
-
O gráfico Silhouette, para avaliar a qualidade dos agrupamentos para diferentes valores de K;
-
Os agrupamentos finais do K-means sobrepostos ao conjunto de dados fictício, para verificar visualmente os resultados do agrupamento e o K ideal escolhido.
Obrigado pelo seu feedback!