Implementação em Conjunto de Dados Fictício
Agora será apresentado um exemplo prático de aplicação do agrupamento K-means. Para isso, será utilizado um conjunto de dados fictício. Conjuntos de dados fictícios são conjuntos de dados gerados artificialmente, frequentemente usados para fins de demonstração e aprendizado. Eles permitem controlar as características dos dados e observar claramente como algoritmos como o K-means se comportam.
Conjunto de Dados Fictício
Para esta demonstração, será criado um conjunto de dados fictício utilizando a função make_blobs()
. Esta função é excelente para gerar agrupamentos de pontos de dados de forma visual clara e controlável. Os dados serão gerados com as seguintes características:
-
Número de amostras: será criado um conjunto de dados com
300
pontos de dados; -
Número de centros: o número de agrupamentos reais será definido como
4
. Isso significa que os dados fictícios são projetados para ter quatro grupos distintos; -
Desvio padrão dos agrupamentos: o espalhamento dos pontos de dados dentro de cada agrupamento será controlado, sendo definido como
0.60
para agrupamentos relativamente compactos; -
Estado aleatório: será utilizado um
random_state
fixo para reprodutibilidade, garantindo que a geração dos dados seja consistente a cada execução do código.
X, y_true = make_blobs(n_samples=300,
centers=4,
cluster_std=0.60,
random_state=0)
Implementação do K-Means
Com esses dados fictícios criados, será aplicada a seguir o algoritmo K-means. Será explorado como o K-means tenta particionar esses dados em agrupamentos com base nos princípios apresentados nos capítulos anteriores.
O K-means pode ser inicializado e treinado da seguinte forma em Python:
kmeans = KMeans(n_clusters=k, random_state=42)
kmeans.fit(X)
Para determinar o número ideal de agrupamentos para esses dados, serão utilizados os métodos discutidos nos capítulos anteriores:
-
Método WSS: será calculado o Within-Sum-of-Squares para diferentes valores de K e analisado o gráfico do cotovelo para identificar um possível K ideal;
-
Método do índice de silhueta: será calculado o Índice de Silhueta para diferentes valores de K e examinados o gráfico de silhueta e as médias dos índices para encontrar o K que maximize a qualidade dos agrupamentos.
Por fim, visualizações desempenharão um papel fundamental na implementação. Serão visualizados:
-
O próprio conjunto de dados fictício, para observar a estrutura inerente dos agrupamentos;
-
O gráfico WSS, para identificar o ponto de cotovelo;
-
O gráfico de silhueta, para avaliar a qualidade dos agrupamentos para diferentes valores de K;
-
Os agrupamentos finais do K-means sobrepostos ao conjunto de dados fictício, para verificar visualmente os resultados do agrupamento e o K ideal escolhido.
Obrigado pelo seu feedback!
Pergunte à IA
Pergunte à IA
Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo
Awesome!
Completion rate improved to 2.94
Implementação em Conjunto de Dados Fictício
Deslize para mostrar o menu
Agora será apresentado um exemplo prático de aplicação do agrupamento K-means. Para isso, será utilizado um conjunto de dados fictício. Conjuntos de dados fictícios são conjuntos de dados gerados artificialmente, frequentemente usados para fins de demonstração e aprendizado. Eles permitem controlar as características dos dados e observar claramente como algoritmos como o K-means se comportam.
Conjunto de Dados Fictício
Para esta demonstração, será criado um conjunto de dados fictício utilizando a função make_blobs()
. Esta função é excelente para gerar agrupamentos de pontos de dados de forma visual clara e controlável. Os dados serão gerados com as seguintes características:
-
Número de amostras: será criado um conjunto de dados com
300
pontos de dados; -
Número de centros: o número de agrupamentos reais será definido como
4
. Isso significa que os dados fictícios são projetados para ter quatro grupos distintos; -
Desvio padrão dos agrupamentos: o espalhamento dos pontos de dados dentro de cada agrupamento será controlado, sendo definido como
0.60
para agrupamentos relativamente compactos; -
Estado aleatório: será utilizado um
random_state
fixo para reprodutibilidade, garantindo que a geração dos dados seja consistente a cada execução do código.
X, y_true = make_blobs(n_samples=300,
centers=4,
cluster_std=0.60,
random_state=0)
Implementação do K-Means
Com esses dados fictícios criados, será aplicada a seguir o algoritmo K-means. Será explorado como o K-means tenta particionar esses dados em agrupamentos com base nos princípios apresentados nos capítulos anteriores.
O K-means pode ser inicializado e treinado da seguinte forma em Python:
kmeans = KMeans(n_clusters=k, random_state=42)
kmeans.fit(X)
Para determinar o número ideal de agrupamentos para esses dados, serão utilizados os métodos discutidos nos capítulos anteriores:
-
Método WSS: será calculado o Within-Sum-of-Squares para diferentes valores de K e analisado o gráfico do cotovelo para identificar um possível K ideal;
-
Método do índice de silhueta: será calculado o Índice de Silhueta para diferentes valores de K e examinados o gráfico de silhueta e as médias dos índices para encontrar o K que maximize a qualidade dos agrupamentos.
Por fim, visualizações desempenharão um papel fundamental na implementação. Serão visualizados:
-
O próprio conjunto de dados fictício, para observar a estrutura inerente dos agrupamentos;
-
O gráfico WSS, para identificar o ponto de cotovelo;
-
O gráfico de silhueta, para avaliar a qualidade dos agrupamentos para diferentes valores de K;
-
Os agrupamentos finais do K-means sobrepostos ao conjunto de dados fictício, para verificar visualmente os resultados do agrupamento e o K ideal escolhido.
Obrigado pelo seu feedback!