Conteúdo do Curso
Cluster Analysis
1. O que é Agrupamento?
3. Como escolher o melhor modelo?
Cluster Analysis
Agrupamento por Deslocamento de Média
Deslocamento de média é o algoritmo de agrupamento baseado em densidade mais simples. Falando de maneira simples, "deslocamento de média" significa "deslocar iterativamente para a média". No algoritmo, cada ponto de dado é deslocado para a "média regional" passo a passo, e a localização do destino final de cada ponto representa o aglomerado ao qual pertence. O algoritmo consiste nos próximos passos:
Passo 1. Para cada ponto de dado, você deve criar uma janela deslizante com um raio especificado (largura de banda).
Passo 2. Desloque cada uma das janelas deslizantes em direção a regiões de maior densidade, movendo seu centroide para a média dos pontos de dados dentro da janela. Esse passo será repetido até que não haja mais aumento no número de pontos na janela deslizante ou o centroide pare de se mover.
Etapa 3. Seleção de janelas deslizantes unindo janelas sobrepostas. Quando várias janelas se sobrepõem, a janela que contém o maior número de pontos é preservada, e as demais são unidas a ela.
Passo 4. Atribua os pontos de dados à janela deslizante onde se encontram. Se o ponto de dado está fora da janela, atribua-o à janela mais próxima.
O Mean shift move as janelas para uma região de maior densidade ao deslocar o seu centróide (centro da janela deslizante) para a média dos pontos de dados dentro da janela deslizante.
Portanto, o algoritmo Mean shift é muito semelhante ao algoritmo K-means: ele também funciona com base na média dos pontos e só pode trabalhar em clusters isolados. Mas há uma diferença significativa: o algoritmo não precisa que o número de clusters seja definido manualmente.
Vejamos um exemplo do uso do agrupamento Mean shift em Python:
Vamos verificar como o algoritmo Mean Shift lida com o conjunto de dados de luas:
No código acima, usamos a classe MeanShift
para criar o modelo: o parâmetro bandwidth
define o raio dentro do qual o valor médio é calculado.
Nota
Na classe
MeanShift
, você pode usar o método.predict()
para fazer previsões baseadas em um modelo já treinado.
Tudo estava claro?
Conteúdo do Curso
Cluster Analysis
1. O que é Agrupamento?
3. Como escolher o melhor modelo?
Cluster Analysis
Agrupamento por Deslocamento de Média
Deslocamento de média é o algoritmo de agrupamento baseado em densidade mais simples. Falando de maneira simples, "deslocamento de média" significa "deslocar iterativamente para a média". No algoritmo, cada ponto de dado é deslocado para a "média regional" passo a passo, e a localização do destino final de cada ponto representa o aglomerado ao qual pertence. O algoritmo consiste nos próximos passos:
Passo 1. Para cada ponto de dado, você deve criar uma janela deslizante com um raio especificado (largura de banda).
Passo 2. Desloque cada uma das janelas deslizantes em direção a regiões de maior densidade, movendo seu centroide para a média dos pontos de dados dentro da janela. Esse passo será repetido até que não haja mais aumento no número de pontos na janela deslizante ou o centroide pare de se mover.
Etapa 3. Seleção de janelas deslizantes unindo janelas sobrepostas. Quando várias janelas se sobrepõem, a janela que contém o maior número de pontos é preservada, e as demais são unidas a ela.
Passo 4. Atribua os pontos de dados à janela deslizante onde se encontram. Se o ponto de dado está fora da janela, atribua-o à janela mais próxima.
O Mean shift move as janelas para uma região de maior densidade ao deslocar o seu centróide (centro da janela deslizante) para a média dos pontos de dados dentro da janela deslizante.
Portanto, o algoritmo Mean shift é muito semelhante ao algoritmo K-means: ele também funciona com base na média dos pontos e só pode trabalhar em clusters isolados. Mas há uma diferença significativa: o algoritmo não precisa que o número de clusters seja definido manualmente.
Vejamos um exemplo do uso do agrupamento Mean shift em Python:
Vamos verificar como o algoritmo Mean Shift lida com o conjunto de dados de luas:
No código acima, usamos a classe MeanShift
para criar o modelo: o parâmetro bandwidth
define o raio dentro do qual o valor médio é calculado.
Nota
Na classe
MeanShift
, você pode usar o método.predict()
para fazer previsões baseadas em um modelo já treinado.
Tudo estava claro?