Conteúdo do Curso
Cluster Analysis
1. O que é Agrupamento?
3. Como escolher o melhor modelo?
Cluster Analysis
Avaliação de Qualidade
Na execução de tarefas reais com dados reais, pode ser difícil entender qual algoritmo usar e se os resultados são suficientemente bons. Para determinar isso, são utilizadas várias técnicas:
- Validação relativa de clusters, que avalia a estrutura de agrupamento variando diferentes valores de parâmetros para o mesmo algoritmo (por exemplo: variar o número de clusters k para K-means, linkage para aglomerativo, eps e min_samples para DBSCAN, etc.).
- Validação interna e externa de cluster significa que usamos métricas internas e externas para estimar a qualidade do agrupamento.
- Regra geral: um grupo estável deve ser preservado ao mudar o método de agrupamento. Por exemplo, se os resultados obtidos usando o método aglomerativo e o método K-means coincidirem em mais de 70%, então a suposição de estabilidade é aceita.
- Usando métodos de reamostragem para avaliar a estabilidade da divisão de agrupamento:
- se a divisão é estável em diferentes subamostras do conjunto de dados original.
- se a divisão é estável após a exclusão de algumas amostras do conjunto de dados original.
- se a divisão é estável após a mudança da ordem dos elementos.
- Tente interpretar os resultados de agrupamento em termos da área de domínio: é possível explicar os resultados do agrupamento e existe alguma lógica neles.
Nota
No contexto de análise de dados, a área de domínio refere-se ao campo ou indústria específica a que os dados pertencem ou estão sendo utilizados. Exemplos de áreas de domínio incluem saúde, finanças, marketing, transporte e muitos outros.
Tudo estava claro?
Conteúdo do Curso
Cluster Analysis
1. O que é Agrupamento?
3. Como escolher o melhor modelo?
Cluster Analysis
Avaliação de Qualidade
Na execução de tarefas reais com dados reais, pode ser difícil entender qual algoritmo usar e se os resultados são suficientemente bons. Para determinar isso, são utilizadas várias técnicas:
- Validação relativa de clusters, que avalia a estrutura de agrupamento variando diferentes valores de parâmetros para o mesmo algoritmo (por exemplo: variar o número de clusters k para K-means, linkage para aglomerativo, eps e min_samples para DBSCAN, etc.).
- Validação interna e externa de cluster significa que usamos métricas internas e externas para estimar a qualidade do agrupamento.
- Regra geral: um grupo estável deve ser preservado ao mudar o método de agrupamento. Por exemplo, se os resultados obtidos usando o método aglomerativo e o método K-means coincidirem em mais de 70%, então a suposição de estabilidade é aceita.
- Usando métodos de reamostragem para avaliar a estabilidade da divisão de agrupamento:
- se a divisão é estável em diferentes subamostras do conjunto de dados original.
- se a divisão é estável após a exclusão de algumas amostras do conjunto de dados original.
- se a divisão é estável após a mudança da ordem dos elementos.
- Tente interpretar os resultados de agrupamento em termos da área de domínio: é possível explicar os resultados do agrupamento e existe alguma lógica neles.
Nota
No contexto de análise de dados, a área de domínio refere-se ao campo ou indústria específica a que os dados pertencem ou estão sendo utilizados. Exemplos de áreas de domínio incluem saúde, finanças, marketing, transporte e muitos outros.
Tudo estava claro?